Microsoft Azure Machine Learning使用探索
写在前面
感谢公司提供的Microsoft Azure 机器学习平台
我不是微软的托哈,但是一用觉得,这东西太方便了吧!
最大的优点在于快速试错
上传数据集
添加新的实验
在页面最左下角有一个加号,点一下然后是下图:
选黄色的加号
然后到实验区,把输入的csv拽进来
点这个训练数据集,右键选visualize可视化
众所周知Titanic数据集里有PClass这个字段,表示做急等藏,PClass可视化如下图
其实PClass是个离散型变量,但是Microsoft Azure检测不出来。没关系,不影响看。
再来看一个连续型变量:
缺失值处理
如何看变量是否有缺失值
我就在想处理缺失值的模块是什么呢,然后搜了一下 missing,就发现这个clean missing data模块了
缺失值处理模块
突然接触这个模块我是不知道它怎么用的,那怎么办呢?就点这个模块,右键 有个?help选项,选它就会弹出这个模块使用的说明
我选了Age和Cabin列,然后再选择缺失值处理方法,那么这个缺失值处理方法就作用于选中的所有列
如果想对选中的列进行不同的缺失值处理方法,那么只能顺序拼接不同的clean missing data模块
用户提示很友好,右键能看出来,第一个输出(圈1)返回的是经过缺失值处理后的数据,(圈2)返回的是这个缺失值处理模块(方便以后服用)
分割数据集 Split Data
Split Data 有1 和2 两个出口,据我看的别的Demo左边的1口是训练集,右边的2口是测试集
模型训练 Train Model
如图所示,TrainModel模块左入口是模型,右入口是训练集
对验证集打分 Score Model
Score Model的左1入口是Train Model,右一入口是验证集
Score Model可视化:
在Score Model模块右键选圈1选Visualize,可见下图
Scored Labels是指预测的标签(左边有真实标签那列,一张图放不下就没截图);
Scored Probabilitites是指模型推断的把握比如说第二行: 有0.999579的把握推断标签为1
比较两个模型 Evaluate Model
Evaluate的输入是两个不同的Score Model,如下图
点Evaluate Model,右键选圈一选可视化,可以看到下图
更多例子
更多例子用户可以去 AI Gallary里面看