python机器学习及实践-第二章第一节
线性分类器
拿到数据,首先对数据进行预处理,去除掉带有缺失值的数据
注:也可以用类似s.replace(’?’,np.nan)#用np.nan替换?//// s.replace({’?’:‘NA’})#用NA替换?等方法替换
传入how=‘all’滤除全为NaN的行
注:value_counts()是一种查看表格某列中有多少个不同值的快捷方法,并计算每个不同值有在该列中有多少重复值。value_counts()是Series拥有的方法,一般在DataFrame中使用时,需要指定对哪一列或行使用
注:fit_transform:不仅计算训练数据的均值和方差,还会基于计算出来的均值和方差来转换训练数据,从而把数据转换成标准的正太分布
transform:很显然,它只是进行转换,只是把训练数据转换成标准的正态分布
注:左面一列是分类标签,support是数量 ,macro avg 宏平均 , weighted avg 加权平均
可以看出:LR比 SGD classifier有更高的准确性。因为LR用的是解析的方式,而SGD用的是梯度法。