kaggle中的房价预测的一些数据分析方法详解
1.查看某些属性值与预测标签值的关联度
可以看出属性GrLivArea与SalePrice基本是正相关的关系。
TotalBsmtSF的系数比上一个更大一些
2.查看类别属性与salesprice的关系
可以看出,overallQual的类别数越大,saleprice也明显越高
虽然无法完全看出关系,但可以看出salesprice随着年份越新,售价存在逐渐提高的现象。
3.相关矩阵(heatmap style)
这个图是了解相关程度的很好的方法。我们也能从图中看出多重共线性,而且也能看出上面说过的那几个和saleprice的确存在很大的关联。
saleprice关联矩阵(zoomed heatmap style)
这是选了最大关联的10个属性绘制的图,所以其实还是很重要的。
从这个图中可以看到,'OverallQual', 'GrLivArea' and 'TotalBsmtSF'与saleprice相关度很高,重点考虑
'GarageCars' and 'GarageArea' 也是关联很大的属性,但是这两个属性本身就像兄弟一样,无法分开看,所以留下一个关联大的就好GarageCars
'TotalBsmtSF' and '1stFloor' 似乎也是双胞胎兄弟,所以也留下一个就好。
然后就是这些属性之间的巨大散点图