kaggle之房价分析与预测
数据
kaggle地址:https://www.kaggle.com/c/house-prices-advanced-regression-techniques
不能翻墙的同学可以去我的资源里下
数据分析
一、合并数据集
在此我将训练集和测试集合并到一个数据集中,仅在机器学习时将它俩分开。
先导入要使用的包,这里使用的是seaborn,会把matplotlib的样式覆盖。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
数据合并
sample_sub = pd.read_csv('./data/sample_submission.csv')
test_data = pd.read_csv('./data/test.csv')
train_data = pd.read_csv('./data/train.csv')
test_data = pd.merge(test_data, sample_sub, on=['Id'])
data = train_data.append(test_data, ignore_index=True)
二、房价直方图
使用的是seaborn
data = self.merge_data()
sns.distplot(data['SalePrice'])
plt.savefig('./pic/price_map.png')
plt.show()
结果: