kaggle之房价分析与预测

数据

kaggle地址:https://www.kaggle.com/c/house-prices-advanced-regression-techniques
不能*的同学可以去我的资源里下

数据分析

一、合并数据集

在此我将训练集和测试集合并到一个数据集中,仅在机器学习时将它俩分开。
先导入要使用的包,这里使用的是seaborn,会把matplotlib的样式覆盖。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

数据合并

sample_sub = pd.read_csv('./data/sample_submission.csv')
test_data = pd.read_csv('./data/test.csv')
train_data = pd.read_csv('./data/train.csv')
test_data = pd.merge(test_data, sample_sub, on=['Id'])
data = train_data.append(test_data, ignore_index=True)

二、房价直方图

使用的是seaborn

data = self.merge_data()
sns.distplot(data['SalePrice'])
plt.savefig('./pic/price_map.png')
plt.show()

结果:
kaggle之房价分析与预测