scikit-learn机器学习——第七章 复习题

1.什么是信息熵?其计算公式是什么?

信息的量化。

一条信息的信息量和它的不确定性有直接关系。一个问题不确定性越大,要搞清楚这个问题,需要了解的信息就越多,其信息熵越大。

公式:scikit-learn机器学习——第七章 复习题

2.什么是信息增益?

特征划分数据集前后信息熵的变化值。

3.在决策树创建过程中,用什么办法来选择特征,从而进行数据集的划分?

选择信息增益最大的特征

4.决策树如何处理连续值的特征?

对连续数值离散化

5.除了信息增益外,还有什么标准可以用来选择决策树的特征?

基尼不纯度

6.解决决策树过拟合的方法有哪些?

前剪枝,后剪枝

7.DecisionTreeClassifier提供了哪些参数来解决决策树过拟合问题?

max_depth,min_samples_split,min_samples_leaf,max_leaf_nodes,min_impurity_split

8.运行ch07.02.ipynb的实例代码,试着考察min_samples_split这个参数的变化与模型准确性的关系。

scikit-learn机器学习——第七章 复习题

9.请读者登录https://www.kaggle.com,注册一个账号。以ch07.02.ipynb代码为基础,按照https:www.kaggle.com/c/titanic#evaluation的要求,计算test.csv的预测值,并把结果提交到kaggle.com上。

 

10.针对本章的预测泰坦尼克号幸存者数据集,使用随机森林对模型进行训练,观察训练出的模型的准确性和稳定性。

scikit-learn机器学习——第七章 复习题

scikit-learn机器学习——第七章 复习题