零基础刷题总结系列一（数理统计+机器学习+python编程）

来源：牛客网

题目一

链接：https://www.nowcoder.com/questionTerminal/ce5b813660b94c2bb27c5a274bce6d90
零基础刷题总结系列一（数理统计+机器学习+python编程）

分析

大牛的理解：信息增益通俗讲就是指区分度。如果对于一个属性，其结果都是等概率出现的，即信息熵为1，信息增益为0，那么这个属性就没有任何区分度，无实际意义。（个人理解：结果都是等概率出现意思就是结果的不确定性大，不确定性大，信息熵就越大。等概率出现，所有可能的情况都会出现）就像本题中年龄一样，年龄高的的人是否接受调查的人都是1/2，年龄低的人是否接受调查的人也分别占1/2,那么年龄属性没有任何实际意义，有没有都一样了。不得不说Shannon发明的这个信息熵太强大了。

答案

零基础刷题总结系列一（数理统计+机器学习+python编程）

题目二

若用 $φ (ｎ)$ 表示欧拉函数，请问： $φ (56)$ 的欧拉函数之积为？ 24

分析

零基础刷题总结系列一（数理统计+机器学习+python编程）
其中，其中 $p_{1}, p_{2} \dots \dots p_{n}$ 为 $x$ 的所有质因数， $x$ 是不为0的整数。

答案

$φ （ 56 ） = 56 * (1 - 1 / 2) * (1 - 1 / 7) = 24$

题目三

下列哪个不属于常用的文本分类的特征选择算法？
卡方检验值
互信息
信息增益
主成分分析（不属于）

分析

来自https://blog.****.net/ztf312/article/details/50890099
常采用特征选择方法。常见的六种特征选择方法：
1）DF(Document Frequency) 文档频率
DF:统计特征词出现的文档数量，用来衡量某个特征词的重要性
2）MI(Mutual Information) 互信息法
互信息法用于衡量特征词与文档类别直接的信息量。
如果某个特征词的频率很低，那么互信息得分就会很大，因此互信息法倾向”低频”的特征词。
相对的词频很高的词，得分就会变低，如果这词携带了很高的信息量，互信息法就会变得低效。
3）(Information Gain) 信息增益法
通过某个特征词的缺失与存在的两种情况下，语料中前后信息的增加，衡量某个特征词的重要性。
4）CHI(Chi-square) 卡方检验法
利用了统计学中的”假设检验”的基本思想：首先假设特征词与类别直接是不相关的
如果利用CHI分布计算出的检验值偏离阈值越大，那么更有信心否定原假设，接受原假设的备则假设：特征词与类别有着很高的关联度。
5）WLLR(Weighted Log Likelihood Ration)加权对数似然
6）WFO（Weighted Frequency and Odds）加权频率和可能性

零基础刷题总结系列一（数理统计+机器学习+python编程）

题目一

分析

答案

题目二

分析

答案

题目三

分析

相关推荐