零基础刷题总结系列一(数理统计+机器学习+python编程)
来源:牛客网
题目一
链接:https://www.nowcoder.com/questionTerminal/ce5b813660b94c2bb27c5a274bce6d90
分析
大牛的理解:信息增益通俗讲就是指区分度。如果对于一个属性,其结果都是等概率出现的,即信息熵为1,信息增益为0,那么这个属性就没有任何区分度,无实际意义。(个人理解:结果都是等概率出现意思就是结果的不确定性大,不确定性大,信息熵就越大。等概率出现,所有可能的情况都会出现)就像本题中年龄一样,年龄高的的人是否接受调查的人都是1/2,年龄低的人是否接受调查的人也分别占1/2,那么年龄属性没有任何实际意义,有没有都一样了。不得不说Shannon发明的这个信息熵太强大了。
答案
题目二
若用表示欧拉函数,请问:的欧拉函数之积为? 24
分析
其中,其中为的所有质因数,是不为0的整数。
答案
题目三
下列哪个不属于常用的文本分类的特征选择算法?
卡方检验值
互信息
信息增益
主成分分析(不属于)
分析
来自https://blog.****.net/ztf312/article/details/50890099
常采用特征选择方法。常见的六种特征选择方法:
1)DF(Document Frequency) 文档频率
DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性
2)MI(Mutual Information) 互信息法
互信息法用于衡量特征词与文档类别直接的信息量。
如果某个特征词的频率很低,那么互信息得分就会很大,因此互信息法倾向”低频”的特征词。
相对的词频很高的词,得分就会变低,如果这词携带了很高的信息量,互信息法就会变得低效。
3)(Information Gain) 信息增益法
通过某个特征词的缺失与存在的两种情况下,语料中前后信息的增加,衡量某个特征词的重要性。
4)CHI(Chi-square) 卡方检验法
利用了统计学中的”假设检验”的基本思想:首先假设特征词与类别直接是不相关的
如果利用CHI分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的备则假设:特征词与类别有着很高的关联度。
5)WLLR(Weighted Log Likelihood Ration)加权对数似然
6)WFO(Weighted Frequency and Odds)加权频率和可能性