机器学习一些零碎知识,逐步更新

机器学习

1、x:属性值 y:目标值 如:2x+3=y,
Ax2+b=y Ax^2+b=y
2、拟合:构建的算法符合给定数据的特征

3、欠拟合:算法不太符合样本的数据特征

4、过拟合:算法太符合样本数据的特征,对于实际生产中的数据特征无法拟合

有监督学习

判别式模型(Discriminative Model):直接对条件概率p(y|x)进行建模,常见判别模型有:线性回归、决策树、支持向量机SVM、k近邻、神经网络等;

类型特征转换之1-of-k

**功能:**将非数值型的特征值转换为数值型的数据

将10000 ->10:(0.0001,0.21313)round函数随机生成小树类型

文本数据抽取

**词袋法:**将文本当作一个无序的数据集合,文本特征可以采用文本中的词条T进行体现,那么文本中出现的所有词条及其出现的次数就可以体现文档的特征。

TF-IDF:词条的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反 比下降;也就是说词条在文本中出现的次数越多,表示该词条对该文本的重要性越高,词条在所有文本中出现 的次数越少,说明这个词条对文本的重要性越高。TF(词频)指某个词条在文本中出现的次数,一般会将其进行归 一化处理(该词条数量/该文档中所有词条数量);IDF(逆向文件频率)指一个词条重要性的度量,一般计算方式为 总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。TF-IDF实际上是:TF * IDF。

神经网络之BP算法

机器学习一些零碎知识,逐步更新

计算的理解,链式求道法则。最终out,与参数都可以求出来,上图求out,下图求参
机器学习一些零碎知识,逐步更新

神经网络之DNN问题

1、一般来讲,可以通过增加神经元和网络层次来提升神经网络的学习能力,使 其得到的模型更加能够符合数据的分布场景;但是实际应用场景中,神经网 络的层次一般情况不会太大,因为太深的层次有可能产生一些求解的问题
2、在DNN的求解中有可能存在两个问题:梯度消失和梯度爆炸;我们在求解 梯度的时候会使用到链式求导法则,实际上就是一系列的连乘,如果每一层 都小于1的话,则梯度越往前乘越小,导致梯度消失,而如果连乘的数字在 每层都是大于1的,则梯度越往前乘越大,导致梯度爆炸.