机器学习

1、x：属性值 y：目标值如：2x+3=y，
$Ax^2+b=y$
2、拟合：构建的算法符合给定数据的特征

3、欠拟合：算法不太符合样本的数据特征

4、过拟合：算法太符合样本数据的特征，对于实际生产中的数据特征无法拟合

有监督学习

判别式模型(Discriminative Model):直接对条件概率p(y|x)进行建模，常见判别模型有:线性回归、决策树、支持向量机SVM、k近邻、神经网络等;

类型特征转换之1-of-k

**功能:**将非数值型的特征值转换为数值型的数据

将10000 ->10:（0.0001，0.21313）round函数随机生成小树类型

文本数据抽取

**词袋法:**将文本当作一个无序的数据集合，文本特征可以采用文本中的词条T进行体现，那么文本中出现的所有词条及其出现的次数就可以体现文档的特征。

TF-IDF:词条的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降;也就是说词条在文本中出现的次数越多，表示该词条对该文本的重要性越高，词条在所有文本中出现的次数越少，说明这个词条对文本的重要性越高。TF(词频)指某个词条在文本中出现的次数，一般会将其进行归一化处理(该词条数量/该文档中所有词条数量);IDF(逆向文件频率)指一个词条重要性的度量，一般计算方式为总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。TF-IDF实际上是:TF * IDF。

神经网络之BP算法

机器学习一些零碎知识，逐步更新

计算的理解，链式求道法则。最终out，与参数都可以求出来，上图求out，下图求参
机器学习一些零碎知识，逐步更新

神经网络之DNN问题

1、一般来讲，可以通过增加神经元和网络层次来提升神经网络的学习能力，使其得到的模型更加能够符合数据的分布场景;但是实际应用场景中，神经网络的层次一般情况不会太大，因为太深的层次有可能产生一些求解的问题
2、在DNN的求解中有可能存在两个问题:梯度消失和梯度爆炸;我们在求解梯度的时候会使用到链式求导法则，实际上就是一系列的连乘，如果每一层都小于1的话，则梯度越往前乘越小，导致梯度消失，而如果连乘的数字在每层都是大于1的，则梯度越往前乘越大，导致梯度爆炸.