0308_innovation project_PCA&logistic regression

PCA原理

principal component analysis
主成分分析，用于数据降维
将n维特征映射到k维上，这k维是全新的正交特征，称为主成分。

logistic regression原理

一种机器学习算法；
一开始是为了解决二分类问题；
sigmoid函数取值范围为（0，1）
0308_innovation project_PCA&logistic regression
h(theta)则为计算出来的该样本的概率，大于0.5则认为是正样本，小于0.5认为是负样本。

损失函数：想信息熵一样

前面乘一个样本标签系数，转换公式的形式，则就可以保证判断正确时候cost为0。称为交叉熵代价函数。
0308_innovation project_PCA&logistic regression
然后∑求和所有的训练集样本

我们的参数是最开始的h(theta)里的向量theta，所以求得最小的theta就可以了。
采用梯度下降法：
数学推导可以推出来偏J（θ）比偏θ为下式

最后一项应该是第i个样本的第j个特征。
End！

logistics regression过渡到多分类

原理：
一共K类，相当于K-1个独立二元逻辑回归。
第一类看作正样本，其他看作负样本，得到该类概率h(theta)
第二类看作正样本，其他看作负样本，得到第二类概率h(theta)
然后取所有样本里面最大的概率，认为此时标记样本是待预测样本。

0308_innovation project_PCA&logistic regression

PCA原理

logistic regression原理

logistics regression过渡到多分类

相关推荐