0308_innovation project_PCA&logistic regression

PCA原理

principal component analysis
主成分分析,用于数据降维
将n维特征映射到k维上,这k维是全新的正交特征,称为主成分。

logistic regression原理

一种机器学习算法;
一开始是为了解决二分类问题;
sigmoid函数取值范围为(0,1)
0308_innovation project_PCA&logistic regression
h(theta)则为计算出来的该样本的概率,大于0.5则认为是正样本,小于0.5认为是负样本。
0308_innovation project_PCA&logistic regression
损失函数:想信息熵一样
0308_innovation project_PCA&logistic regression
前面乘一个样本标签系数,转换公式的形式,则就可以保证判断正确时候cost为0。称为交叉熵代价函数。
0308_innovation project_PCA&logistic regression
然后∑求和所有的训练集样本
0308_innovation project_PCA&logistic regression
我们的参数是最开始的h(theta)里的向量theta,所以求得最小的theta就可以了。
采用梯度下降法:
数学推导可以推出来偏J(θ)比偏θ为下式
0308_innovation project_PCA&logistic regression
最后一项应该是第i个样本的第j个特征。
End!

logistics regression过渡到多分类

原理:
一共K类,相当于K-1个独立二元逻辑回归。
第一类看作正样本,其他看作负样本,得到该类概率h(theta)
第二类看作正样本,其他看作负样本,得到第二类概率h(theta)
然后取所有样本里面最大的概率,认为此时标记样本是待预测样本。