EM和PCA和LDA和Ensemble Learning

EM

  • 琴生不等式Jensen Inequality

参考下图黑洞传送门
EM和PCA和LDA和Ensemble Learning

  • MLE最大似然估计
  1. 一个数据集出现了,我们就最大化这个数据集的似然概率。
  2. 数据集中每个点都是独立出现的,因此可以概率连乘。
  3. 求得使得似然概率最大(当前数据集出现的估计概率)的参数。
  • MLE的对数累加形式
  1. log是凹函数,因此
    log(E(x))E(log(x)) log(E(x)) \ge E(log(x))
    1. 简便记忆法,log(累加)>=累加log
    2. 等号成立: 随机变量是常数
      EM和PCA和LDA和Ensemble Learning

EM和PCA和LDA和Ensemble Learning

  • 最大化下界

  • EM 步骤
    EM和PCA和LDA和Ensemble Learning

无监督的降维:PCA

  • 数据矩阵中心化
  • 投影到例如某几个轴上,w1,w2,w3.......wiw_1,w_2, w_3.......w_i
  1. 如何投影?
    wkTxiw_k^Tx_i
  • 使得方差 最大化: 一般信息方差大于噪声!
    1ni=1NwiTxi2\frac {1}{n} \sum_{i=1}^{N}||w_i^Tx_i||^2
    max1ni=1NwkTxixiTwk max \quad \frac {1}{n} \sum_{i=1}^{N}w_k^Tx_ix_i^Tw_k
    假设 X=[x1x2x3.....xn]X=[x_1 \quad x_2 \quad x_3.....x_n],其中 xix_iM×1M \times 1维数据向量
    max1nwkTXXTwks.t.wk=1max \quad \frac {1}{n}w_k^TXX^Tw_k \quad s.t. ||w_k||=1
    对称矩阵,必定半正定,上式存在最大值
    reference
    EM和PCA和LDA和Ensemble Learning

拉格朗日来了
maxwkTXXTwks.t.wk=1max \quad w_k^TXX^Tw_k \quad s.t. ||w_k||=1
==>
L(wk)=wkTXXTwk+λ(1wkTwk) L (w_k)=w_k^TXX^Tw_k +\lambda (1-w_k^Tw_k)
求导=0
L(wk)wk=2XXTwk2λwk=0\frac{\partial L(w_k)}{\partial w_k} = 2XX^Tw_k-2\lambda w_k=0
2L(wk)wk2=2XTX2λ0\frac {\partial ^2L(w_k)}{\partial w_k^2} = 2X^TX-2\lambda \leq 0
EM和PCA和LDA和Ensemble Learning

发现:
XXTwk=λwkXX^Tw_k= \lambda w_k
结论:
特征值最大的轴上投影最佳

有监督的降维:LDA

  1. 投影后,不同类之间,类中心相互离得越远越好。Between Class Seaparability
  2. 投影后,类内方差越小越好,所有的方差之和越小越好. Within Variance
  3. 两类的LDA:
    min J(w)=min(m2m1)2s1+s22 \min \space J(w) = \min \frac {(m_2-m_1)^2}{s_1^2+s_2^2}
    EM和PCA和LDA和Ensemble Learning

Ensemble Learning

  • RF随机森林:Boostrapping自助法/bagging
  1. 分类:投票 / 回归:平均
  2. 有放回地抽样样本,当做森林里某颗树的数据集
  3. 对这颗树,每次随机抽取d个特征作为特征集合,按照决策树增益标准分支。
  4. 自由生长,不要停止或者限制
  5. 随机森林创造者本人的主页
  6. 误差与树之间的correlation有关,大的correlation导致大的误差
  7. 个体树效果越好的话,整体误差会低,整体strength大
  8. 并行
    EM和PCA和LDA和Ensemble Learning
    EM和PCA和LDA和Ensemble Learning
  • AdaBoost
  1. 串行 boosting
  2. 代价函数是指数函数.
    Li=exp(yiH(x)) L_i= \exp(-y_iH(x))
  3. 子分类器的权重由错误率得出
  4. 加大错误分类的权重,减小分对的样本权重

EM和PCA和LDA和Ensemble Learning
EM和PCA和LDA和Ensemble Learning
图的reference

  • Dropout
  1. 一般见于神经网络,防止过拟合
  2. 机制只工作在训练中,前向传播和后向传播中, p表示正常运作的概率,通过多重伯努利分布选择。
  3. “集成”学习
  4. Dropout论文
    EM和PCA和LDA和Ensemble Learning