[NN]回归和分类的线性模型总结 Linear Model for Regression and Classification

前言

由于我时间实在不充裕,没能提供中文翻译,给观众老爷造成的不便本人深感抱歉,那就给观众老爷表演个大石碎胸口!
[NN]回归和分类的线性模型总结 Linear Model for Regression and Classification

正文

思维导图原址请点这里
[NN]回归和分类的线性模型总结 Linear Model for Regression and Classification

1. 极大似然 Miximum Likelihood

f ∗ ( x ) = a r g m a x ∏ i = 1 n p ^ ( y i ∣ f ( x i ) ) = − a r g m i n ∑ i = 1 n l o g [ p ^ ( y i ∣ f ( x i ) ] f^{*}(x)=arg max \prod_{i=1}^{n}\hat{p}(y_{i}|f(x_{i}))=-argmin\sum_{i=1}^{n}log[\hat{p}(y_{i}|f(x_{i})] f(x)=argmaxi=1np^(yif(xi))=argmini=1nlog[p^(yif(xi)]

2. 凸函数与非凸函数 Convex and Non-Convex

请注意*数学界某些机构关于函数凹凸性定义和国外的定义是相反的。Convex Function在某些*的数学书中指凹函数。Concave Function指凸函数。

3. 梯度下降 Gradient Decent

θ t + 1 = θ t − η ∇ J ( θ t ) \theta_{t+1}=\theta_{t}-\eta∇J(\theta_{t}) θt+1=θtηJ(θt)
其中, η \eta η 表示步长(Step Size)或者学习速率(Learning Rate)

4. 线性函数和偏置 Linear Model with Bias

f ( x ) = W T x + b f(x)=W^{T}x+b f(x)=WTx+b

5. 最小绝对偏差 Least Absolute Deviation(LAD)

W ∗ = a r g m i n 1 n ∑ i = 1 n ∣ y i − f ( x i ) ∣ W^{*}=argmin\frac{1}{n}\sum_{i=1}^{n}|y_{i}-f(x_{i})| W=argminn1i=1nyif(xi)

6. 最小二值和封闭解 Least Square and Closed-form Solution
  • W ∗ = a r g m i n 1 n ∑ i = 1 n ( y i − f ( x i ) ) 2 W^{*}=argmin\frac{1}{n}\sum_{i=1}^{n}(y_{i}-f(x_{i}))^{2} W=argminn1i=1n(yif(xi))2
  • W ∗ = ( X T X ) − 1 X T y W^{*}=(X^{T}X)^{-1}X^{T}y W=(XTX)1XTy
7. Sigmoid

σ = e x p ( s ) e x p ( s ) + 1 \sigma=\frac{exp(s)}{exp(s)+1} σ=exp(s)+1exp(s)

8. 独热 One Hot

假设一个三分类任务:猫,狗,其他,其对应类编号为 0, 1, 2.那么对应的独热编码为:[1, 0, 0],[0, 1, 0],[0, 0, 1]

9. Softmax

S o f t m a x ( s i ) = e x p ( s i ) ∑ j e x p ( s j ) Softmax(s_{i})=\frac{exp(s_{i})}{\sum_{j} exp(s_{j})} Softmax(si)=jexp(sj)exp(si)

10. 分类分布 Categorical Distribution

p ( y ∣ f ( x ) ) = ∏ c = 1 c f c ( x ) y c p(y|f(x))=\prod_{c=1}^{c}f_{c}(x)^{y_{c}} p(yf(x))=c=1cfc(x)yc

各位观众老爷,给个赞再走吧~~