Softmax

自己的一点理解，感觉还是要记下来…

Softmax 是将LR用于多分类, 就按照类比的思路写下来。

先简单说一下LR

首先，还是要基于这个框架（如下）做一个假设函数 （hypothesis function)
Softmax

假设自变量 x 是多维向量，也可以理解为多维特征吧：

x = [x 1, x 2, . . ., x n]

我们就可以把假设函数设为：
Softmax

为了简化，x0=1, 即 x=[1,x1,x2,...,xn]，就有：
Softmax

此时 θ 是一个1 * n+1的向量

然后我们在将这个假设函数代入Sigmoid函数：
Softmax

然后定义loss function, 做梯度下降。

那类比到Softmax；因为解决的问题是多分类，Sigmoid函数就解决不了问题了。
但有的时候我不想这样，因为这样会造成分值小的那个饥饿。所以我希望分值大的那一项经常取到，分值小的那一项也偶尔可以取到，那么我用softmax就可以了
现在还是a和b，a>b，如果我们取按照softmax来计算取a和b的概率，那a的softmax值大于b的，所以a会经常取到，而b也会偶尔取到，概率跟它们本来的大小有关。所以说不是max，而是 Soft max
所以这里引入Softmax函数：
假设 V=[v1,v2,...vm]
那么第i个元素的Softmax值：