吴恩达机器学习笔记（三）

标签（空格分隔）：机器学习

1.神经网络

神经网络分为输入层，输出层，隐藏层
输出层是对输入层的运算结果
在输入层中可能会添加偏置单元x0（bios unit）

⎡ ⎣ ⎢ ⎢ ⎢ x 0 x 1 x 2 x 3 ⎤ ⎦ ⎥ ⎥ ⎥ \to ⎡ ⎣ ⎢ ⎢ ⎢ a (2) 1 a (2) 2 a (2) 3 ⎤ ⎦ ⎥ ⎥ ⎥ \to h θ (x)

a (j) i = 第 j 层 第 i 个 单 元 的 激 励 Θ (j) = 从 第 j 层 到 j+1 层 的 映 射 权 重 矩 阵

a (2) 1 = g (Θ (1) 10 x 0 + Θ (1) 11 x 1 + Θ (1) 12 x 2 + Θ (1) 13 x 3) a (2) 2 = g (Θ (1) 20 x 0 + Θ (1) 21 x 1 + Θ (1) 22 x 2 + Θ (1) 23 x 3) a (2) 3 = g (Θ (1) 30 x 0 + Θ (1) 31 x 1 + Θ (1) 32 x 2 + Θ (1) 33 x 3) h Θ (x) = a (3) 1 = g (Θ (2) 10 a (2) 0 + Θ (2) 11 a (2) 1 + Θ (2) 12 a (2) 2 + Θ (2) 13 a (2) 3)

如 果 有 s j 在 j 层 以 及 有 s j + 1 在 j + 1 层, 那 么 Θ (j) 的 维 度 将 会 是 s j + 1 \times (s j + 1) .

例如：第一层有两个输入，第二层有四个激励单元，则θ1的维度是4*3

令z(2)k=Θ(1)k,0x0+Θ(1)k,1x1+⋯+Θ(1)k,nxn

a (2) 1 = g (z (2) 1) a (2) 2 = g (z (2) 2) a (2) 3 = g (z (2) 3)

则

x = ⎡ ⎣ ⎢ ⎢ ⎢ x 0 x 1 \dots x n ⎤ ⎦ ⎥ ⎥ ⎥ z (j) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ z (j) 1 z (j) 2 \dots z (j) n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

令x=a1,则

z (j) = Θ (j - 1) a (j - 1)

如果有偏置单元的话则z(j+1)=Θ(j)a(j)

最后的结果可以表示为：hΘ(x)=a(j+1)=g(z(j+1))

输入X1与X2的逻辑值，预测X1&&X2的值
运算过程如下

⎡ ⎣ ⎢ x 0 x 1 x 2 ⎤ ⎦ ⎥ \to [g (z (2))] \to h Θ (x)

其中X1与X2为输入层，x0=1
设置Θ(1)=[−302020]
则：

h Θ (x) = g (- 30 + 20 x 1 + 20 x 2) x 1 = 0 a n d x 2 = 0 t h e n g (- 30) \approx 0 x 1 = 0 a n d x 2 = 1 t h e n g (- 10) \approx 0 x 1 = 1 a n d x 2 = 0 t h e n g (- 10) \approx 0 x 1 = 1 a n d x 2 = 1 t h e n g (10) \approx 1

例如将图片分为四类，则应该让假设函数返回一个四维向量分别表示与四类图片的相似程度
同时训练集Xi也应当对应一个四维向量yi
吴恩达机器学习笔记（三）

1.代价函数(Cost function)

h = g (X θ) J (θ) = 1 m \cdot (- y T log (h) - (1 - y) T log (1 - h)) (重 要)

其中：g(z)=11+e(−z)
2.梯度函数

g r a d = 1 m X T (h θ (x) - y)

3.加上正则化后

J (θ) = 1 m \cdot (- y T log (h) - (1 - y) T log (1 - h)) + λ 2 m (θ T θ - θ (1, 1) θ (1, 1)) (重 要)

\partial J (θ) \partial θ 0 = \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j (j=0)

g r a d = 1 m X T (h θ (x) - y) + λ m θ (j!=0)