您的位置: 首页 > 文章 > 【胶囊网络-CapsNet】李宏毅CapsNet课程笔记

【胶囊网络-CapsNet】李宏毅CapsNet课程笔记

分类: 文章 • 2025-02-27 11:10:05

Capsule

神经网络和胶囊网络区别: 神经网络每个神经元输出的是一个标量，胶囊网络输出是一个向量。

【胶囊网络-CapsNet】李宏毅CapsNet课程笔记

一个神经元检测一种pattern，例如一个神经元检测往左的鸟嘴，一个神经元是检测往右的鸟嘴。
而胶囊是检测某一个种类的pattern。例如鸟嘴。

【胶囊网络-CapsNet】李宏毅CapsNet课程笔记

其中， $W^1, W^2$ 是通过训练决定的，而 $C_1, C_2$ 是通过动态路由算法得到的。可以拿max pooling做类比。

动态路由算法

【胶囊网络-CapsNet】李宏毅CapsNet课程笔记

通过内积来更新b，即 $u^i$ 与输出向量的内积越大，权重就越高。展开可以看到：

【胶囊网络-CapsNet】李宏毅CapsNet课程笔记

T是一个超参数。从这个结构来看，每一步的输出都是作为下一步的输入，与RNN很相似。

【胶囊网络-CapsNet】李宏毅CapsNet课程笔记

对于一个胶囊网络，具体形式也可以是CNN，将其max pooling和非线性变换用胶囊替代。
上图中，有两个任务，分别是分类和图像重构。

对于分类任务，每个胶囊的输出向量V， $||V^1||$ 对应类别1的概率。n个类别做softmax之后就是归一化概率。

对于重构任务，利用胶囊的输出向量，输入到decoder网络，对图像进行重构。

实验结果

【胶囊网络-CapsNet】李宏毅CapsNet课程笔记

从结果可知使用CapsNet和重构任务效果取得最好。
同时，把MNIST的测试集做affine transformation。是的测试集和训练集分布不一致，在此测试集上，CapsNet效果下降到79%，而CNN下降到66%。

从结果上也说明，CapsNet更加鲁棒。

可视化

【胶囊网络-CapsNet】李宏毅CapsNet课程笔记

如何分析 $v^i$ 代表的特征，论文将 $v^i$ 通过重构网络，将其展示为可视化的形式，可以看出去有些v代表是笔画的粗细、旋转等。

MultiMNIST

重构能力。
【胶囊网络-CapsNet】李宏毅CapsNet课程笔记

训练集和测试集都是重叠的数字，将重叠的数字分离出来。
(并非训练集是非重叠，测试集是重叠。原谅我笑了，的确也说明CapsNet并非像很多文章介绍的那样神奇)
例如第一幅图，是2和7的重叠图案，而标签是2和7，然后2和7重构。

Discussion

Invariance VS Equivariance

【胶囊网络-CapsNet】李宏毅CapsNet课程笔记

Invariance: 不同的输入，保证输出不变，例如分类问题。

Equivariance：不同的输入，输出也不同。但是对于任务，知道该忽略哪一些不同，有点像attention思想。

【胶囊网络-CapsNet】李宏毅CapsNet课程笔记

例如，CNN中，经过max pooling之后，输出是一样的。

而CapsNet，通过向量的模表示概率（Invariance），方向表示不同，具有Equivariance。

在CapsNet中，其知道输入之间的差别，但是对于最终的概率

Dynamic Routing

【胶囊网络-CapsNet】李宏毅CapsNet课程笔记

attention + Multi-hop

类似于memory network，见http://www.shuang0420.com/2017/12/04/%E8%AE%BA%E6%96%87%E7%AC%94%E8%AE%B0%20-%20Memory%20Networks/

实验：讲 $c_i$ 通过BP训练和动态路由训练作对比，证明其有效性。

【胶囊网络-CapsNet】李宏毅CapsNet课程笔记

Reference

https://www.youtube.com/watch?v=UhGWH3hb3Hk&t=0s