[解读] Deep Clustering for Unsupervised Learning of Visual Features

链接: https://arxiv.org/abs/1807.05520v2

本文通过在传统的卷积网络中嵌入 k 均值聚类算法, 得到伪标签, 实现无监督的视觉特征学习, 也是一种自监督学习.

本文的改进

本文提出了一种端到端训练的无监督的视觉特征学习的方法. 传统的有监督的视觉特征学习的优化目标如下公式所示:
$\min _{\theta, W} \frac{1}{N} \sum_{n=1}^{N} \ell\left(g_{W}\left(f_{\theta}\left(x_{n}\right)\right), y_{n}\right),$
其中 $f$ 是卷积网络, $g$ 是多层感知分类器, $x$ 是一个图片样本, $y$ 是其对应的标签. 优化目标是最小化预测标签和真实标签之间的误差, 从而学习到视觉特征.

本文改进在使用 k 均值聚类的方法, 为每个样本分配一个标签, 从而实现无监督的端到端学习. 如下图所示, 对于卷积后生成的特征进行 k 均值聚类, 从而得到伪标签.

[解读] Deep Clustering for Unsupervised Learning of Visual Features

作者提到, 这个改进的想法来源于一个这样的事实: 一个使用正态分布来初始化的卷积网络无法生成好的特征表示, 然而使用这个初始化的卷积网络进行迁移学习, 即用一个多层感知器对生成的特征表达进行分类训练, 注意这个过程中不改变卷积网络的权重. 最终在 ImageNet 数集上实现了 12% 的准确度, 这远远高于随机猜测的准确度 0.1% [42]. 这表明随机初始化的卷积网络对于输入有较强的先验性. 聚类效果使用 NMI 指标来衡量.

可能的进一步改进

虽然一个随机初始化的卷积网络可以在一定程度上提取出视觉特征, 但聚类得到的结果不是十分可靠, 可以根据聚类的结果, 给每一个样本加上一个权重, 例如靠近聚类中心的样本权重大, 或许对训练过程或结果有提升作用.

参考

[3] Bautista, M.A., Sanakoyeu, A., Tikhoncheva, E., Ommer, B.: Cliquecnn: deep unsupervised exemplar learning. In: Advances in Neural Information Processing Systems, pp. 3846–3854 (2016)
[5] Bojanowski, P., Joulin, A.: Unsupervised learning by predicting noise. In: ICML (2017)
[10] Coates, A., Ng, A.Y.: Learning feature representations with k-means. In: Mon- tavon, G., Orr, G.B., Müller, K.R. (eds.) NN: Tricks of the Trade. LNCS, vol. 7700, pp. 561–580. Springer, Heidelberg (2012). https://doi.org/10.1007/978-3-642-35289-830
[16] Dosovitskiy, A., Springenberg, J.T., Riedmiller, M., Brox, T.: Discriminative unsu- pervised feature learning with convolutional neural networks. In: NIPS (2014)
[35] Liao, R., Schwing, A., Zemel, R., Urtasun, R.: Learning deep parsimonious repre-sentations. In: NIPS (2016)
[42] Noroozi, Mehdi, and Paolo Favaro. “Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles.” european conference on computer vision (2016): 69-84.
[52] de Sa, V.R.: Learning classification with unlabeled data. In: NIPS (1994)
[66] Xie, J., Girshick, R., Farhadi, A.: Unsupervised deep embedding for clustering analysis. In: ICML (2016)
[68] Yang, J., Parikh, D., Batra, D.: Joint unsupervised learning of deep representations and image clusters. In: CVPR (2016)

本人才疏学浅, 如有遗漏或错误之处, 请多多指教!

[解读] Deep Clustering for Unsupervised Learning of Visual Features

相关的工作

本文的改进

可能的进一步改进

参考

相关推荐