[解读] Deep Clustering for Unsupervised Learning of Visual Features

链接: https://arxiv.org/abs/1807.05520v2

本文通过在传统的卷积网络中嵌入 k 均值聚类算法, 得到伪标签, 实现无监督的视觉特征学习, 也是一种自监督学习.

相关的工作

有不少无监督特征学习方法, 例如 [10] 中也使用了 k 均值聚类来预训练卷积网络, 但训练是逐层进行的, 而不是端到端的. 在 [3,16,35,66,68] 中也通过学习卷积特征进行图像聚类, 但没有在大规模数据集上 (例如 ImageNet) 进行实验. 值得一提的是 [68] 中使用 RNN 网络来迭代地学习卷积特征和聚类. 与本文最相似的一个研究是 [5], 它添加了一种损失, 这种损失尝试着保护流过网络的信息, 来学习视觉特征.

有一种流行的无监督学习的形式是自监督学习[52], 它通过 pretext task 来从原始数据中生成伪标签, 替代人类手工标注的标签. 有许多相关的任务, 但这些与本文相比有一个缺点, 那就是泛化性不够好, 针对某一领域的数据, 可能需要手动设计 pretext task.

本文的改进

本文提出了一种端到端训练的无监督的视觉特征学习的方法. 传统的有监督的视觉特征学习的优化目标如下公式所示:
minθ,W1Nn=1N(gW(fθ(xn)),yn), \min _{\theta, W} \frac{1}{N} \sum_{n=1}^{N} \ell\left(g_{W}\left(f_{\theta}\left(x_{n}\right)\right), y_{n}\right),
其中 ff 是卷积网络, gg 是多层感知分类器, xx 是一个图片样本, yy 是其对应的标签. 优化目标是最小化预测标签和真实标签之间的误差, 从而学习到视觉特征.

本文改进在使用 k 均值聚类的方法, 为每个样本分配一个标签, 从而实现无监督的端到端学习. 如下图所示, 对于卷积后生成的特征进行 k 均值聚类, 从而得到伪标签.

[解读] Deep Clustering for Unsupervised Learning of Visual Features

作者提到, 这个改进的想法来源于一个这样的事实: 一个使用正态分布来初始化的卷积网络无法生成好的特征表示, 然而使用这个初始化的卷积网络进行迁移学习, 即用一个多层感知器对生成的特征表达进行分类训练, 注意这个过程中不改变卷积网络的权重. 最终在 ImageNet 数集上实现了 12% 的准确度, 这远远高于随机猜测的准确度 0.1% [42]. 这表明随机初始化的卷积网络对于输入有较强的先验性. 聚类效果使用 NMI 指标来衡量.

可能的进一步改进

虽然一个随机初始化的卷积网络可以在一定程度上提取出视觉特征, 但聚类得到的结果不是十分可靠, 可以根据聚类的结果, 给每一个样本加上一个权重, 例如靠近聚类中心的样本权重大, 或许对训练过程或结果有提升作用.

参考

  • [3] Bautista, M.A., Sanakoyeu, A., Tikhoncheva, E., Ommer, B.: Cliquecnn: deep unsupervised exemplar learning. In: Advances in Neural Information Processing Systems, pp. 3846–3854 (2016)
  • [5] Bojanowski, P., Joulin, A.: Unsupervised learning by predicting noise. In: ICML (2017)
  • [10] Coates, A., Ng, A.Y.: Learning feature representations with k-means. In: Mon- tavon, G., Orr, G.B., Müller, K.R. (eds.) NN: Tricks of the Trade. LNCS, vol. 7700, pp. 561–580. Springer, Heidelberg (2012). https://doi.org/10.1007/978-3-642-35289-830
  • [16] Dosovitskiy, A., Springenberg, J.T., Riedmiller, M., Brox, T.: Discriminative unsu- pervised feature learning with convolutional neural networks. In: NIPS (2014)
  • [35] Liao, R., Schwing, A., Zemel, R., Urtasun, R.: Learning deep parsimonious repre-sentations. In: NIPS (2016)
  • [42] Noroozi, Mehdi, and Paolo Favaro. “Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles.” european conference on computer vision (2016): 69-84.
  • [52] de Sa, V.R.: Learning classification with unlabeled data. In: NIPS (1994)
  • [66] Xie, J., Girshick, R., Farhadi, A.: Unsupervised deep embedding for clustering analysis. In: ICML (2016)
  • [68] Yang, J., Parikh, D., Batra, D.: Joint unsupervised learning of deep representations and image clusters. In: CVPR (2016)

本人才疏学浅, 如有遗漏或错误之处, 请多多指教!