[论文笔记]Unsupervised Visual Representation Learning by Context Prediction

1、INTRO
深度学习方法在向互联网级数据扩展时因没有注释而受阻，作者旨在为图像的自监督学习提供一种公式，类似于文本的自监督学习，对上下文做出预测。即对一张图像给定一个patch，预测另一个patch相对于其的位置关系。
[论文笔记]Unsupervised Visual Representation Learning by Context Prediction

2、Learning Visual Context Prediction
[论文笔记]Unsupervised Visual Representation Learning by Context Prediction
作者设计了这样一种结构，两个network stack，两个patch分别进入其中，在fc7中融合成一个output，经过fc9输出8units，对应于八个位置。作者实验时发现梯度下降陷入了鞍点，因此加入batch normalization。
在这里作者提出了避免trivial solution的问题。
（1）在相邻patch上，边界或者纹理的连续会提供shortcut，因此作者设置了patch间的gap，大概是半个patch的宽度。即使这样long lines spanning neighboring patches还是会给出正确结果，这里就又要设置一个随机方向的7像素的抖动。
（2）还发现了有色差（chromatic aberration）的问题。提供两种方法：一个是转换绿色和magenta（红+蓝）为灰色（projection）（这种方法在后面被验证是不行的）；另一个是随机的丢掉两个颜色通道（color dropping）。

3、Experiments
首先说明网络学习到了语义关联相似的patch，然后应用训练好的网络。用有限的数据做pre-training；评估可视化数据挖掘，其目标是从未标记的图像集合开始并发现对象类别；分析在layout prediction上的效果，看还能从supervisory signal学到什么。
Nearest Neighbors
这里去验证哪些patches网络认为是相似的。
使用这样一种结构，从输入到pool5是copy之前训练的网络结构中一个stack，用fc6表示提取到的特征，移除fc7及以上。作为比较，使用在imagenet上训练的alexnet和随机初始化权重的之前自己设计的网络。
[论文笔记]Unsupervised Visual Representation Learning by Context Prediction

Learnability of Chromatic Aberration
这里就指出在早期的近邻实验中，一些patch不管内容如何从图像中相同的绝对位置检索到匹配的patch，这是因为它们之间存在着相似的像差。这个回归对某些图片效果出其的好，而应用之前提到的projection，误差会提升很多。
[论文笔记]Unsupervised Visual Representation Learning by Context Prediction
Object Detection

这里再次修改网络，沿用之前的结构中一个stack，将input改为227*227，，将fc6改为卷积层，因为4096units直接连接到fc层计算量太大，在后面添加conv6b转换为1024个channels。作者提到用pre-training弥补该网络训练的不足，并获得了在无label训练集下最好的结果。并且尝试了在不改变网络计算功能的情况下重新调整网络权重的简单方法。训练时间更长，但是效果要比AlexNetstyle model好。
[论文笔记]Unsupervised Visual Representation Learning by Context Prediction
Geometry Estimation
之前的环节表面即使训练不是为了找到目标，网络的表征对目标是敏感的。作者提出疑问，网络提取出表征信息对其他无目标任务是否也有用？重新调整网络做surface normal estimation，结果和有label训练网络得出的结果相同。一种解释ImageNet categorization任务并没有使网络去关注几何结构，因为一旦目标被识别，几何结构就不那么有关系了。
[论文笔记]Unsupervised Visual Representation Learning by Context Prediction
可以看出获得的车轮并不是对齐的。
Visual Data Mining
不仅object patch要有相似的object和texture，而且还应该有大致相似的空间结构。为了实现这一点，首先从一幅图像中抽取由四个相邻patches，先无视空间布局找到top100与patches匹配，然后再用几何筛选，通过计算匹配几何验证的次数来排序。
[论文笔记]Unsupervised Visual Representation Learning by Context Prediction
Discussion
作者在后面测试中给出了预测两个patch位置的准确率是40%左右，那么在对象区域内做测试，选择每边至少240像素，且没有被阻挡、截断识别困难的框，准确率大致相当，作者得出结论网络不仅对目标敏感，对图像其他区域也同样敏感。

———————————————————————————
欢迎交流、批评指正

[论文笔记]Unsupervised Visual Representation Learning by Context Prediction

[论文笔记]Unsupervised Visual Representation Learning by Context Prediction

相关推荐