读论文,衣物检索:DeepFashion: Powering Robust ClothesRecognition and Retrieval with Rich Annotations

DeepFashion: Powering Robust ClothesRecognition and Retrieval with Rich Annotations(2016)

总体网络结构

fashionnet。对细粒度的属性指示性更强,所以有更好的表现。源自于所使用数据集中的landmark,可以提高衣物属性的指示作用。

衣物识别与检索的三大任务:

预测类别/属性

网店衣服检索

Consumer-to-shop衣服检索

衣物数据集该有的属性特征,以及DeepFashion的特点

衣物的数据集所包含的特征:

语义属性(颜色,种类,纹理),衣服位置(衣服掩膜),自拍变网店图片

本文提出的DeepFashion数据集特性:新增加了关键位置(领子,袖口)的landmark(bound ing box);有衣物的更多的属性。对此数据集总体来看:有大量属性,衣服的landmark,不同背景下拍摄的相同款式像对(consumer-to-shoppair correspondences)。

数据来源:衣服购物网站上1320k张图片,google搜索1273k张。使用AlexNet比对fc7相似度,去重复,又人工去除低分辨率,去不相关图片。最后得到800k张。

FashionNet:

对衣服变形遮挡,使用pooling/gating 特征图预测landmark

基础类似VGG16,最后一个卷积层为特别设计,替代为三个分支网络结构。分别是提取全局特征的层,红色表示;根据局部landmark位置pooling的层,绿色表示;预测landmark位置和可视度的层,蓝色表示。前两个分支再融合,预测衣服属性,类别,像对分析。

前向传播是,先是蓝色分支,得到landmark的位置;然后是绿色分支,对局部信息处理;最后是全局信息的红色分支;红和绿再融合处理。

读论文,衣物检索:DeepFashion: Powering Robust ClothesRecognition and Retrieval with Rich Annotations

Loss function:
regression loss用于landmark的回归框L2;

Softmax loss用于预测landmark的是否可见,衣物的类别——1-of-K;

Cross-entropy用于属性预测——y/n;

Triplet loss来度量成对衣物相似度 positive/negative。

训练时,先训练蓝色分支,红绿分支列为附属分支;然后进入第二步,整个网络一块训练。具体通过对loss设置差异巨大的权重实现,然后两步交叉迭代直至收敛。