研读Deep Semantic Ranking Based Hashing for Multi-Label Image Retrieval

论文作者为Fang Zhao Yongzhen Huang Liang Wang Tieniu Tan
Center for Research on Intelligent Perception and Computing
Institute of Automation, Chinese Academy of Sciences

这是一篇研究多层语义的文章,在这之前大多数的哈希方法并没有关注这一点。他们只是通过比较二进制哈希码的汉明距离来分辨图片语义的相似程度。研读Deep Semantic Ranking Based Hashing for Multi-Label Image Retrieval

作者通过一个cnn网络来得到紧凑的哈希码。一个哈希函数h : RD → {−1, 1}将D维输入映射为二维码。假设数据集为D = {xn}Nn
=1,他的标签有L = {1, ...,C}那么多,一个数据点x ∈ RD拥有其中的某个或某几个标签,作者将产生一个哈希函数集h(x) = [h1(x), h2(x), ...,hK(x)](K ≪ D)来产生K维的哈希码。

在没有使用CNN网络之前,一般用手工提取特征的方法来获得特征,如GIST或者SIFT,但是他们丢失了关键的语义信息。

研读Deep Semantic Ranking Based Hashing for Multi-Label Image Retrieval

作者通过输入一个固定像素的图片通过5个卷积层和分别通过FCa和FCb两个全连接层来产生二进制哈希码,因为它要获得全局特征,所以它获得了所有像素而不是裁剪丢失信息。这里最关键的是将通过FCa和通过FCa与FCb产生的二进制码相结合来得到哈希函数以减少信息损失,因为通过FCa与FCb的信息可能丢失了语义的“敏感性”,以至于无法分辨细微的语义分别。

hash function :h(x;w) = sign(wT[fa(x); fb(x)]) 结合了两者的关系,更好地保留了语义信息。

对于一个query q  与数据点x相比,他的语义相似等级r可以被定义为:标签全部一样为r = |Yq|.一个不一样r = |Yq| − 1)。全不一样为0.研读Deep Semantic Ranking Based Hashing for Multi-Label Image Retrieval

这是损失函数。之后用SGD来minimize