深度解析DeepID2+之二进制化

在看这篇论文时,一开始对二进制化的理解始终感觉不够透彻。看了很多别的关于DeepID2+的博客,都没有看到详细的解释。因此写这个博客,专门解析这一个点。

毕竟是个人的观点,如果大家有更好的解释,欢迎讨论。

论文arxiv链接: Deeply learned face representations are sparse, selective, and robust

论文能这么做主要是通过下面的一个统计结果:

深度解析DeepID2+之二进制化

为什么能够通过上面的两个统计结果把浮点值向量转换成二进制值向量呢?

这个统计的来源:
    实验数据量: 46,594条人脸图片数据
    假设人脸的特征表示向量为$y$, 则$y$的大小为(512, 1)

    深度解析DeepID2+之二进制化

    上图中V表示**状态, X表示抑制状态
    则Figure 7中左边的统计来源于最后一列紫色向量, 右边的统计来源于最后一行紫色向量


    这两个统计图能够反应出来的意义:

        1.左边的统计图告诉我们大多数的人脸特征向量都是非常稀疏的;
        2.右边的统计图告诉我们不同的人脸图像所**的神经元也不同,可以这样来理解: 假设大多数人脸所**的神经元相同的话,则很多神经元所**的图片数量都比较接近,那么右边统计应该类似正太分布,而事实却有点类似均匀分布。


    通过以上的分析,论文得出这样的结论: **态比**值更重要,因此可以将浮点数按照给定的阈值转为二进制值,且实验表明,二进制值的特征向量只比浮点值的特征向量精度低1%。


    原文的Introduction部分提到: each neuron is activated on roughly half of the face images. Such sparsity distributions can maximize the discriminative power of the deep net as well as the distance between images. Different identities have different subsets of neurons activated. Two images of the same identity have similar activation patterns. This motivates us to binarize the neural responses in the top hidden layer and use the binary code for recognition.

    但是原文在第5部分进行详细分析的时候,似乎是通过两个统计图的均值得到那两个结论。如果是这样的话,原论文想法应该错了:

        左边的统计图,如果是类似均匀分布,均值和论文一样的话,不能够得到稀疏这个结论。

        右边的统计图,如果是类似正太分布,均值还是和论文中说的一样的话,是不能说明"for each neuron, there are approximately half of the images on which it is activated"。