[短]粗读CVPR2019论文 Deep Multimodal Clustering for Unsupervised Audiovisual Learning

声明:本文为个人观点,如有不同意见,希望评论区指出,共同进步。

文章核心思想:

作者首先给了一个问题,简单概括就是一段话。
给你一个图像和一个音频,你要怎么把无声图像中的对象和对应音频中发出的声音给匹配起来,在一个音频中,声音往往是多个声源共同发出的,如何才能把声源中的K个发声源和图像中的K个发声源头给他组合到一起呢?就比如一个视频,一直一个画面,有鸡有鸭,但没有声音,这时候,给你一个音频,有鸡叫鸭叫,你能不能在视频中把这些声音的来源给勾勒出来呢?作者就研究了那么一个有趣的问题。

那么作者又是怎么做的呢,我们也做个简单的概括。
首先作者对图像和音频都以CNN的方式来抽取,当然,音频那块是先做的傅立叶变换,而图像那块是用的VGG,具体过程在论文的3.1,然后图像那块抽取出来,最终图像那里抽出64个512维的特征,音频那块抽出124个512维的特征。

接下来,我们就设定每个特征向量到中心的距离[图像向量到图像向量的中心,音频向量到音频向量的中心,中心数K由人工设置],接着不断的迭代更新(按作者说法,这种更新思想和EM类似),最后计算出每个中心。

在计算的过程中,同时也按照作者给出的损失函数来不断的更新网络参数和映射矩阵。作者设计的损失,就是音频向量中心和不是同一个序号的图像向量中心的距离之和 减去是同一个序号的图像向量中心的距离,并使他最大化。最后,把几个中心算出来之后,按照中心把聚类的结果呈现在图像上就可以了,结果如下所示。

[短]粗读CVPR2019论文 Deep Multimodal Clustering for Unsupervised Audiovisual Learning

文章关键点:无监督学习 聚类 CNN 音视频联合
原文摘要:

The seen birds twitter, the running cars accompany with noise, etc. These naturally audiovisual correspondences provide the possibilities to explore and understand the outside world. However, the mixed multiple objects and sounds make it intractable to perform efficient matching in the unconstrained environment. To settle this problem, we propose to adequately excavate audio and visual components and perform elaborate correspondence learning among them. Concretely, a novel unsupervised audiovisual learning model is proposed, named as Deep Multimodal Clustering (DMC), that synchronously performs sets of clustering with multimodal vectors of convolutional maps in different shared spaces for capturing multiple audiovisual correspondences. And such integrated multimodal clustering network can be effectively trained with max-margin loss in the end-to-end fashion. Amounts of experiments in feature evaluation and audiovisual tasks are performed. The results demonstrate that DMC can learn effective unimodal representation, with which the classifier can even outperform human performance. Further, DMC shows noticeable performance in sound localization, multisource detection, and audiovisual understanding.

算法过程简介:

[短]粗读CVPR2019论文 Deep Multimodal Clustering for Unsupervised Audiovisual Learning
首先就是这张网络结构图,我们可以看到作者对于图像和音频都采用了多层卷积的方式来进行特征提取,而后找出不同的中心来进行重组,使得相同序号的音频特征中心和图像特征中心一致,最后给出这些中心的真实含义。

[短]粗读CVPR2019论文 Deep Multimodal Clustering for Unsupervised Audiovisual Learning
作者给出的伪代码讲的十分清楚,很好的描述了从输入的特征到最后的中心的过程,但是中间貌似没有解释W是怎么来的,我将其理解为一个训练中所需要回归的参数,我们看作者的Loss Function。
[短]粗读CVPR2019论文 Deep Multimodal Clustering for Unsupervised Audiovisual Learning
很好的描述了作者是怎么使得音频和图像对起来的,但是,我还有点不清楚的地方,就是,作者是怎么使得这个更新到伪代码的参数中的,我大致理解为作者在1描述的一个循环结束后用了这个loss,因为这时候,需要的参数都已经有了,作者就可以将其带入后最大化,保证一致性,这样就能把所有参数更新一遍了,如果详细看了文章的同学有高见的话,希望能够评论区指点我下,感激不尽。

论文链接:https://arxiv.org/pdf/1807.03094.pdf
作者信息:Di Hu, Feiping Nie, Xuelong Li∗School of Computer Science and Center for OPTical IMagery Analysis and Learning (OPTIMAL), Northwestern Polytechnical University, Xi’an 710072, P. R. China
论文代码:待作者开源后更新

最后来一句,春节到了,但是大家千万不要掉以轻心,出门记得带好口罩,不要到人群密集的地方逛,这个时候对自己的负责就是对他人的最大负责。这种时候,正是众志成城,集中力量办大事的时候,大家要学会团结一致,听从指挥。