多模态在内容理解的应用

2020 年机器学习趋势:建立统一的跨媒体多模态内容理解内核

描述类任务(表示,转换,对齐,融合)

视频描述

1 Predicting Visual Features from Text for Image and Video Caption Retrieval:输入原始图像,图像标题和众多描述图像的句子,将它们映射到隐空间并合成视频描述。
多模态在内容理解的应用2 Watch, Listen, and Describe: Globally and Locally Aligned Cross-Modal Attentions for Video
Captioning:输入原始视频和视频的文字索引来进行视频描述工作。
多模态在内容理解的应用3 Multimodal Dual Attention Memory for Video Story Question Answering:这是一个 VQA 任务,把原始视频,视频的描述和问题输入最终得到答案。
多模态在内容理解的应用4 Dual-Stream Recurrent Neural Network for Video Captioning:
将原始的视频和静态的图像(用来描述视频)一起输入,得到对视频的描述。
多模态在内容理解的应用

医疗问答

1 Ensemble of Streamlined Bilinear Visual Question Answering Models for the ImageCLEF 2019 Challenge in the Medical Domain:简单把图像和问题输入得到答案。
多模态在内容理解的应用2 Multimodal Explanations: Justifying Decisions and Pointing to the Evidence:把 VQA 框架用于关于健康问题的问答。
多模态在内容理解的应用

分析类任务(表征,融合)

视频分类

分类框架:

Divide, Conquer and Combine: Hierarchical Feature Fusion Network with Local and Global Perspectives for Multimodal Affective Computing:
这是一个较为通用的多模态视频分类任务网络,将特征组合成矩阵,采用 outer-product 计算任意组合的乘积,为避免外积太长,用滑动窗对自向量求外积。
多模态在内容理解的应用1 Towards Good Practices for Multi-modal Fusion in Large-scale Video Classification: 将视频和代表性的音频文件一起输入进行视频分类。
多模态在内容理解的应用2 Modeling Multimodal Clues in a Hybrid Deep Learning Framework for Video Classification: 将空间视频、运动视频、音频和原视频一起输入,得到结果。
多模态在内容理解的应用3 Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification:
同样还是将图像、视频和音频异构信息一起输入,得到视频分类的结果。

多模态在内容理解的应用

情感分类:

1 Contextual Inter-modal Attention for Multi-modal Sentiment Analysis:将文字,视频和声音输入来对人的情感进行分类。
多模态在内容理解的应用2 Multimodal Sentiment Analysis using Hierarchical Fusion with Context Modeling:将图像、标题和文字放入模型进行情感分类。

多模态在内容理解的应用

假新闻识别

1 Exploiting Multi-domain Visual Information for Fake News Detection:将图像和对图像词频的统计输入来进行假新闻分类。
多模态在内容理解的应用2 EANN: Event Adversarial Neural Networks for Multi-Modal Fake News Detection:将图像和文字输入来对假新闻进行检测。
多模态在内容理解的应用3 A Deep Learning Approach for Multimodal Deception Detection:将视频、音频、文字和高频词放入模型进行假新闻识别。
多模态在内容理解的应用

图像/视频质量评价

1 A deep learning framework for quality assessment and restoration in video endoscopy:将视频和视频检测结果输入来进行质量评价。
多模态在内容理解的应用

标题党检测

1 Characterizing Clickbaits on Instagram:将图像、标题和文字描述输入模型来分类是否是标题党。
多模态在内容理解的应用

社交网络的实体匹配

1 Multimodal Learning of Social Image Representation by Exploiting Social Relations:运用图像和相关文字注释对个体进行分类分组。
多模态在内容理解的应用2 From content to links: Social image embedding with deep multimodal model:跟上一篇文章类似,也是利用相关图像和文字进行社交群体分类。

多模态在内容理解的应用