1 Why

现在越来越多模态化，文字信息通常夹带着图像、声音、视频以及各种传感器的信号。但是很多的多模态数据是以文本为主体。

2 What

本文提出了监督的多模态bitransformer模型，其利用目前最先进的卷积神经网络架构，增强了自然语言处理的纯文本表征，以此融合图片和文本信息，主要用于分类任务。

3 How

《Supervised Multimodal Bitransformers for Classifying Images and Text》阅读笔记
本文是以Bert为主体模型外加一层全连接层做分类器，利用bert的输入特性，提供多模态特征的输入空间。本文对文本的处理是直接使用预训练好的bert，对图片的处理是使用预训练好的ResNet-152的输出作为图片的特征，输入到bert中。

3.1 文本特征

直接使用bert输入。

3.2 图片特征

将ResNet最后的pooling层的每个feature map展开为图片的特征，所以一张图片可以得到N = KM 个特征embedding,每个embedding都是由K*M展开得到2048维的，然后再使用一个W矩阵映射为N个d维的embedding作为一张图片的特征输入到Bert中。

4 Result

待续。。。

5 Idea

本文是利用了bert的输入特性，和卷积神经网络的特性，直接将特征输入到bert中，利用bert的self-attention机制将文本和图片的特征结合。想法很直接。

6 Relatives