《Supervised Multimodal Bitransformers for Classifying Images and Text》阅读笔记
《Supervised Multimodal Bitransformers for Classifying Images and Text》阅读笔记
1 Why
现在越来越多模态化,文字信息通常夹带着图像、声音、视频以及各种传感器的信号。但是很多的多模态数据是以文本为主体。
2 What
本文提出了监督的多模态bitransformer模型,其利用目前最先进的卷积神经网络架构,增强了自然语言处理的纯文本表征,以此融合图片和文本信息,主要用于分类任务。
3 How
本文是以Bert为主体模型外加一层全连接层做分类器,利用bert的输入特性,提供多模态特征的输入空间。本文对文本的处理是直接使用预训练好的bert,对图片的处理是使用预训练好的ResNet-152的输出作为图片的特征,输入到bert中。
3.1 文本特征
直接使用bert输入。
3.2 图片特征
将ResNet最后的pooling层的每个feature map展开为图片的特征,所以一张图片可以得到N = KM 个特征embedding,每个embedding都是由K*M展开得到2048维的,然后再使用一个W矩阵映射为N个d维的embedding作为一张图片的特征输入到Bert中。
4 Result
待续。。。
5 Idea
本文是利用了bert的输入特性,和卷积神经网络的特性,直接将特征输入到bert中,利用bert的self-attention机制将文本和图片的特征结合。想法很直接。
6 Relatives
待续。。。