跨媒体分析与推理

跨媒体分析与推理

国务院关于印发新一代人工智能发展规划的通知:

跨媒体分析与推理

1. 什么是跨媒体分析与推理?

媒体在计算机领域有两种含义:一是指媒介,即存储信息的实体,如磁盘、光盘、磁带、半导体存储器等;二是指传递信息的载体,如数字、文字、声音、图形、图像等。

以往的媒体信息处理模型往往只针对某种单一形式的媒体数据进行推理分析,比如图像识别、语音识别、文本识别等。 而越来越多的任务需要像人一样能够协同综合处理多种形式(文本、音频、视频、图像等)的信息,这就是跨媒体分析与推理

跨媒体既表现为包括网络文本、图像、音频、视频等复杂媒体对象混合并存,又表现为各类媒体对象形成复杂的关联关系和组织结构,还表现在具有不同模态的媒体对象跨越媒介或平台高度交互融合。通过“跨媒体”能从各自的侧面表达相同的语义信息,能比单一的媒体对象及其特定的模态更加全面地反映特定的内容信息。相同的内容信息跨越各类媒体对象交叉传播与整合,只有对这些多模态媒体进行融合分析,才能尽可能全面、正确地理解这种跨媒体综合体所蕴涵的内容信息。

跨媒体是一个比较广义的概念,主要包括以下几个研究范畴:

  • 1)跨媒体检索

用户向计算机提交一种类型的多媒体对象作为查询例子,系统可以自动找到其他不同类型、在语义上相似的多媒体对象。虽然不同类型的多媒体对象之间没有直接的可比性,如一幅山水画和一段描述小河流水声的音频在底层内容特征上彼此异构,但却可以用机器学习、统计分析等方法学习二者在统计意义上潜在的相关性,并以此为依据进行跨媒体检索。

  • 2)跨媒体推理

推理是指从一个命题合理演绎到另一个命题,跨媒体推理就是从一种类型的多媒体数据,经过问题求解,转向另一种类型的多媒体数据。例如,OCR(Optical Character Recognition)技术是从图像到文本的推理、基于内容的图像检索是从图像到图像的推理、视频动画技术是从视频数据到动画序列的演绎等。跨媒体推理囊括了对这些不同类型的多媒体数据之间的转换的研究。

  • 3)跨媒体存储

现有处理海量数据的检索技术主要针对的是文本信息,如谷歌和百度等搜索引擎,针对多媒体检索的研究工作的出发点并不是针对跨媒体海量数据;跨媒体存储研究高效压缩、索引和分片等方法,以及对用户行为的个性化索引等技术,用于提高海量环境下的跨媒体检索效率,以更好地支持上层应用。

上述三点,从底层数据存储到上层应用技术的不同方面,描述了跨媒体思想对多媒体研究领域的技术涵盖和突破性要求,是一个整体性的研究框架设计。要实现上述研究思路,需要在海量数据库、多媒体索引、并行计算、机器学习和统计分析、计算机视觉,以及信息检索等诸多领域取得突破性进展。

现有处理海量数据的检索技术主要针对的是文本信息,如谷歌和百度等搜索引

应用场景: 网络内容监管、舆情分析、信息检索、智慧医疗、自动驾驶、智能穿戴设备等等。

1.1 跨媒体信息的统一表达

多媒体的数据结构性不高,一般地,基于内容的多媒体内容分析都是用底层特征来表示的。不同类别媒体的特性完全不同,没有可比性,媒体与媒体内容之间存在“鸿沟”。“跨媒体内容鸿沟”可定义为:因不同类别的媒体数据分别使用不同维数、不同属性的底层特征进行表示,使不同类别的媒体之间无法直接根据特征来计算其相关性,而造成的彼此之间的异构性和不可比性。

跨媒体信息由于形式不同,其底层特征完全不同,所以一个基本的问题是:

针对跨媒体信息,如何学习一种统一的表达?

一种简单的学习方法是:建立一个共享空间,然后将所有数据投影到该空间。 比如早期的CCA方法,通过线性函数尽可能的将成对出现的图像和文本数据投影到共享空间的同一位置,如图 Fig.1。通过改进投影方式以及变换投影空间,CCA方法可以轻易扩展到多种媒体形式的联合分析。

跨媒体分析与推理

主题模型是另外一种常用的表示方法,比如经典的latent Dirichlet
allocation (LDA) 模型。 LDA假设不同形式的媒体信息由相同的多个主题生成,于是目标的相似度可以通过指定主题下的生成概率来计算。

深度学习的兴起也很快蔓延到跨媒体信息表达领域。 如利用深度学习改进特征提取和度量方式:

跨媒体分析与推理

如利用深度学习在拉近同类目标距离时拉远不同类间距离:

跨媒体分析与推理

但就目前的发展而言,离人们期待的实用还有较远距离。

1.2 跨媒体信息的理解与深度挖掘

数据表达是基于内容的多媒体检索实现相似度匹配的基本依据,在图像检索、音频检索等研究中,通常采用底层内容特征来表示多媒体对象。而对跨媒体检索而言,需要研究一种符合跨媒体特性的数据表达机制,建立统一的数据模型,以表达不同的多媒体对象;同时,构建的模型应能反映数据集之间的潜在关系。如果不同类别媒体的数据集被映射到一个统一的表达框架中,但破坏了数据集之间的相互关系,那么在此基础上得到的跨媒体检索结果将受到影响,因此,在用统一的模型来表达不同类别的媒体数据时,应尽可能地发现和保持数据之间潜在的相关性。

不同类型的数据集之间实际上还存在一种共生关系,挖掘这种数据共生关系可以帮助发现潜在的语义结构。视觉特征和听觉特征结构完全不同,然而在其底层特征中潜在共生关系,可以从中找到隐含的语义结构。共生关系分析最初应用于语言分析,不过语言分析与跨媒体分析有很大的差别,主要在于跨媒体没有包含直接的语义;另外,跨媒体中不包含文档和词汇(语义)的包含关系,因此,其对应的处理方法也不同。

目前的方法基本上都是在交叉媒体数据上进行相关性学习,学习方法主要包括表达学习、度量学习以及矩阵分解等,学习策略基本上采用batch的形式来捕获目标之间的一阶相关性。 对于未来的发展,我们需要开发更高级的学习策略来捕获更高阶的相关性(比如,相同来源的信息天然具有一定相关性、信息中的超链接也隐藏着更多的相关性信息)并采用更合理的评价手段。

1.3 跨媒体知识图谱构建以及学习方法论

跨媒体知识图谱构建的目的是为了提供基本的可计算的知识表达结构,从而在跨媒体环境中语义关系分析以及认知层级的推理。

关键问题:

  • 跨媒体知识图谱创建:实体提取以及关系构建
  • 基于跨媒体知识图谱的信息查询与检索
  • 跨媒体知识图谱中对的挖掘与推理
  • 知识驱动的跨媒体学习模型
1.4 跨媒体知识演化与推理

目的:基于多种媒体形式进行演化与推理。

关键问题:

  • 数据驱动结合知识引导的跨媒体知识学习
  • 基于语义理解的跨媒体推理框架
  • 永不停歇的知识获取、挖掘以及演进

下图,谷歌利用搜索模式来预测流感的传播情况。

跨媒体分析与推理

1.5 跨媒体描述与生成

实现跨媒体数据间的交叉翻译,并使用自然语言描述符联系理解跨媒体数据。

关键问题:

  • 针对文本、图像、视频等的跨媒体描述符
  • 认知、情感、推理间的联系

下图,看图说话与视频描述。

跨媒体分析与推理

1.6 跨媒体智能引擎

搭建技术与应用之间的桥梁,构建跨媒体智能应用的统一计算平台。

关键问题:

  • 如何适应跨媒体数据的复杂特征
  • 如何处理通用以及特殊的任务需求
  • 如何构建自动学习和演进的能力

下图,IBM的智能问答系统。

跨媒体分析与推理

1.6 跨媒体智能应用

如医疗数据的融合与推理,从而实现个性化精准医疗。

挑战: 跨媒体数据融合与推理能力不足;缺乏领域专家的监督;面对不同医疗模式时很差的自适应能力。

下图,跨媒体健康护理信息分析。

跨媒体分析与推理

参考资料:

  • 杨毅. 跨媒体信息技术与应用[M]. 电子工业出版社, 2014.
  • Yu-xin, PENG, Wen-wu, et al. Cross-media analysis and reasoning: advances and directions[J]. Frontiers of Information Technology & Electronic Engineering, 2017, 18(1):44-57.