七牛云的秘诀:数据>智能>未来

视频交互方式拍摄能力的飞速发展带来了前所未有的用户视觉体验,云计算在视觉领域的逐渐成熟给视频行业带来了更多的创新机遇,在2018云栖大会上海峰会上,七牛云人工智能实验室负责人彭垚分享了如何构建一套体系化的视频图像创新云服务操作系统,详细的讲解了人工智能在视频云领域的创新体系设计与实践。
数十款阿里云产品限时折扣中,赶快点击这里,领券开始云上实践吧!
直播视频回顾
以下是精彩视频内容整理:

七牛云人工智能

七牛云是云计算厂商中专门服务于视频、媒体的云计算公司,专注于数据管理,核心的工作是为客户解决视觉智能相关的问题,包括内容审核、人脸识别、视频分析、深度学习以及多媒体处理API等。人工智能实验室的核心体系是围绕视频搭建的,主要分为四个行业应用方向,分别是内容审核、城市之眼、媒资智能以及创新计划,围绕着这四个应用方向搭建了多媒体智能AI平台、深度学习平台和富媒体知识库三大平台。

内容审核

对于内容审核主要是针对互联网数据、广电新媒体或者*,通过人工智能的能力帮助其快速查找审核出一些不健康的数据内容。

七牛云的秘诀:数据>智能>未来

上图是利用图像识别的能力协助*对互联网中有害图片进行的检测,通过系统的检测快速的查处,防止不良信息的扩散。除此之外还有互联网的侦察,在互联网中经常会有流串的数据,比如一些非法的枪支、毒品等交易内容,我们会对这些视频或图片做一些分析。

城市之眼

七牛云的秘诀:数据>智能>未来

城市之眼主要是处理24小时的监控视频,在生活中各种地方都会装有摄像头,我们通过人工智能的能力来对视频内容进行处理分析,可以做一些身份的核验,比如人脸识别、人体特征识别以及特定场景和物品的识别,识别处理之后做一些特定的应用场景分析。
城市之眼大致系统结构如下:首先将从卡口摄像头、监控摄像头、巡逻车、移动执法仪和无人机采集到数据放入到人工智能检测模块,进行人脸、物体、行为、场景以及字符的检测,然后把分析引擎得出的结果进行关联比对,再去做一些策略性地管理。也会通过深度学习模型平台学习一些新的模型,进而达到更高效地识别各种物体或场景的效果。

媒资智能LEGO

智能媒资主要是为某些电视台做视频结构化,通过知识图谱、人脸识别以及物体场景
的识别,可以在视频中找到所有人物的标签。

七牛云的秘诀:数据>智能>未来

上图是视频行为分析的例子,对足球运动员点球行为的识别,曲线代表点球的阈值,当超过某一个值时就认为这个过程是完成点球的过程。除此之外还通过审核的API人工智能方式帮助客户做播控系统,可在播控系统中设置审核内容尺度的定义,然后人工智能会自动地反馈并进行阈值调整。

AI Video OS

AI Video OS识别大致可以分为四层:

  • 基础模型层:主要包括场景、物体、人脸以及属性的识别。
  • 视频特征层:可能需要提取每个时长视频帧的特征,包括两帧之间的光流,光流更多是能体现物体运动的体征。除此之外还包括时序上的关系,每个视频帧和光流在时间上汇聚起来的特征可以表征一个特定的动作、行为或者事件,视频中也包括一些语音等重要的信息。
  • 结构化OS平台:视频结构化层会将基础模型层与视频特征层两个层面做一些汇聚,例如对于每个视频段要素的提取,可以知道每个视频段出现的人物、场景和物品,也可以描述整个视频段的事件,对整个视频做分割定位,除此之外知识图谱也是至关重要的环节。
  • 智能应用层:智能视频的应用领域非常广泛,包括海量视频的分类、视频内容的审核、智能生产、智能检索以及相关推荐等领域。

计算平台

七牛云的秘诀:数据>智能>未来

整个Video OS的分层是通过三个计算平台来实现的:
第一个是API网关式的平台,网关集成了各种多媒体的处理以及识别的能力,日均可达到百亿级智能多媒体的请求。
第二个是AVA深度学习平台,普通平台是把样本生成后训练出模型,然后做模型管理以及模型评估。与普通模型不同的是,AVA还会启用大量的模板对输入的用户行为数据进行抽取,然后整理出样本,使算法科学家能够更高效的去训练出更新的模型,包括线上的自动发布服务等。

七牛云的秘诀:数据>智能>未来

针对深度学习平台的架构来说,存储层主要是通过统一的缓存接口对预处理模块、training以及inference模块进行统一管理。在最顶层有几个学习的应用,包括做自动的迭代训练、增量的学习、半监督的达标系统和模型比较融合系统,这些都可以在提升学习效率方面有很大的帮助。
第三个是大数据富媒体知识库平台,构建整套富媒体知识库主要有两个目的,其一是通过知识图谱、视频结构化的能力帮助媒体型客户将海量视频库构建成整个大数据检索引擎。其二是由于线上每天会有大量数据产生,为了利用好这些数据,会通过视频结构化、知识图谱以及大数据检索三个模块在线上的富媒体知识库中产生大量的学习素材。

AI生态系统

在线上会有API提供给媒体客户去做各种各样的内容识别,然后会实时的产生内容识别的效果,也会有一些数据结构化的入库,入库后会产生整个富媒体知识库,这个知识库又可以检索出相应的学习知识以便提供给深度学习平台进行学习。人工智能最重要就是接收到的知识与深度学习平台的两件事,富媒体知识库和深度学习平台将整个学习闭环搭建起来,从而整个模型就可以升级到API智能网关上,这样API网关就可以提供更多线上识别内容的能力。