全球最大的第一视角视频数据集开源,取自真实生活,还能提升厨艺
安妮 编译整理
量子位 出品 | 公众号 QbitAI
最近,一个有趣的视频数据集开源了,它不仅能助你研究生涯一臂之力,或许还能提升你的……嗯,厨艺。
这个将锅与视频播放键融于一体的图像,就是刚开源的Epic Kitchens数据集的logo。
聪明的你可能已经猜到,这个数据集和厨房有关。
没错,在这个第一视角视频的数据集中,记录了多个多角度、无脚本、本地环境中的厨房场景。
它们均来自拍摄者真实的日常饮食生活,并且使用了一种新颖的实时音频评论方法来收集注释,因为拍摄者在做饭的时候总喜欢自言自语些什么~
这个世界上最大的厨艺第一视角视频数据集大礼包里都有啥?这有一个介绍视频——
成分分析
Epic Kitchens数据集里包含什么内容?不妨看看这张数据集“构成成分”表——
视频采集城市:4个
包含的厨房数:32个
视频总时长:55小时(全高清,60fps)
总帧数:11500000帧
动作片段:39594个
物体边界框数:454158个
数据集中的视频均为操作人员的头戴式摄像机采集,包含多种语言的描述,其中描述的动词有125种,名词有331种。
△ 头戴式的GoPro摄像机在采集图像
成分统计
研究人员将Epic Kitchens中的视频数据进行分类,想看看这个数据集中到底是怎样的场景。
统计显示,数据集中的视频大多来自晚饭时间,其中傍晚7-8点是采集的高峰期。9-10点也是一个采集小高峰,看来数据的来源群体有吃“早午饭(brunch)”的文化。
△ 视频时间统计
数据集中43.14%的视频为烹饪阶段,17.55%为数据收集者在做相关准备,16.48%的视频为他们在刷刷洗洗。
△ 活动统计
研究人员用视频中的标注生成了标签云,“开”“关”“拿”“锅”“叉子”“勺子”“刀子”等均为大比重的关键词。
△ 标注的标签云
在标注中的动作统计中,“put”“take”“wash”等关键动作均出现了上千次。做饭嘛,不就是由拿起和放下组成的嘛~
视频标注中提到的最多的物体是各种厨房用具,其次是各种调料与蔬菜。
研究团队
这项研究由布里斯托大学、多伦多大学和卡塔尼亚大学的11名研究人员完成,研究论文Scaling Egocentric Vision: The EPIC-KITCHENS Dataset也已发布在arXiv上。
论文一作是一名叫Dima Damen的小姐姐,目前是布里斯托大学的高级讲师,负责计算机视觉的相关研究。
△ 一作Dima Damen
Damen的研究经常亮相顶会。今年2月,她论文Who’s Better, Who’s Best被CVPR2018接收,Trespassing the Boundaries: Labeling Temporal Bounds for Object Interactions in Egocentric Video被ICCV2017接收,还被评为ICCV2017的最佳审稿人。
获取方式
想获取这份数据集的相关信息,有以下几种打开方式~
项目地址:
https://epic-kitchens.github.io/2018
论文地址:
https://arxiv.org/abs/1804.02748
数据集下载地址:
https://data.bris.ac.uk/data/dataset/3h91syskeag572hl6tvuovwv4d
代码地址:
https://github.com/epic-kitchens/annotations
祝各位学业厨艺双丰收~
作者系网易新闻·网易号“各有态度”签约作者
— 完 —
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态