CV Papers|计算机视觉论文推荐周报20200502期

五月第二周，推荐本周新出的 20 篇 CV 论文，其中 1 篇最新综述，含虚拟现实、自动驾驶、行人检测与计数、人脸检测与恢复等方向，部分有对应代码也把地址列出了，希望对大家有帮助。

虚拟现实数据集

[1].OpenEDS2020: Open Eyes Dataset

Facebook的OpenEDS数据集发布第二版，OpenEDS2020，使用VR头盔采集，包含视线预测数据集 550400幅眼睛图像与相应的视线矢量，和眼睛分割数据集，29500幅图像其中5%含有语义分割标签。不仅数据集公布还举办了与此相关的技术挑战赛。

Facebook希望此数据集的开放促进虚拟现实领域的技术发展。

作者 | Cristina Palmero, Abhishek Sharma, Karsten Behrendt, Kapil Krishnakumar, Oleg V. Komogortsev, Sachin S. Talathi

单位 | Facebook

论文 | https://arxiv.org/abs/2005.03876

数据集 | http://research.fb.com/programs/openeds-2020-challenge/

（因ZZ原因，China 被禁止参加这个比赛。。。）

图像检索

CVPR 2020 Workshop

[2].Structured Query-Based Image Retrieval Using Scene Graphs

该文使用场景图嵌入进行结构化查询的图像检索，在COCO-stuff数据集上即使是出现中低频的目标也可以得到很高的召回率。

作者 | Brigit Schroeder, Subarna Tripathi

单位 | 英特尔实验室；加州大学

论文 | https://arxiv.org/abs/2005.06653

代码 | 尚未开源。

图像去噪

[3].NTIRE 2020 Challenge on Real Image Denoising: Dataset, Methods and Results

CVPR 2020 NTIRE 2020 真实图像去噪挑战赛数据集、模型介绍和比赛结果。

论文 | https://arxiv.org/abs/2005.04117

目标跟踪

[4].Robust Visual Object Tracking with Two-Stream Residual Convolutional Networks

该文指出目前的目标跟踪多仅使用了物体表观信息，该文提出一种双流残差网络同时建模物体表观和运动信息（即光流），进行目标跟踪，在VOT2018、VOT2019和 GOT-10K数据集上，该方法大大好于之前的算法，且速度可达38.1fps。

作者 | Ning Zhang, Jingen Liu, Ke Wang, Dan Zeng, Tao Mei

单位 | 京东，咪咕，上海大学

论文 | https://arxiv.org/abs/2005.06536

代码 | 尚未开源

人脸相关

#口罩人脸检测#

[5].RetinaMask: A Face Mask detector

香港城市大学的学者提出一种口罩人脸检测器，达到SOTA的检测结果，既高精度又高效。

作者 | Mingjie Jiang, Xinqi Fan

单位 | 香港城市大学

论文 | https://arxiv.org/abs/2005.03950

代码 | 未开源

#假脸检测#

[6].Fake Face Detection via Adaptive Residuals Extraction Network

对软件生成的假人脸的检测，该文提出了一种自适应残差提取网络的前处理方法，用于抑制图像正常内容、放大编辑瑕疵，实验结果显示该方法打败了之前的SOTA方法。

作者 | Zhiqing Guo, Gaobo Yang, Jiyou Chen, Xingming Sun

单位 | 湖南大学，南京信息工程大学

论文 | https://arxiv.org/abs/2005.04945

#人脸修复#

[7].HiFaceGAN: Face Renovation via Collaborative Suppression and Replenishment

传统的人脸修复往往假设退化先验或者显式的使用引导标签训练，但真实世界的图像退化往往是多种退化结合的、异质的。该文提出一种更加实用的双盲方法，称之为Face Renovation（人脸翻新），使用在语义引导的生成网络中考虑协同、抑制和补给机制设计了HiFaceGAN。

在真实和合成数据集上均表现出能够应对复杂退化、效果稳固和泛化能力强。

作者 | Lingbo Yang, Chang Liu, Pan Wang, Shanshe Wang, Peiran Ren, Siwei Ma, Wen Gao

单位 | 北大、阿里达摩院、中科院

论文 | https://arxiv.org/abs/2005.05005

自动驾驶、数据生成

#自动驾驶数据生成#

[8].SurfelGAN: Synthesizing Realistic Sensor Data for Autonomous Driving

CVPR 2020 谷歌论文，以往自动驾驶的数据使用渲染引擎生成，不够真实。谷歌提出新方法SurfelGAN，只需要有限的激光雷达和摄像头数据，使用纹理映射曲面有效构建场景。在Waymo Open Dataset 上验证了这种方法对仿真数据可以合成真实感强的摄像头数据。

作者 | Zhenpei Yang, Yuning Chai, Dragomir Anguelov, Yin Zhou, Pei Sun, Dumitru Erhan, Sean Rafferty, Henrik Kretzschmar

单位 | Waymo；谷歌大脑

论文 | https://arxiv.org/abs/2005.03844

OCR

[9].A Gaussian Process Upsampling Model for Improvements in Optical Character Recognition

高斯过程上采样，改进低分辨率文档图像的OCR，实验效果显著。

作者 | Steven I Reeves, Dongwook Lee, Anurag Singh, Kunal Verma

单位 | 企业服务人工智能公司；加州大学

论文 | https://arxiv.org/abs/2005.03780

[10].Large Scale Font Independent Urdu Text Recognition System

大规模乌尔都语标注文本与识别系统

近年来OCR取得了巨大进步，但使用人数较少的语言并未得到学术界的足够关注。乌尔都语是巴基斯坦的国语，该文作者建立了一个大规模乌尔都语标注数据集，并开发了识别系统，获得了平均84.2%的识别精度。

作者 | Atique Ur Rehman, Sibt Ul Hussain

论文 | https://arxiv.org/abs/2005.06752

数据集 | https://github.com/AtiqueUrRehman/qaida

自动驾驶、行人分析

CVPR2020

[11].STINet: Spatio-Temporal-Interactive Network for Pedestrian Detection and Trajectory Prediction

Waymo研究人员提出一种新的时空交互网络用语行人检测与行人轨迹预测，用于自动驾驶环境的环境理解，在Waymo Open Dataset 数据集鸟瞰图上这两项任务君建立了新的SOTA。

作者 | Zhishuai Zhang, Jiyang Gao, Junhua Mao, Yukai Liu, Dragomir Anguelov, Congcong Li

单位 | Waymo LLC；约翰斯·霍普金斯大学

论文 | https://arxiv.org/abs/2005.04255

车辆重识别

[12].Vehicle Re-Identification Based on Complementary Features

CVPR 2020 AI City Challenge 2020 挑战赛车辆重识别（Vehicle ReID）赛道第五名比赛方案。该方案融合了多个不同网络结构模型的特征，每个模型又使用了诸如多损失函数、滤波器嫁接、半监督学习技术等，代码已开源！

作者 | Cunyuan Gao, Yi Hu, Yi Zhang, Rui Yao, Yong Zhou, Jiaqi Zhao

单位 | 中国矿业大学

论文 | https://arxiv.org/abs/2005.04463

代码 | https://github.com/gggcy/AIC2020_ReID

6D姿态估计

[13].Neural Object Learning for 6D Pose Estimation Using a Few Cluttered Images

6D姿态估计最新论文

作者 | Kiru Park, Timothy Patten, Markus Vincze

单位 | 维也纳技术大学

论文 | https://arxiv.org/abs/2005.03717

人群计数

#拥挤人群计数#

[14].Adaptive Mixture Regression Network with Local Counting Map for Crowd Counting

作者发明了新的训练目标Local Counting Map和新的网络架构Adaptive Mixture Regression Network，实现更加精确的人群计数。代码开源。

作者 | Xiyang Liu, Jie Yang, Tieqiang Wang, Wenrui Ding

单位 | 北航、顺丰、中科院自动化所

论文 | https://arxiv.org/abs/2005.05776v1

代码 | https://github.com/xiyang1012/Local-Crowd-Counting

#高效人群计数#

[15].Efficient Crowd Counting via Structured Knowledge Transfer

现有的人群计数模型，大多都采用重型网络（如VGG），计算量大速度慢，部署应用范围受限。

为此，我们提出了一个简单而有效的模型压缩框架，把现有人群计数模型的结构化知识充分地迁移至轻量化模型。生成的轻量化模型，参数量和计算量只有原来的6%，在GPU上至少有6.5× 倍的加速，效果跟原模型差不多、甚至更好，可以真正地运用到实际场景。

作者 | Lingbo Liu, Jiaqi Chen, Hefeng Wu, Tianshui Chen, Guanbin Li, Liang Lin

单位 | 中山大学;DarkMatter AI Research

论文 | https://arxiv.org/abs/2003.10120

代码 | 代码、模型即将开源，欢迎关注。

点云处理与识别

#点云分类与分割#

[16].Dense-Resolution Network for Point Cloud Classification and Segmentation

密集分辨率网络用于点云分类与分割

作者 | Shi Qiu, Saeed Anwar, Nick Barnes

单位 | 澳大利亚国立大学、Data61

论文 | https://arxiv.org/abs/2005.06734

代码 | https://github.com/ShiQiu0419/DRNet

网络剪枝

[17].PENNI: Pruned Kernel Sharing for Efficient CNN Inference

该文提出一种在卷积层中实现核共享的模型压缩框架，有效实现网络剪枝。实验证明其可以在ResNet18 CIFAR10上剪掉97%的参数和92%的FLOPs而没有精度损失，减少了44%的内存使用和53%的推断延迟。

作者 | Shiyu Li, Edward Hanson, Hai Li, Yiran Chen

单位 | 杜克大学

论文 | https://arxiv.org/abs/2005.07133

代码 | 还未发现有开源

局部特征提取

[18].HDD-Net: Hybrid Detector Descriptor with Mutual Interactive Learning

该文提出一种在训练阶段考虑检测算法与描述算法交互的局部特征提取网络，在图像匹配（HPatches）和3D重建（ETH SfM benchmark）任务中得到了更好的性能。超越传统的SIFT和基于深度学习的SuperPoint（CVPR2018）。

作者 | Axel Barroso-Laguna, Yannick Verdie, Benjamin Busam, Krystian Mikolajczyk

单位 | 帝国理工、华为、慕尼黑理工

论文 | https://arxiv.org/abs/2005.05777

光场

[19].Generative Models for Generic Light Field Reconstruction

用于光场重建的生成模型

作者 | Paramanand Chandramouli, Kanchana Vaishnavi Gandikota, Andreas Goerlitz, Andreas Kolb, Michael Moeller

单位 | 德国锡根大学

论文 | https://arxiv.org/abs/2005.06508

最新综述

#Deepfakes制作和检测#

[20].The Creation and Detection of Deepfakes: A Survey

包含内容：如何制作和检测deepfakes，这个领域当前的趋势和风险，当前防御策略的短板，该领域还有哪些值得研究和注意。

作者 | Yisroel Mirsky, Wenke Lee

单位 | 佐治亚理工学院

论文 | https://arxiv.org/abs/2004.11138v2

在我爱计算机视觉公众号对话框回复“CVPapers”即可获取以上所有论文下载地址。

CV Papers|计算机视觉论文推荐周报20200502期

相关推荐