CV Papers|计算机视觉论文推荐周报20200501期

五月第一周，推荐27篇最近新出 CV 论文，含5篇最新综述，有对应代码也把地址列出了，希望对大家有帮助。

目标检测

[1]#改进的ROI提取层# 意大利University of Parma 的论文提出一种新的目标检测和实例分割中的ROI提取层GRoIE，可以方便的插入两阶段的目标检测和实例分割网络中，显著改进精度（目标检测改进1.1%AP，实例分割改进1.7%AP）。

论文：

https://arxiv.org/pdf/2004.13665v1.pdf

代码：

https://github.com/IMPLabUniPr/mmdetection-groie

[2]#增强几何因素# 改进目标检测和实例分割，作者考虑三种几何因素：物体重合区域、归一化后中心点距离、纵横比，提出了在模型学习阶段新的CIoU Loss改进边界框回归，和NMS阶段的Cluster-NMS，在YOLACT、YOLOv3、Faster RCNN 算法上加上上述模块，显著改进了模型的AP和AR，1080TI 显卡 YOLACT 取得了27.1fps。

论文：

https://arxiv.org/pdf/2005.03572v1.pdf

代码：

https://github.com/Zzh-tju/CIoU

姿态估计

[3]姿态估计新算法EfficientPose，引入EfficientNet骨干网，带来参数减少和速度提升，相比OpenPose 参数减少了15倍，计算量减少20倍。代码将开源。

改进点：

1) high- and low-resolution input images,

2) scalable EfficientNet backbones,

3) crossresolution features,

4 and 5) scalable Mobile DenseNet detection blocks in fewer detection passes,

6) bilinear upscaling.

论文：

https://arxiv.org/pdf/2004.12186.pdf

代码：

https://github.com/daniegr/EfficientPose （尚未开源）

SLAM

[4]东北大学提出Ensemble Data Association方法大大改进了SLAM系统的精度和鲁棒性，相比之前的SOTA方法有了重要提升。

IROS 2020 投稿论文。代码将在论文接收后开源。

论文：

https://arxiv.org/pdf/2004.12730.pdf

代码：

https://github.com/yanmin-wu/EAO-SLAM

OCR

[5]端到端表格检测与结构识别算法 CascadeTabNet，CVPR 2020 Workshop论文，取得 ICDAR 2019 表格结构识别最高精度！

论文：

https://arxiv.org/ftp/arxiv/papers/2004/2004.12629.pdf

代码：

https://github.com/DevashishPrasad/CascadeTabNet

[6]#场景文本识别# #最新综述# 华南理工大学金连文老师组最新文本识别综述文章，总结了该领域的基础问题和SOTA方法，介绍了新的视角和方案，提供了该领域大量的公开的资源综述，指出了未来的发展方向。

非常值得文本检测识别领域的同学参考！

论文：

https://arxiv.org/pdf/2005.03492v1.pdf

相关资源：https://github.com/HCIILAB/Scene-Text-Recognition

[7]#场景文本SR# 用于改进文本识别。为了改进低分辨率文本图像的识别精度，超分辨率是一种可行的方法，但鲜有文本图像超分辨率数据集往往是合成的，难以模拟真实的分辨率降低的情况，本文提出新的文本图像SR数据集TextZoom，是通过变换焦距拍摄得到的，并提出了文本超分辨率网络TSRN，显著改进了低分辨率文本图像的识别精度，大幅改进了CRNN（13%）、ASTER（9%）、MORAN（9%），打败了7个其他文本SR 的SOTA方法，作者来自商汤、香港大学、南京大学、阿德莱德大学、华中科技大学。

论文：

https://arxiv.org/pdf/2005.03341v1.pdf

机器学习理论

[8]#小任务增量学习# Small-Task Incremental Learning 提出新的增量学习算法PODNet，更好的在记忆老类别和学习新类别间平衡，相比现存算法更好。

论文：

https://arxiv.org/pdf/2004.13513v1.pdf

代码：

https://github.com/arthurdouillard/incremental_learning.pytorch

航空影像分析

[9]航空图像数据集，拍摄地在波兰，覆盖建筑物、林地、河流。

论文：

https://arxiv.org/pdf/2005.02264v1.pdf

数据集地址：

http://landcover.ai/

底层视觉处理技术

[10]CVPR 2020 NTIRE 2020 真实图像超分辨率挑战赛结果发布，包含模型介绍！

论文：

https://arxiv.org/pdf/2005.01996v1.pdf

[11]CVPR 2020 NTIRE 2020 视频增强质量映射挑战赛结果发布，包含模型介绍！参与团队不多，赛道1 只有7支团队提交了结果，赛道2 没有团队提交结果。

论文：

https://arxiv.org/pdf/2005.02291v1.pdf

[12]CVPR 2020 NTIRE 2020 图像视频去模糊挑战赛结果发布和模型介绍。

论文：

https://arxiv.org/pdf/2005.01244v1.pdf

[13]CVPR 2020 NTIRE 2020 去摩尔纹挑战赛结果发布和模型介绍。

论文：

https://arxiv.org/pdf/2005.03155v1.pdf

[14]CVPR 2020 NTIRE 2020 从RGB图像进行高光谱重建挑战赛结果发布和模型介绍。

论文：

https://arxiv.org/pdf/2005.03412.pdf

[15]ICCV 2019 AIM 2019 视频时域超分辨率挑战赛结果和模型总结。

论文：

https://arxiv.org/pdf/2005.01233v1.pdf

医学影像

[16]#3D医学图像处理# This paper addresses a fundamental challenge in 3D medical image processing: how to deal with imaging thickness. For anisotropic

medical volumes, there is a significant performance gap between thinslice (mostly 1mm) and thick-slice (mostly 5mm) volumes.

论文：

https://arxiv.org/pdf/2005.01969v1.pdf

代码：

https://github.com/M3DV/AlignShift

异常检测

[17]#ICLR2020# 基于分类方法的异常检测，可用于广泛的数据类型的异常检测表现SOTA。出自耶路撒冷希伯来大学。

论文：

https://arxiv.org/pdf/2005.02359v1.pdf

数据标注

[18]MorphoCluster 是一款开源的图像分类标注工具，其使用无监督聚类方法可快速、高精度提供细粒度和数据驱动的标注，原始设计用途为海洋浮游生物图像的类别标注。使用该工具对属于280个类的120万目标进行了处理，用时71个小时，得到了90%的类别内的目标精度达到了0.889或者更高。

论文：

https://arxiv.org/pdf/2005.01595v1.pdf

代码：

https://github.com/morphocluster

风格迁移

[19]#移动端实时视频风格迁移# iOS上可以达到25fps的风格迁移，作者已经将其做成产品Kunster。

论文：

https://arxiv.org/pdf/2005.03415v1.pdf

CV for 网络安全

[20]计算机视觉也能用于网络安全检测？来自悉尼大学的学者调研了近年CV技术用于安全领域的进展，包括：1）网络钓鱼检测；2）恶意软件检测；3）异常流量检测，并指出大量的技术已经应用于网络安全产品。

论文：

https://arxiv.org/pdf/2005.03318v1.pdf

网络剪枝

[21]#网络剪枝# 商汤最新论文提出可微分的马尔可夫通道剪枝方法，在ImageNet数据集上ResNet和MobileNetV2网络上的实验表明，其比之前的剪枝方法都更有效。

论文：

https://arxiv.org/pdf/2005.03354v1.pdf

代码：

https://github.com/zx55/dmcp

ReID

[22]#层次ReID# 作者提出下使用颜色直方图粗筛，在使用基于孪生网络的ReID方法，提高人员重识别的速度，在多个数据集上的实验也证明该方法打败了大多数SOTA方法。

论文：

https://arxiv.org/pdf/2005.03293v1.pdf

人脸技术

[23]人脸编辑应用越来越普及，编辑后的人脸的检测也引起了大家的关注。上海交大学者提出一种结合空域信息和频域信息与注意力机制的方法，有效检测编辑人脸。

论文：

https://arxiv.org/pdf/2005.02958v1.pdf

最新综述

[24]#智慧渔业# 如何用深度学习养鱼？这篇论文细数了深度学习在智慧渔场方面可能的应用，包括鱼个体识别、鱼种类识别、行为分析、反馈决策制定、种群大小估计、水质监测等。

论文：https://arxiv.org/ftp/arxiv/papers/2004/2004.11848.pdf

虽然面临大量数据标注的困难，但依然大有可为[Yeah!]

[25]#医学影像# 领域知识结合深度学习用于医学图像分析，参考了270篇文献，出自北航。

论文：

https://arxiv.org/pdf/2004.12150.pdf

[26]#遥感图像分类综述# 深度学习遥感图像分类综述，含挑战、方法、基准测试、和机会，参考了148篇文献。

论文：

https://arxiv.org/pdf/2005.01094v1.pdf

[27]#视频生成综述# 说话人头视频生成是指给定一张人脸图片和语音片段（或人脸特征点序列）生成逼真的个体说话的视频序列，涉及到生成无违和感的口型和头部运动等。本文作者对此领域进行了综述并提出新的评估基准测试。

论文：

https://arxiv.org/pdf/2005.03201v1.pdf ，

测试代码将开源：

https://github.com/lelechen63/talking-head-generation-survey

在我爱计算机视觉公众号对话框回复“200501P”即可获取以上所有论文下载地址。

END

CV Papers|计算机视觉论文推荐周报20200501期

备注如：目标检测

CV Papers|计算机视觉论文推荐周报20200501期

CV细分交流群

专业包括目标检测、目标跟踪、图像增强、强化学习、模型压缩、视频理解、人脸技术、三维视觉、SLAM、GAN、GNN等，

若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:[email protected]

网站:www.52cv.net

CV Papers|计算机视觉论文推荐周报20200501期

在看，让更多人看到 CV Papers|计算机视觉论文推荐周报20200501期

CV Papers|计算机视觉论文推荐周报20200501期

相关推荐