【AI视野·今日CV 计算机视觉论文速览第176期】Wed, 15 Jan 2020

AI视野·今日CS.CV 计算机视觉论文速览
Wed, 15 Jan 2020
Totally 35 papers
????上期速览✈更多精彩请移步主页

Interesting:

????***通过薯片袋子反射重建场景图像,利用手持的RGBD相机实现了视角合成与环境重建的工作。首先为高亮物体建模、其次为互反射和菲涅尔效应建模、最后使用形状重建相同的输入实现表面光场重建。通过具有表面反射的物体来重建周围环境的细节。(from 华盛顿大学)
【AI视野·今日CV 计算机视觉论文速览第176期】Wed, 15 Jan 2020

????****MOC-detector移动中心检测器,通过计算移动物体中心点与帧中心点的差值来进行运动目标追踪和检测，主要包括实例中心检测和运动识别、运动估计和运动点轨迹估计，bbox回归三个主要分支。 (from 南京大学)
【AI视野·今日CV 计算机视觉论文速览第176期】Wed, 15 Jan 2020

????用于Deep Image Prior的神经架构搜索方法, 提出了一种可以提升非监督图像提升算法DIP的神经架构搜索方法，自动优化编码器解码器架构和超参数(from 萨里大学 adobe)
【AI视野·今日CV 计算机视觉论文速览第176期】Wed, 15 Jan 2020

????ImagineNet一个神经风格迁移的方法用于改变App的交互界面风格, (from 斯坦福)
【AI视野·今日CV 计算机视觉论文速览第176期】Wed, 15 Jan 2020

????基于单张图像合成全局图像, (from 德克萨斯奥斯丁大学)
【AI视野·今日CV 计算机视觉论文速览第176期】Wed, 15 Jan 2020

????多视角纹理学习的超分辨, 基于重叠视图的冗余来实现高分辨(from 苏黎世理工)
【AI视野·今日CV 计算机视觉论文速览第176期】Wed, 15 Jan 2020

????知识表示系统的结构架构,(from University of Kassel 德国)
【AI视野·今日CV 计算机视觉论文速览第176期】Wed, 15 Jan 2020

????Convolutional Mean，提出了一种高速光照估计方法，实现自动白平衡(from 东安哥拉大学 en)
【AI视野·今日CV 计算机视觉论文速览第176期】Wed, 15 Jan 2020
code：http://www2.cmp.uea.ac.uk/~ybb15eau/

????***音视频联合学习综述,包括音视频分离和定位、对应说话人学习、音视频互相生成、表示学习和多模态等方面。(from 安徽大学)
【AI视野·今日CV 计算机视觉论文速览第176期】Wed, 15 Jan 2020

????人脸属性修改可逆,单张图片输入的自监督方法(from 电子科大)
【AI视野·今日CV 计算机视觉论文速览第176期】Wed, 15 Jan 2020

Daily Computer Vision Papers

ImagineNet: Restyling Apps Using Neural Style Transfer
Authors Michael H. Fischer, Richard R. Yang, Monica S. Lam
本文介绍了ImagineNet，该工具使用新颖的神经样式传输模型来使最终用户和应用程序开发人员使用他们选择的图像来重新设计GUI。前神经样式转换技术不足以用于此应用程序，因为它们产生的GUI难以辨认，因此无法运行。我们通过在原始公式中添加新的损失项来提出一种神经解决方案，该方法可最大程度地减少样式和输出图像之间CNN中不同级别的要素的非中心交叉协方差的平方误差。 ImagineNet保留了GUI的详细信息，同时传递了艺术品的颜色和纹理。我们向50位评估人员展示了用ImagineNet以及其他样式转换技术重新设计过的GUI，所有这些工具都喜欢ImagineNet。我们展示了如何使用ImagineNet重新设置1个应用程序的图形资产样式，2个具有用户提供的内容的应用程序以及3个具有动态生成的GUI的应用程序的样式。

Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal Clustering and Large-Scale Heterogeneous Environment Synthesis
Authors Devinder Kumar, Parthipan Siva, Paul Marchwica, Alexander Wong
重新识别人的任务是计算机视觉中一项持续的主要挑战，其目标是在不同的，不重叠的相机视图中匹配个人。虽然最近的成功是通过使用深度神经网络的监督学习获得的，但是由于需要大规模的自定义数据注释，因此此类方法的使用受到了限制。因此，近来一直在关注非监督学习方法以减轻数据注释问题，然而，与监督学习方法相比，文献中的当前方法性能有限，并且在新环境中采用的适用性有限。在本文中，我们通过引入新颖的，无监督的领域重新适应人为识别方法，解决了现实世界中实际人为识别面临的上述挑战。这是通过引入ik倒向轨迹小簇进行无监督域适应ktCUDA进行的，以在目标域上生成伪标记，以及ii由大型异构独立源环境组成的综合异构RE id域SHRED，以提高鲁棒性和适应性，以适应广泛的目标环境。在四个不同的图像和视频基准数据集上的实验结果表明，与现有的现有技术方法相比，所提出的ktCUDA和SHRED方法在重新识别性能上平均提高了5.7 mAP，并且展示了对不同类型环境的更好适应性。

Convolutional Mean: A Simple Convolutional Neural Network for Illuminant Estimation
Authors Han Gong
我们提出了卷积均值CM一个简单快速的卷积神经网络，用于光源估计。我们提出的方法只需要一个小的神经网络模型1.1K参数和一个48 x 32缩略图输入图像。我们未经优化的Python实施需要1毫秒的图像，可以说比目前具有类似精度的领先解决方案快3 750倍。通过使用两个公共数据集，我们证明了我们提出的轻量方法的准确性可与当前领先的方法相媲美，后者包括跨数个指标的数十亿个参数。

Improving Semantic Analysis on Point Clouds via Auxiliary Supervision of Local Geometric Priors
Authors Lulu Tang, Ke Chen, Chaozheng Wu, Yu Hong, Kui Jia, Zhixin Yang
现有的用于点云分析的深度学习算法主要涉及以监督学习方式从局部几何的全局配置中发现语义模式。但是，很少有探索几何特性的方法能够揭示嵌入3D欧几里得空间中的局部表面流形，以区分语义类或对象部分作为其他监督信号。本文是首次尝试提出一种独特的多任务几何学习网络，以通过具有局部形状属性的辅助几何学习来改进语义分析，可以通过点云本身的物理计算将其作为自我监督信号生成，也可以作为特权信息提供。由于显式编码局部形状流形以支持语义分析，因此所提出的几何自监督和特权学习算法可以实现优于其骨干基线和其他现有技术水平的性能，这在流行基准测试中得到了验证。

Neural Architecture Search for Deep Image Prior
Authors Kary Ho, Andrew Gilbert, Hailin Jin, John Collomosse
我们提出了一种神经体系结构搜索NAS技术，以在最近提出的Deep Image Prior DIP下提高绘画和超分辨率下无监督图像降噪的性能。我们表明，进化搜索可以自动优化DIP网络的编码器，解码器E D结构和元参数，作为规范这些单个图像恢复任务之前特定的内容。我们的二进制表示形式编码了一个不对称ED网络的设计空间，该网络通常会收敛，并使用500个人口规模在10个20代内产生特定内容的DIP。经过优化的体系结构可不断提高经典DIP在各种摄影范围内的视觉质量。和艺术内容。

Learned Multi-View Texture Super-Resolution
Authors Audrey Richard, Ian Cherabier, Martin R. Oswald, Vagia Tsiminaki, Marc Pollefeys, Konrad Schindler
我们提出了一种超分辨率方法，该方法能够从该对象的一组较低分辨率图像中为虚拟3D对象创建高分辨率纹理贴图。我们的架构统一了以下概念：基于重叠视图的冗余度的多视图超分辨率和基于学习的高分辨率HR图像结构的单视图超分辨率。多视图超分辨率的原理是反转图像形成过程，并从多个较低分辨率的投影中恢复潜在的HR纹理。我们将该反问题映射到适当设计的神经网络层的块中，并将其与标准的编码器解码器网络结合使用，以学习单个图像的超分辨率。将图像形成模型连接到网络避免了必须学习从纹理到图像的透视图映射，并且优雅地处理了各种数量的输入视图。实验表明，将多视图观察结果与先验知识相结合，可以改善纹理贴图。

Deep Audio-Visual Learning: A Survey
Authors Hao Zhu, Mandi Luo, Rui Wang, Aihua Zheng, Ran He
自从深度学习开始成功使用以来，旨在开发视听方式之间关系的视听学习已经引起了广泛的关注。研究人员倾向于利用这两种方式来提高先前考虑的单一方式任务的性能或解决新的挑战性问题。在本文中，我们对最近的视听学习发展进行了全面的调查。我们将当前的视听学习任务分为四个不同的子领域：视听分离和定位，视听对应学习，视听生成和视听表示学习。进一步讨论了最新技术方法以及每个子字段的其余挑战。最后，我们总结了常用的数据集和性能指标。

Deep Image Compression using Decoder Side Information
Authors Sharon Ayzik, Shai Avidan
我们提出了一种深度图像压缩神经网络，它依赖于辅助信息，仅可用于解码器。我们基于假设编码器可用的图像和解码器可用的图像相互关联的假设建立算法，然后让网络在训练阶段学习这些关联。

NODIS: Neural Ordinary Differential Scene Understanding
Authors Cong Yuren, Hanno Ackermann, Wentong Liao, Michael Ying Yang, Bodo Rosenhahn
语义图像理解是计算机视觉中一个具有挑战性的话题。它需要检测图像中的所有对象，还需要识别它们之间的所有关系。检测到的对象，它们的标签和发现的关系可以用于构建场景图，该场景图提供图像的抽象语义解释。在以前的工作中，通过解决分配为混合整数线性程序的分配问题来确定关系。在这项工作中，我们将该公式解释为常微分方程ODE。所提出的体系结构通过端到端学习解决ODE的神经变体来执行场景图推理。它在Visual Genome基准测试上，在所有三个基准测试任务场景图生成SGGen，分类SGCls和视觉关系检测PredCls上都达到了最新的结果。

Fine-grained Image Classification and Retrieval by Combining Visual and Locally Pooled Textual Features
Authors Andres Mafla, Sounak Dey, Ali Furkan Biten, Lluis Gomez, Dimosthenis Karatzas
图像中包含的文本带有高级语义，可以利用这些语义实现更丰富的图像理解。特别是，仅文本的存在就提供了强有力的指导内容，应采用这些指导内容来解决各种计算机视觉任务，例如图像检索，细粒度分类和视觉问题解答。在本文中，我们通过利用文本信息以及视觉提示来理解两种模式之间存在的内在联系，从而解决了细粒度分类和图像检索的问题。所提出模型的新颖性包括使用PHOC描述符构造一袋文本单词以及用于捕获文本形态的Fisher向量编码。这种方法为该任务提供了更强大的多模态表示，并且正如我们的实验所示，它在两项不同的任务（细粒度分类和图像检索）上均达到了最新的结果。

Real-Time Lane ID Estimation Using Recurrent Neural Networks With Dual Convention
Authors Ibrahim Halfaoui, Fahd Bouzaraa, Onay Urfalioglu, Li Minzhen
获取有关行车道结构的信息是自主导航的关键步骤。为此，有几种方法从不同的角度解决此任务，例如车道标记检测或语义车道分割。但是，据我们所知，尚无纯粹的基于视觉的端到端解决方案来回答这一精确问题，即如何估算多车道道路或高速公路中当前行驶车道的相对编号或ID。在这项工作中，我们提出了一种实时，仅视觉的解决方案，即基于双左-右约定的单目相机解决方案。通过将候选车道的最大数量限制为八个，我们将此任务解释为分类问题。我们的方法旨在满足低复杂度规范和有限的运行时要求。它利用输入序列固有的时间维度来改进现有技术模型的高复杂度。在具有极端条件和不同路线的具有挑战性的测试仪上，我们达到了95以上的准确性。

Unsupervised Domain Adaptation for Mobile Semantic Segmentation based on Cycle Consistency and Feature Alignment
Authors Marco Toldo, Umberto Michieli, Gianluca Agresti, Pietro Zanuttigh
对深度网络进行语义分割的监督训练需要大量标记的真实世界数据。为了解决此问题，通常利用的解决方法是使用合成数据进行训练，但是当分析与训练集相比统计特性稍有不同的数据时，深层网络会显示出严重的性能下降。在这项工作中，我们提出了一种新颖的无监督域自适应UDA策略，以解决现实世界与综合表示之间的域转换问题。基于周期一致性框架的对抗模型执行综合域与实域之间的映射。然后将数据馈送到执行语义分段任务的MobileNet v2体系结构。在MobileNet v2的功能级别上使用的另外两个区分符可以更好地使两个域分布的功能保持一致，并进一步提高性能。最后，利用语义图的一致性。在对综合数据进行了最初的有监督的培训之后，整个UDA体系结构都接受了端到端培训，同时考虑了其所有组件。实验结果表明，所提出的策略在将合成数据训练的分段网络调整到现实世界场景中时能够获得令人印象深刻的性能。轻巧的MobileNet v2架构的使用允许将其部署在计算资源有限的设备上，如自动驾驶汽车所采用的设备。

Face Attribute Invertion
Authors X G Tu, Y Luo, H S Zhang, W J Ai, Z Ma, M Xie
在两个域之间操纵人脸图像是一个重要而有趣的问题。大多数现有方法通过应用两个生成器或一个带有额外条件输入的生成器来解决此问题。在本文中，我们提出了一种基于GAN的自动人脸属性逆的新的自我感知方法。所提出的方法将面部图像作为输入，并且仅使用一个单独的发生器，而不会以其他输入为条件。得益于多重损失策略和经过改进的U网结构，我们的模型在训练中非常稳定，并且能够保留原始人脸图像的更精细细节。

Structured Consistency Loss for semi-supervised semantic segmentation
Authors Jongmok Kim, Jooyoung Jang, Hyunwoo Park
在最近的半监督学习研究中，一致性丧失在解决问题中起着关键作用。然而，具有一致性损失的现有研究仅限于其在分类任务中的应用。关于半监督语义分割的现有研究依赖于像素分类，这不能反映预测中特征的结构性。我们提出结构性一致性损失，以解决现有研究的这一局限性。结构化一致性损失可提高师生网络之间像素间相似度的一致性。具体而言，与CutMix的协作可通过显着减少计算负担来优化具有结构一致性损失的半监督语义分段的高效性能。 Cityscapes验证了所提出方法的优越性。Cityscapes基准测试结果经过验证和测试数据分别为81.9 mIoU和83.84 mIoU。这在Cityscapes基准套件的像素级语义标记任务中排名第一。据我们所知，我们是第一个在语义分割中展现最先进的半监督学习优势的公司。

Seeing the World in a Bag of Chips
Authors Jeong Joon Park, Aleksander Holynski, Steve Seitz
我们解决了手持RGBD传感器产生的新颖视图合成和环境重建的双重问题。我们的贡献包括：1个建模高镜面物体，2个建模相互反射和菲涅耳效果，以及3个能够使用仅重构形状所需的相同输入实现表面光场重构。如果场景表面具有像材料成分一样的强反射镜，我们会生成非常详细的环境图像，以显示通过窗户可见的房间组成，物体，人，建筑物和树木。我们的方法产生了最先进的视图合成技术，可在低动态范围图像上运行，并且对几何和校准错误具有鲁棒性。

Hallucinating Statistical Moment and Subspace Descriptors from Object and Saliency Detectors for Action Recognition
Authors Lei Wang, Piotr Koniusz
在本文中，我们建立在深度平移动作识别网络上，该网络以RGB帧为输入，以学习预测动作概念和辅助监控特征描述符，例如光流特征和/或改进的密集轨迹描述符。翻译由所谓的幻觉流执行，这些幻觉流经过训练以预测辅助线索，这些线索同时被馈送到分类层，然后在测试阶段免费进行幻觉以增强识别能力。

Cross-dataset Training for Class Increasing Object Detection
Authors Yongqiang Yao, Yan Wang, Yu Guo, Jiaojiao Lin, Hongwei Qin, Junjie Yan
我们为对象检测中的跨数据集训练提供了一个概念上简单，灵活和通用的框架。给定两个或两个以上已标记为不同对象类别的数据集，交叉数据集训练旨在检测不同类别的并集，因此我们不必为所有数据集标记所有类别。通过交叉数据集训练，可以利用现有数据集通过单个模型检测合并的对象类。此外，在工业应用中，对象类别通常会按需增加。因此，在添加新类时，如果我们在所有现有数据集上标记新类，则会非常耗时。在使用交叉数据集训练时，我们只需要在新数据集上标记新的类。我们使用单独和交叉数据集设置对PASCAL VOC，COCO，WIDER FACE和WIDER行人进行实验。结果表明，与独立训练相比，我们的跨数据集管道可以同时在这些数据集上实现相似的出色性能。

Spatial-Spectral Residual Network for Hyperspectral Image Super-Resolution
Authors Qi Wang, Qiang Li, Xuelong Li
最近，基于深度学习的高光谱图像超分辨率SR方法取得了巨大的成功。然而，大多数现有模型不能有效地同时探索频带之间的空间信息和频谱信息，从而获得相对较低的性能。为了解决这个问题，在本文中，我们提出了一种用于高光谱图像超分辨率SSRNet的光谱空间残差网络。我们的方法可以通过使用3D卷积代替2D卷积来有效地探索空间光谱信息，从而使网络能够更好地提取潜在信息。此外，我们设计了频谱空间残差模块SSRM，以通过局部特征融合从单元中的所有分层特征中自适应地学习更多有效特征，从而显着提高了算法的性能。在每个单元中，我们使用空间和时间可分离的3D卷积来提取空间和频谱信息，这不仅减少了负担不起的内存使用量和较高的计算成本，而且使网络更易于训练。对三个基准数据集的广泛评估和比较表明，与现有技术水平相比，该方法具有更高的性能。

Actions as Moving Points
Authors Yixuan Li, Zixu Wang, Limin Wang, Gangshan Wu
现有的动作细管检测器主要依赖于启发式锚框的设计和放置，这在计算上可能是昂贵的并且对于动作实例的精确定位而言是次最佳的。在本文中，我们通过将动作实例视为移动点的轨迹，提出了一种新的动作小管检测框架，称为MovingCenter Detector MOC检测器。基于运动信息可以简化和帮助进行动作小管检测的分析，我们的MOC检测器被分解为三个关键的头部分支：1个中心分支，例如进行中心检测和动作识别； 2个运动分支，用于在相邻帧处进行运动估计以形成运动点轨迹，通过直接在每个帧的估计中心点上回归边界框大小来进行空间范围检测的3 Box Branch。这三个分支一起工作以生成细管检测结果，可以将其进一步链接以产生具有通用匹配策略的视频级电子管。在JHMDB和UCF101 24数据集的帧mAP和视频mAP相同的设置下，我们的MOC检测器在很大程度上优于现有方法。对于更高的视频IoU，性能差距更加明显，这表明我们的MOC检测器对于更精确的动作检测特别有用。

EGO-TOPO: Environment Affordances from Egocentric Video
Authors Tushar Nagarajan, Yanghao Li, Christoph Feichtenhofer, Kristen Grauman
第一人称视频自然地将物理环境的使用带到了最前沿，因为它显示了相机佩戴者根据其意图在空间中进行流畅的交互。但是，当前的方法在很大程度上将观察到的动作与持久空间本身分开。我们介绍了一种直接从自我中心视频中学到的环境优惠模型。主要思想是获得以人类为中心的物理空间模型，例如厨房，该模型捕获1交互作用的主要空间区域和2支持的可能活动。我们的方法将空间分解成源自第一人称活动的拓扑图，将自我视频组织成一系列对不同区域的访问。此外，我们展示了如何在多个相关环境之间链接区域，例如，从多个厨房的视频中获得区域功能的合并表示。在EPIC Kitchens和EGTEA上，我们以长视频形式展示了我们学习场景能力和预测未来行为的方法。

180-degree Outpainting from a Single Image
Authors Zhenqiang Ying, Alan Bovik
向观看者的周围视觉呈现上下文图像是增强沉浸式视觉体验的最有效技术之一。但是，由于标准相机的视野FoV很小，因此大多数图像仅呈现狭窄的视野。为克服此限制，我们提出了一种深度学习方法，该方法可学习从狭窄的视图图像预测180全景图像。具体来说，我们设计了一个中心框架，该框架在近边缘和中边缘区域应用了不同的策略。分别训练两个网络，然后联合使用它们依次执行从窄到90代和从90到180代的操作。然后将生成的输出与其对齐的输入融合在一起，以生成展开的等矩形图像以供查看。我们的实验结果表明，使用深度学习生成全景图像的单视图既可行又很有希望。

Boosting Deep Face Recognition via Disentangling Appearance and Geometry
Authors Ali Dabouei, Fariborz Taherkhani, Sobhan Soleymani, Jeremy Dawson, Nasser M. Nasrabadi
在本文中，我们提出了一种在人脸识别任务中解开外观和几何图形表示的框架。为了对此目的提供监督，我们通过合并空间变换来生成几何上相同的面。我们证明了所提出的方法通过以两种方式辅助训练过程来增强深度人脸识别模型的性能。首先，它强制执行早期和中间的卷积层，以了解满足解缠结嵌入特性的更具代表性的特征。其次，它通过几何改变面部来增强训练集。通过广泛的实验，我们证明了将建议的方法集成到最新的人脸识别方法中可以有效地提高其在具有挑战性的数据集（如LFW，YTF和MegaFace）上的性能。通过涉及消融研究和知识转移任务，对该方法的理论和实践方面都进行了严格分析。此外，我们表明，所提出的方法所学习的知识可以支持其他与面部相关的任务，例如属性预测。

Deep Learning Stereo Vision at the edge
Authors Luca Puglia, Cormac Brick
我们将概述用于构建适用于片上系统的新型立体视觉解决方案的方法。开发此新解决方案是为了将计算机视觉功能带入生活在功耗受限环境中的嵌入式设备。该解决方案构造为经典立体视觉技术和深度学习方法之间的混合体。立体模块由两个单独的模块组成，一个模块加速我们训练的神经网络，另一个模块加速前端部分。该系统是完全无源的，不需要任何结构化的光即可获得非常出色的精度。相对于行业提供的以前的Stereo Vision解决方案，我们提供的主要改进是抗噪声能力。这主要是由于所选架构的深度学习部分。我们将结果提交给Middlebury数据集挑战。目前，它是最佳的片上系统解决方案。该系统是为低延迟应用开发的，该应用要求在高清视频上具有比实时性能更好的性能。

Learning Transformation-Aware Embeddings for Image Forensics
Authors Aparna Bharati, Daniel Moreira, Patrick Flynn, Anderson Rocha, Kevin Bowyer, Walter Scheirer
互联网上可操纵图像内容的流量急剧增加，引起了媒体法证研究界的积极响应。新的努力结合了计算机视觉和机器学习技术的更多使用，以检测和分析图像处理空间。本文介绍了图像来源分析，其目的是发现共享内容的不同操纵图像版本之间的关系。来源分析尚未解决的主要子问题之一是共享全部内容或几乎重复的图像的编辑顺序。现有的为任务（例如对象识别）生成图像描述符的大型网络可能无法编码这些图像协变量之间的细微差别。本文介绍了一种新颖的基于深度学习的方法，可以为通过变换从单个图像生成的图像提供合理的排序。我们的方法使用弱监督通过复合变换和基于秩的四元组损失来学习变换感知描述符。为了确定所提出方法的有效性，将其与基于手工制作和深度学习的描述符的现有技术进行比较，并进行图像匹配。进一步的实验在图像来源分析的背景下验证了所提出的方法。

Visual Storytelling via Predicting Anchor Word Embeddings in the Stories
Authors Bowen Zhang, Hexiang Hu, Fei Sha
我们为视觉故事讲述的任务提出了一个学习模型。主要思想是从图像中预测锚词嵌入，并结合使用嵌入和图像特征来生成叙述性句子。我们使用来自地底故事的随机采样名词的嵌入作为目标锚词嵌入来学习预测变量。为了叙述图像序列，我们使用预测的锚词嵌入和图像特征作为seq2seq模型的联合输入。与现有技术方法相反，所提出的模型设计简单，易于优化，并且在大多数自动评估指标中均能获得最佳结果。在人工评估中，该方法也优于竞争方法。

Rethinking Curriculum Learning with Incremental Labels and Adaptive Compensation
Authors Madan Ravi Ganesh, Jason J. Corso
像人类一样，当样本以有意义的顺序或课程进行组织和引入时，深度网络会更好地学习Weinshall等人，2018。传统的课程学习方法强调了将样本作为核心增量策略的困难，但它迫使网络从较小的数据子集中学习，同时引入了预先计算的开销。在这项工作中，我们提出了使用增量标签和自适应补偿LILAC进行学习的方法，该方法采用了一种新颖的课程学习方法。 LILAC强调逐步学习标签，而不是逐步学习困难样本。它首先在两个不同的阶段中工作，即在增量标签引入阶段中，我们以小批量的方式递归地显示地面真相标签，而对其余数据使用伪标签。在自适应补偿阶段，我们通过自适应地将目标向量更改为更平滑的分布来补偿失败的预测。在三个标准图像基准（CIFAR 10，CIFAR 100和STL 10）上，我们使用最接近的可比方法在批处理和课程学习以及标签平滑处理中评估LILAC。在所有基准测试中，性能始终保持标准偏差。我们进一步扩展了LILAC，以在使用简单数据增强的方法上显示出CIFAR 10上的最高性能，同时还展示了标签顺序在其他属性中的不变性。

Neural Human Video Rendering: Joint Learning of Dynamic Textures and Rendering-to-Video Translation
Authors Lingjie Liu, Weipeng Xu, Marc Habermann, Michael Zollhoefer, Florian Bernard, Hyeongwoo Kim, Wenping Wang, Christian Theobalt
由于其高效性，使用神经网络合成人类的逼真的视频已成为传统基于图形的渲染管线的流行替代方法。现有的作品通常将此表示为2D屏幕空间中的图像到图像转换问题，这会导致伪影，例如过度平滑，缺少身体部位以及精细比例细节的时间不稳定性，例如衣服中与姿势有关的皱纹。在本文中，我们提出了一种新颖的人类视频合成方法，该方法通过从人类在2D屏幕空间中的嵌入中明确区分时间相关的精细尺度细节的学习来解决这些限制因素。更具体地说，我们的方法依赖于两个卷积神经网络CNN的组合。给定姿势信息，第一个CNN会预测一个动态纹理贴图，其中包含时间相关的高频细节，第二个CNN会在第一个CNN的时间相关输出上调节最终视频的生成。我们展示了我们方法的几种应用，例如人类重演和单眼视频的新颖视图合成，在定性和定量方面我们都显示出对现有技术的显着改进。

SimEx: Express Prediction of Inter-dataset Similarity by a Fleet of Autoencoders
Authors Inseok Hwang, Jinho Lee, Frank Liu, Minsik Cho
知道数据集之间的相似性对训练有效的模型具有许多积极的意义，例如帮助从有利于未知数据集的模型传递或数据扩充问题的已知数据集中进行明智的选择。估计数据之间相似性的常用方法包括在原始样本空间中进行比较，在执行特定任务的模型中在嵌入空间中进行比较，或使用不同的数据集对预训练的模型进行微调并评估其性能变化。但是，这些实践将遭受比较浅，比较特定任务的偏见或执行比较所需的大量时间和计算量的困扰。我们介绍了SimEx，这是一种使用一组预训练的自动编码器对数据集之间的相似度进行早期预测的新方法，每个编码器都专用于重建已知数据的特定部分。具体来说，我们的方法将未知数据样本作为这些经过预先训练的自动编码器的输入，并评估重建后的输出样本与原始输入样本之间的差异。我们的直觉是，未知数据样本与经过自动编码器训练的一部分已知数据之间的相似度越高，则这种自动编码器利用其经过训练的知识，将输出样本重构得更接近原始数据的可能性就越大。。我们证明，与常见的相似性估算做法相比，我们的方法在预测数据集之间的相似性方面可达到10倍以上的速度。我们还证明，通过我们的方法估算出的数据集之间的相似度与常规做法密切相关，并且优于在样本或嵌入空间进行比较的基线方法，而无需在比较时进行任何新的训练。

Knowledge Representations in Technical Systems -- A Taxonomy
Authors Kristina Scharei, Florian Heidecker, Maarten Bieshaar
技术系统在以人为中心的环境中的最近使用导致了一个问题，即如何教导技术系统（例如，机器人）以理解，学习和执行人类期望的任务。因此，知识的准确表示对于系统按预期工作至关重要。本文主要介绍人工智能中不同的知识表示技术及其分类，将其分类为各个问题领域。另外，在日常机器人任务中介绍了所呈现的知识表示的应用。借助于所提供的分类法，应该有助于寻找关于特定问题的适当的知识表示技术。

Towards detection and classification of microscopic foraminifera using transfer learning
Authors Thomas Haugland Johansen, Steffen Aagaard S rensen
有孔虫是单细胞海洋生物，可能具有浮游或底栖的生活方式。在它们的生命周期中，它们构造由一个或多个腔室组成的壳，这些壳作为化石保留在海洋沉积物中。对这些化石进行分类和计数已成为例如海洋学和气候学。当前，识别和计数微化石的过程是使用显微镜手动进行的，非常耗时。因此，在各种研究领域中，开发使该过程自动化的方法很重要。提出了开发可检测和分类有孔有孔虫的深度学习模型的第一步。所提出的模型基于已在ImageNet数据集上进行了预训练的VGG16模型，并通过转移学习适应了有孔虫的任务。此外，还介绍了一种由显微有孔虫和来自巴伦支海地区的沉积物组成的新型图像数据集。

Edge Preserving CNN SAR Despeckling Algorithm
Authors Sergio Vitale, Giampaolo Ferraioli, Vito pascazio
SAR去斑是地球观测的关键工具。斑点会削弱SAR图像的解释，斑点是与从照明场景向传感器的反向散射干扰相关的乘性噪声。减少噪音是理解场景的关键任务。基于我们先前的解决方案KL DNN的结果，在这项工作中，我们定义了一个新的成本函数，用于训练卷积神经网络去斑点。目的是控制边缘保留并更好地过滤对KL DNN极具挑战性的人造结构和市区。结果表明，在非均质区域上有很好的改善，在均质区域中保持了良好的效果。本文显示了模拟和真实数据的结果。

Effects of annotation granularity in deep learning models for histopathological images
Authors Jiangbo Shi, Zeyu Gao, Haichuan Zhang, Pargorn Puttapirat, Chunbao Wang, Xiangrong Zhang, Chen Li
病理对于癌症诊断至关重要。通常，病理学家是根据组织学幻灯片上观察到的细胞和组织结构得出结论的。机器学习尤其是深度学习的飞速发展已经建立了强大而准确的分类器。它们被用于分析组织病理学切片，并协助病理学家进行诊断。大多数机器学习系统严重依赖于带注释的数据集，以获取经验和知识，以正确正确地执行各种任务，例如分类和细分。这项工作研究了组织病理学数据集中注释的不同粒度，包括图像，边界框，椭圆和像素，以验证病理幻灯片对深度学习模型的影响。我们设计了相应的实验，以基于具有不同标注粒度的标注来测试深度学习模型的分类和细分性能。在分类中，当由像素明智的注释数据集训练时，基于深度学习的最新分类器表现更好。平均而言，准确性，召回率和F1分数分别提高了7.87、8.83和7.85。因此，建议深度学习算法在分类任务中更好地利用更细粒度的注释。类似地，当通过逐像素注释训练时，语义分割算法可以实现8.33更好的分割精度。我们的研究表明，更细粒度的注释不仅可以改善深度学习模型的性能，而且还可以帮助从组织病理学幻灯片中提取更准确的表型信息。经过细化注释训练的情报系统可以帮助病理学家检查某些区域，以更好地进行诊断。类似于这项工作的分隔预测方法可能有助于表型和基因型关联研究。

Asymmetric Correlation Quantization Hashing for Cross-modal Retrieval
Authors Lu Wang, Jie Yang
由于大规模多模态数据在相似性计算和数据库存储方面的优势，跨模态散列方法在跨异构模态的相似性检索中引起了广泛的关注。但是，仍然存在一些需要进一步考虑的局限性1大多数当前的CMH方法在二进制约束下将实值数据点转换为离散的紧凑型二进制代码，由于信息大量丢失和生成，限制了原始数据的表示能力次优哈希码2离散二元约束学习模型很难解决，通过放宽对大量化误差的二元约束，检索性能可能会大大降低3在对称框架中处理CMH的学习问题，导致优化目标困难而复杂。为了解决上述挑战，本文提出了一种新的不对称相关量化散列ACQH方法。具体来说，ACQH学习用于在潜在语义空间中将查询转换为低维实值向量的异构模态数据点的投影矩阵，并以粗略至精细的方式构造堆叠的组成量化嵌入，以通过一系列学习的实值来指示数据库点。码本中的码字同时借助逐点标签信息回归。此外，本文设计的离散迭代优化框架可以直接获得跨模态的统一哈希码。在不同的三个基准数据集上进行的综合实验显示了ACQH的有效性和合理性。

Distortion Agnostic Deep Watermarking
Authors Xiyang Luo, Ruohan Zhan, Huiwen Chang, Feng Yang, Peyman Milanfar
水印是将信息嵌入可以在变形下幸存的图像中的过程，同时要求编码的图像与原始图像的感知差异很小或没有感知差异。最近，在多种图像失真下，基于深度学习的方法在视觉质量和消息有效负载方面均取得了令人印象深刻的结果。但是，这些方法都需要针对训练时图像失真的可区分模型，并且可能很难推广到未知失真。这是不希望的，因为应用于水印图像的失真类型通常是未知的且不可区分的。在本文中，我们提出了一种用于失真不可知水印的新框架，该框架在训练过程中未明确建模图像失真。相反，我们系统的鲁棒性来自对抗训练和频道编码这两个来源。与在固定的一组失真和噪声水平上进行训练相比，我们的方法在训练过程中可获得的失真方面具有可比或更好的结果，在未知失真上具有更好的性能。

Efficient convolutional neural networks for multi-planar lung nodule detection: improvement on small nodule identification
Authors Sunyi Zheng, Ludo J. Cornelissen, Xiaonan Cui, Xueping Jing, Raymond N. J. Veldhuis, Matthijs Oudkerk, Peter M.A. van Ooijen
我们提出了一种使用卷积神经网络的多平面肺结节检测系统。二维卷积神经网络模型U net由轴向，冠状和矢状切片训练，用于候选检测任务。将来自三个不同平面的所有可能的结节候选物组合在一起。对于误报减少，我们应用3D多尺度密集卷积神经网络来有效地删除误报候选。我们使用公开的LIDC IDRI数据集，该数据集包含888例CT扫描和4186名放射科医生注释的1186个结节。经过十次交叉验证，我们提出的系统在0.5次假阳性扫描下的灵敏度为95.3，在1.0次假阳性扫描下的灵敏度为96.2。尽管很难检测到小结节，即直径为6 mm的结节，但我们设计的CAD系统对这些小结节的敏感度为93.8 94.6，总假阳性率为0.5 1.0假阳性扫描。在结节候选检测阶段，提出的系统在合并来自所有三个平面的预测后检测到98.1个结节。仅使用1 mm的轴向切片可检出91.1个结节，这比仅使用冠状或矢状切片的检出要好。结果表明，与使用单个平面相比，多平面方法能够检测更多的结核。我们的方法在此数据集上达到了最先进的性能，这证明了我们开发的用于肺结节检测的CAD系统的有效性和效率。

Chinese Abs From Machine Translation

Papers from arxiv.org

【AI视野·今日CV 计算机视觉论文速览 第176期】Wed, 15 Jan 2020

Interesting:

Daily Computer Vision Papers

相关推荐

【AI视野·今日CV 计算机视觉论文速览第176期】Wed, 15 Jan 2020