A Comparison of CNN-Based and Hand-Crafted Keypoint Descriptors论文阅读笔记


论文链接:[链接](https://ieeexplore.ieee.org/document/8793701)

本文亮点

本文主要比较了三种特征点描述子(手工设计的描述子、由训练的卷积神经网络获得的描述子、由预训练的卷积神经网络获得描述子)处理环境变化的能力,得出结论(1)卷积神经网络产生的描述子性能优于手工设计的描述子,(2)在面对视角变换挑战时,相比于由预训练的卷积神经网络获得描述子,由训练的卷积神经网络获得的描述子性能更优,(3)在面对光照变化问题时,相比于由训练的卷积神经网络获得描述子,由预训练的卷积神经网络获得的描述子性能更优。


一、三类描述子典型代表

1、手工生成的描述子:SIFT、SURF、ORB等。
2、由训练的卷积神经网络获得的描述子(trained CNN descriptors):DeepDesc、L2-Net、CS L2-Net、HardNet等。
3、由预训练的卷积神经网络获得描述子(pre-trained CNN descriptors):AlexNet、VGG16、ResNet101、DenseNet169等。

二、比较方法

由于之前类似的比较不够全面,并且数据集规模受限,本文采用了全新的基准数据集Hpatches进行比较,Hpatches数据集拥有大量的真实、变视角场景序列,可以提供更全面和可靠的比较结果。之前比较方法和本文所用方法的对比如下图所示。
A Comparison of CNN-Based and Hand-Crafted Keypoint Descriptors论文阅读笔记

三、实验流程

本文主要针对视角变换和光照变化两项挑战来进行三种描述子的性能对比。用DoG(difference of Gaussians)作为特征点提取器(因为其良好的实用性),用mAP(mean average precision)作为描述子性能评价依据。
手工提取类描述子采用了SIFT和ROOT-SIFT,trained CNN descriptors采用了DeepDesc、L2-Net、CS L2-Net和HardNet,pre-trained CNN descriptors采用了AlexNet、VGG16、ResNet101和DenseNet169,通过在每个被提取出的特征点附近框选64*64的patch,计算三种类型的描述子。
评估计算公式为
∣ ∣ p 2 , H ⋅ p 1 ∣ ∣ ≤ t h r e s h o l d || p_{2},H·p_{1}|| ≤threshold p2,Hp1threshold
其中, p 1 p_{1} p1 p 2 p_{2} p2是两张图片中的待匹配特征点, H H H是给定的单应矩阵,当不等式成立时,认为匹配成功,这里 t h r e h o l d threhold threhold取3个像素。
流程如下图所示:
A Comparison of CNN-Based and Hand-Crafted Keypoint Descriptors论文阅读笔记

实验结果

A Comparison of CNN-Based and Hand-Crafted Keypoint Descriptors论文阅读笔记
由图可知,CNN产生的描述子性能优于手工设计的描述子,在面对视角变换挑战时,相比于pre-trained CNN descriptors,trained CNN descriptors性能更优,在面对光照变化问题时,相比于trained CNN descriptors,pre-trained CNN descriptors性能更优。