Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记

  1. 解决问题

现有的方法要求两个输入扫描之间有一定的重叠部分,才能进行姿态估计与配准。这篇文章主要解决极端场景下,比如没有重叠或者重叠较少的输入图片之间位姿估计的问题。

 

2.创新点

1.在场景补全和相对姿态估计模型中进行交替循环迭代计算。

2.提出一种结合光谱匹配(图匹配)和寻找鲁棒性的刚性拟合解的新成像点匹配算法。

3.将场景补全作为姿态估计的中间表示,而不是直接输出补全的场景或者将其用于匹配学习网络的特征表示。

 

3.模型介绍

3.1整体流程介绍

这篇文章提出在场景补全模型和相对姿态估计之间交互迭代的方法,从而可以利用来自两个扫描的信息获得更好的结果。使用一对重叠较少的扫描作为神经网络的输入,输出两张之间的相对姿态。关键是推断每个输入扫描补全的内部模块,使相隔很大的扫描可以通过循环模块迭代进行相对姿态的估计。

Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记

                        cc   图1  整体流程图

上图是整个网络的结构示意图,网络基于深度、法线、语义描述等特征表示进行每个扫描的场景补全。然后将这些特征作为配准网络的输入,进行相对姿态估计,输出当前相对姿态。得到当前的相对姿态之后,网络执行双扫描场景补全(将独立扫描的特征表示,以及使用当前相对姿态估计(R,T)将另一个扫描转换到对应扫描坐标的特征表示,作为输入)然后在第一次扫描视图中输出更新的扫描补全。成对匹配模块和扫描补全模块是交替进行的,正如上面网络设计的循环结构。

3.2场景补全网络

场景补全模块接收原始扫描,和由当前姿态估计T进行转换的目标扫描作为输入,输出完整的特征表示Si,Si =(c,d,n,s,f)分别表示原始RGB输入图像,深度图,法线,语义标签,特征描述作为表示,通道数为3、1、3、nc、k。这篇文章使用缩减的立方体纹理表示法对Si进行编码,即由四个面组成(排除地板和天花板)。将其写成如下的张量形式:

                                         Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记                    (1)

将扫描补全模块的输入也变成类似的张量形式:

                                         Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记                       (2)

其中最后一个通道是表示数据存在的掩码图,如图2所示,将Ii的图像放在I(i,2),其他为空白图像。

Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记

                                                                图2   场景补全结构图

这篇文章中的补全网络采用 卷积-反卷积 结构 Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记  。使用RGB、深度、法线作为输入。在合并之前应用三个单独的卷积层加ReLu和Batchnorm来提取邻域信号。网络结构如下。在编码器和解码器网络的镜像位置添加跳过连接,左边部分是下采样,右边部分进行上采样。原扫描和变换目标扫描的两组连接首先分别通过前三层,然后连接并通过其他层,最后输出颜色、法线、深度、语义标签、特征描述 五维表示。

Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记

                                                                                图3 场景补全网络图

3.3姿态估计

相对姿态估计模型表示为:

                                                                             Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记

在这篇论文的场景中匹配的难点在于:场景补全有误差,特别是初始迭代时误差比较大。为了解决这一问题论文集合光谱匹配(图匹配)与鲁棒拟合,提出一种新的匹配点算法。

图像匹配常有两种思路,其中一种是图匹配。给定两个图,图匹配涉及建立它们的顶点集之间的对应关系,并同时考虑边集之间的一致性。图匹配相对于寻找鲁棒性的刚性拟合解而言,添加了更多的约束。该问题的难点在于目标函数的非凸性和解空间的离散性,使得人们无法在有效的时间内寻找到一个全局最优解。由于图匹配本质上是离散优化问题,因此一类典型的策略是将其松弛到连续域,可以用于获得一个连续域上的最优解,然后重新将其投影到离散域中。其中一种是Leordeanu【1】等提出的基于谱松弛的方法。该方法建立一个新的分配关系图,其节点表示潜在的匹配关系,其边的权重表示潜在匹配关系之间的成对一致性。通过计算分配关系图的亲和力矩阵(affinitymatrix)的主特征向量获得该松弛模型的全局最优解。集合Q的候选匹配a=(i,i')可以看作无向图的节点,成对亲密度M(a,b)是连接边上的权重,矩阵M代表无向加权图的亲密度矩阵。问题变成如何寻找一个关于(i,i')匹配的集合C,最大化集合分数S来满足映射约束:

                                                            Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记                               (3)             

向量x代表集合C。当a属于C时,x(a)为1,其他为0。这是一个离散优化问题,非凸函数,为此,需要松弛到连续域中,将x(a)取值松弛到[0,1]的空间,表示a属于C,即正确匹配的概率。

另一种常用的方法是从匹配集合中选择一个刚性变换,来拟合一系列的特征对应匹配,去除错误的匹配对。比如常见的RANSAC算法。

   这篇文章结合了两种方法,首先检测与提取观察区域的SIFT关键点,然后提取另一个扫描上关键点用于匹配,以形成最终的点集 Qi。从这些点中寻找对应关系(R,t),c=(q1,q2)为了效率首先将满足下式的匹配移除集合。

                                                          Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记                             (4)       

优化函数如下,找到一组集合C和旋转与平移因子R、t,使得式(3)取最大值:

                                               Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记        (5)

                                                 Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记       Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记                                   

由上面公式可知,一共有两组未知量, Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记 w(c,c')是关联对的相关系数,r(R,t)(c)是(R,t)和(c)之间的回归损失,σ设置为50。公式(5)目的是提取具有最多成对一致性的对应关系子集,并且可以用刚性变换拟合。实际上可以看出式(5)是在图匹配公式(3)的基础上添加了拟合约束,使找到的子集可以更好的用刚性变换拟合,得到更优的解。

这篇文章另一个创新点在于对关联对相关系数w(c,c’)的构造上,如下图所示,结合了5个一致性度量从距离、角度等多方面来定义w(c,c’)。

Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记

                                                                图4  几何一致性约束

结合5个一致性度量来定义w(c,c'):

                                        Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记

                                        Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记

                                        Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记

                                       Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记

                                      Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记

                                      Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记                                                                                  (6)

根据上图定义拟合的回归损失:

                                         r(R,t)c=||Rpq1+t-pq2||2+||Rnq1-nq2||2                                                                       (7)

   求解过程如下:

由于需要对两组变量求解,所以交替的对优化公式(3)执行最大化。当R和t固定的时候,公式(5)表示为:            

                                                 'Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记

                                              'Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记

                                                 Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记                                                                                                             (8)

根据Leordeanu的推导,最优解{xc}是矩阵A=(acc'Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记 )的最大特征值对应的特征向量。当{xc}固定的时候,公式(5)转化为:

                                                  Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记                                                                                    (9)

                                                 'Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记

使用迭代变权最小二乘法求解公式(9)。在光谱匹配和鲁棒拟合之间进行5次交替迭代。这篇论文结合了迭代重加权最小二乘法(IRLS)和光谱匹配的优势。IRLS对大的异常值比较敏感。在论文中,通过图匹配来解决,图匹配检测最强的相关一致性子集。另一方面,光谱匹配是二进制整数的松弛,不能对内点和外点进行明显区分与分隔,使用IRLS可以解决这个问题。

3.4训练

这篇文章中分成单独训练独立网络和整体微调姿态估计模块两个部分。

1.特征描述符训练模块

定义loss是全局上的对比损失:

                              Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记         (10) 

学习特征描述符的相关权重,就需要进行求解式(11):

                                            Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记                                                                        (11)

G(S1,S2)是随机选取的正确匹配点对,N(S1,S2)是随机选取的错误匹配点对。简单说就是使相关联的点对特征表示相似,不关联的点对特征表示尽可能区别很大。其中f通道是场景补全中的feature通道。使用Adam优化器进行优化求解。

 

2.学习补全模块

通过结合回归损失和对照特征描述损失,来训练补全网   

                                          Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记 (12)

 

3.预训练姿态估计网络

使用双扫描补全的结果来训练姿态估计模型。

                                                     Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记                             (13)

迭代计算30次。

 

4.微调姿态估计网络

主要是微调循环网络中,每一次进行姿态估计迭代时模块的参数。Ƴ是第一次估计迭代的超参数,γtExtreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记 是第t次迭代的超参数。用TtmaxI1,I2Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记  表示网络的最终输出转换矩阵,微调下式:

                                    Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion阅读笔记                 (14)

 

4.不足

1. 姿态估计模块没有使用深度学习方式,采用的传统的迭代计算。

2.只是对姿态估计网络进行了微调,没有进行全网络的优化。

3.场景补全部分输出较模糊,即未观察的部分图像很模糊。可能因为没有进行充足的约束与训练。

4.只适用于室内,满足曼哈顿世界假设。