GVCNN: Group-View Convolutional Neural Networks for 3D Shape Recognition

1、四个问题

要解决什么问题？
3D shape recognition。
用了什么方法解决？
采用多视图（multi-view）的方法。在MVCNN的基础之上，提出了group-view convolutional neural network（GVCNN）。主要创新之处是将不同视角下CNN提取得到的视觉描述子进行分组，将相类似的划分为一组。因为类似视角下提取到的特征也是相似的。
效果如何？
效果是SOTA的。MVCNN在modelnet40上的准确率是91%，这篇文章的GVCNN的准确率达到了93%。
还存在什么问题？
由于需要将3维模型投影到多视角下，分别用CNN提取特征，计算量比较大，所提取的特征冗余性也很强。

2、论文概述

2.1、简介

GVCNN: Group-View Convolutional Neural Networks for 3D Shape Recognition
作者认为，MVCNN并没有将多视角下特征之间的关系有效地利用起来，这也会在一定程度上限制最后的特征描述子的可区分力。
一方面，一些视角彼此相类似，然后有一些则差异较大。这些相似的视角对于3D物体形状的表示所起到的作用应该是同等的。
另一方面，有一部分视角则能提取到更有用的特征。
也正是为了解决上述的问题，才提出了GVCNN。

2.2方法

2.2.1、基本网络结构

GVCNN: Group-View Convolutional Neural Networks for 3D Shape Recognition
图1中是整个GVCNN的网络架构。
GVCNN采用GoogLeNet作为基础网络。
"FCN"是GoogleNet的前5个卷积层。
中间的"CNN"指的是也是GoogLeNet。
"FC"是全连接层。
GVCNN首先从若干不同视角拍摄三维模型的二维图像，每个视角的图像都被送入了第一部分的"FCN"中提取视觉描述子。随后，第二部分的CNN网络进一步提取视觉特征，group模块再根据判别力评分将不同视角的特征子进行分组。最后将各个组的视觉特征描述子通过view pooling（全局池化）聚合到一起。再接上分类网络进行分类。

2.2.2、多视角视觉特征

GVCNN: Group-View Convolutional Neural Networks for 3D Shape Recognition 相比于深层CNN，浅层网络保留有更多的位置信息。在对不同视角特征进行分组时，需要用到这些信息。所以利用浅层网络提取的特征进行grouping。
而深层网络提取的特征，则具有更多的内容信息，能更好地表示视角下的特征。所以将深层网络提取的特征，先分组再做view pooling。
2.2.3、Grouping模块

Grouping模块主要是为了挖掘不同视角之间的潜在关系，对其进行归类辅助多视角下特征的聚合。
$\xi\left(I_{i}\right)=\operatorname{sigmoid}\left(\log \left(\mathrm{abs}\left(O_{I_{i}}\right)\right)\right)$
i. 给定不同视角下的图像： $S=\left\{I_{1}, I_{2}, \cdots, I_{N}\right\}$
ii. $\left\{O_{I_{1}}, O_{I_{2}}, \cdots, O_{I_{N}}\right\}$ 是“FCN”层的输出。
iii. 观察到：在输入大于5或小于-5时，sigmoid函数的输出会很接近0或1。作者额外加入了abs和log函数。
iv. $ξ(Ii)$ 是对第i个视角的判别力评分。
判别力评分的取值范围是(0,1)，将其N等分。并认为，判别力评分在同一区间范围内的视角属于同一组。

版权声明：本文为****博主「hongbin_xu」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.****.net/hongbin_xu/article/details/96699145

GVCNN: Group-View Convolutional Neural Networks for 3D Shape Recognition