PSMnet - Pyramid Stereo Matching Network复现笔记(一)

PSMnet - Pyramid Stereo Matching Network复现笔记(一)

原文链接:https://arxiv.org/abs/1803.08669

结构分析

PSMnet - Pyramid Stereo Matching Network复现笔记(一)

CNN模块

PSMnet - Pyramid Stereo Matching Network复现笔记(一)

3D卷积与2D卷积

以下转载自知乎:
作者:我不坏
链接:https://www.zhihu.com/question/266352189/answer/380438613
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

讨论卷积核的维度的时候,是不把channel维加进去的(或者说,卷积核的维度指的的进行滑窗操作的维度,而滑窗操作是不在channel维度上进行的,因为每个channel共享同一个滑窗位置, 但每个channel上的卷积核权重是独立的)。所以2D conv的卷积核其实是(c, k_h, k_w),3D conv的卷积核就是(c, k_d, k_h, k_w),其中k_d就是多出来的第三维。

  1. 2D 卷积2D卷积操作如图1所示,为了解释的更清楚,分别展示了单通道和多通道的操作。且为了画图方便,假定只有1个filter,即输出图像只有一个chanel。其中,针对单通道,输入图像的channel为1,即输入大小为(1, height, weight),卷积核尺寸为 (1, k_h, k_w),卷积核在输入图像上的的空间维度(即(height, width)两维)上进行进行滑窗操作,每次滑窗和 (k_h, k_w) 窗口内的values进行卷积操作(现在都用相关操作取代),得到输出图像中的一个value。针对多通道,假定输入图像的channel为3,即输入大小为(3, height, weight),卷积核尺寸为 (3, k_h, k_w), 卷积核在输入图像上的的空间维度(即(height, width)两维)上进行进行滑窗操作,每次滑窗与3个channels上的 (k_h, k_w) 窗口内的所有的values进行相关操作,得到输出图像中的一个value。

PSMnet - Pyramid Stereo Matching Network复现笔记(一)

  1. 3D 卷积3D卷积操作如图2所示,同样分为单通道和多通道,且只使用一个filter,输出一个channel。其中,针对单通道,与2D卷积不同之处在于,输入图像多了一个 depth 维度,故输入大小为(1, depth, height, width),卷积核也多了一个k_d维度,因此卷积核在输入3D图像的空间维度(height和width维)和depth维度上均进行滑窗操作,每次滑窗与 (k_d, k_h, k_w) 窗口内的values进行相关操作,得到输出3D图像中的一个value.针对多通道,输入大小为(3, depth, height, width),则与2D卷积的操作一样,每次滑窗与3个channels上的 (k_d, k_h, k_w) 窗口内的所有values进行相关操作,得到输出3D图像中的一个value。

PSMnet - Pyramid Stereo Matching Network复现笔记(一)
简单说,2d卷积在二维方向移动,3d卷积在三维方向移动。
ps:卷积核中的 in_channels 与 需要进行卷积操作的数据的 channels 一致