目标跟踪相关知识总结
feather map:
在cnn的每个卷积层,数据都是以三维形式存在的。可以看成许多个二维图片叠在一起(,其中每一个称为一个feature map。
1.在输入层,如果是灰度图片,那就只有一个feature map;如果是彩色图片,一般就是3个feature map(红绿蓝)。
2.在其它层,层与层之间会有若干个卷积核(kernel),上一层每个feature map跟每个卷积核做卷积,都会产生下一层的一个feature map,有N个卷积核,下层就会产生N个feather map。
卷积核(filter):
每个卷积核具有长宽深三个维度;卷积核的深度与当前图像的深度(feather map的张数)相同。卷积核的个数与下一层需要多少个feather map相同。在CNN的一个卷积层中:卷积核的长、宽都是人为指定的,长X宽也被称为卷积核的尺寸,常用的尺寸为3X3,5X5等;例如,在原始图像层 (输入层),如果图像是灰度图像,其feather map数量为1,则卷积核的深度也就是1;如果图像是grb图像,其feather map数量为3,则卷积核的深度也就是3.
AUC(Area Under Curve):
一个正例,一个负例,预测为正的概率值比预测为负的概率值还要大的可能性。所以根据定义:我们最直观的有两种计算AUC的方法:
1:绘制ROC曲线,ROC曲线下面的面积就是AUC的值
2:假设总共有(m+n)个样本,其中正样本m个,负样本n个,总共有m*n个样本对,计数,正样本预测为正样本的概率值大于负样本预测为正样本的概率值记为1,累加计数,然后除以(m*n)就是AUC的值。
AUC作为数值可以直观的评价分类器的好坏,值越大越好。
EAO 期望平均覆盖率:
EAO提出的目的也是希望一个好的跟踪器同时拥有好的精度A和鲁棒性R,如果直接用A和R的两个数加权和则有失公允,所以需要重新定义。
假设有帧长的一个视频,那么一个跟 踪器在这段视频上的覆盖率精度(Overlay accuracy)op为每一帧op的均值,op就是bonding box与ground truth的交并比用ϕ 表示,即:
那么一个理想的EAO就是把从1到一个期望的极大值对应的
ϕNS
求个平均,就是期望平均覆盖率,恰如其名,等价于下图的曲线下面积:
shortcut connection:
ResNet结构使用了一种连接方式,即“绕近路”的意思。
Bottleneck:
其意思就是输入输出维度差距较大,就像一个瓶颈一样,上窄下宽亦或上宽下窄。1x1 filters 可以起到一个改变输出维数(channels)的作用。可以看到,右图中 1x1 filters把维度(channels)升高了,输入输出维度差距较大。
感受野:
在卷积神经网络CNN中,决定某一层输出结果中一个元素所对应的输入层的区域大小,被称作感受野receptive field。用数学的语言就是感受野是CNN中的某一层输出结果的一个元素对应输入层的一个映射。