一、early fusion VS later fusion

$\qquad$ early fusion指的是先将不同的特征融合再一起，最后再使用分类器对其进行分类，这个融合过程发生在特征之间，一般称之为特征融合或者"early fusion"；Later fusion指的是不同的特征使用不同的分类器，得到基于每个特征的分类结果，再对所有结果进行融合(可能是投票、加权平均等)，这个融和发生在不同特征分类结果之间的融合，称为"later fusion"或"decision fusion"。
$\qquad$ 一般用"early fusion"较多，但也没有明确说明哪个更好，需要根据实践经验来。如果你的不同特征间差距实在太大，特征很难合理的融合在一起的情况下，可以使用"later fusion"，比如做视频分类，每个视频提供了"视频动画"，“字幕”，"语音"三种不同维度上的特征，这类特征如果无法很好的融合成一个特征的话可以使用later fusion。

二、两篇关于上述两种融合方法的文章

第一篇："Affect Recognition from Face and Body Early Fusion vs. Late Fusion"
$\qquad$ 作者使用两种不同的策略，一种是将"Face"特征和"Body"特征融合成一个特征后使用分类器进行分类，即"Feature fusion"；一种是分别为"Face"和"Body"特征选择合适的分类器后得到二者的分类结果，对于该结果进行融合，综合判断得到最终结果，即"decision fusion"。在作者的实验中，"Feature fusion"更胜一筹
第二篇：“Early versus Late Fusion in Semantic Video Analysis”。
$\qquad$ 同样的，先特征融合后分类与针对不同特征分类后再融合两种策略。因为视频的三种不同维度的特征（文本、语音、视频）间差距很大，所以在作者的实验中，"Later fusion"效果更好。

三、直观理解两种方法谁更好

$\qquad$ 假设有三个特征 $M1,M2,M3$ 和三个分类器 $A,B,C$ ，分类器分类三个特征的准确率如表所示：

准确率	A	B	C
$M1$	0.9	0.8	0.7
$M2$	0.7	0.8	0.9
$M3$	0.8	0.9	0.7

1、later fusion

$\qquad$ 对于每个特征，我们选择其准确率最高的分类器，即 $M1$ 选择A， $M2$ 选择C， $M3$ 选择B，准确率均为0.9。假设我们采取投票的方法进行融合，那么最终分类准确率为 $acc=0.9*0.9*0.9+3*(0.9*0.9*0.1)=0.972$

2、early fusion

$\qquad$ 假设我们将特征融合在一起，再依次使用三个分类器去看哪个分类效果最好。对于分类器A而言，它分类特征 $M1$ ， $M2$ ， $M3$ 的准确率分别是0.9，0.8，0.7，那是不是说明将特征融合后分类准确率就是 $acc_A=0.9*0.7*0.8+0.9*0.7*0.2+0.9*0.3*0.8+0.1*0.7*0.8=0.902$ 呢？那按照这种思路的话就能直接得到early fusion不如later fusion的结论。显然不是的。
$\qquad$ 特征融合的强大之处在于特征融合后对于结果的判断的增益可能是大幅提升的，而并非简单的排列组合。比如给你一张猫头鹰图片，我们提取出了它的脸部特征(“猫脸”)的腿部特征(“鸟爪子”)，如果只给我们脸部特征，我们可能只有50%的概率能分辨出该动物是猫头鹰，还可能被分类为”猫“等；如果只给爪子我们可能只有10%的特征分辨出这是猫头鹰的爪子而不是其他鸟类的爪子。但如果这两个特征都给我们，我们可以99%确认这是一只猫头鹰。因此，特征之间很可能是相辅相成的，关键是要找到合适的方法进行融合。

early fusion VS later fusion

一、early fusion VS later fusion

二、两篇关于上述两种融合方法的文章

三、直观理解两种方法谁更好

1、later fusion

2、early fusion

相关推荐