Dataset Augmentationin In Feature Space论文笔记

Attention:

论文解读的博客原文发布于我的github论文合集:https://github.com/ming71/CV_PaperDaily 知乎专栏:https://zhuanlan.zhihu.com/c_1113860303082704896 ,欢迎关注,有想法欢迎一起讨论!私信评论均可。

创建人 知乎论文阅读专栏 个人博客 其他相关链接
ming71 论文笔记入口 chaser ****

后面有些语法在****的markdown上不支持,导致显示bug,我就懒得改了,有需求直接访问原博客查看。

论文发布日期:2017 [ICLR Workshop]<p/span>

1. Introduction

  • 出发点
  1. 增强都是针对特定域的,面临数据集迁移时偏置改变导致失效;
  2. 即使是人工合成的数据集,如果不能很好地反映真实世界域的表征,效果也不好。
  • 解决方案
    提出在特征空间进行数据增强。在特征空间进行不分特定域的方法进行统一数据增强,具有独特的优点。通过无监督表征学习使得这个方法可行且有效,增强方法有三种:内插、外推、加噪声(具体不展开,见原论文)。

  • 结论
    (1)外插最有用
    (2)独立于域的增强方法增强的数据集训练过后效果比一般数据集的效果好(待议
    (3)独立于特定域的,也就是说,不受具体数据集的影响,在特征空间增强可以摆脱具体数据集的不同分布的干扰,广泛应用于各种场合

2. Model

  • 选用方法及特点
    为了使增强方法更具普适性,选择LSTM自编码器做实验。实验的前提假设是:在特征空间的流形展开中,将数据变换应用到编码输入而不是原始输入能够获得更为合理的合成数据。也就是认为在编码器部分的特征空间的编码部分增强,学习提取的特征会更好。如下图所示,在自编码器的编码部分输出进行增强然后送到解码器学习。
    具体操作由于自编码器和LSTM了解不多,略过。
Dataset Augmentationin In Feature Space论文笔记

3. Discussion and Conclusion

  • 特征空间的外插效果比噪声和内插都好,解释略。
  • 在不同的数据集上验证了这种方式的通用性
  • 推测只被workshop收录的原因是其实效果并不出众而且实现也远不如直接的输入端增强方便