第四十一周学习笔记

第四十一周学习笔记

论文阅读概述

  • Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
    • 结合Bottom-Up和Top-Down的信息,Bottom-up:Faster RCNN,Top-Down:Hierarchical LSTM
    • 两个LSTM,第一个用来做attention,第二个用来caption,通过concat方法融合各种特征
    • VQA模型同样使用top-down attention模型,根据Question embedding结合image feature做image feature attention,然后结合两者生成回答的词
  • Exploring Visual Relationship for Image Captioning
    • 融合semantic relationship和spatial relationship的image caption
    • 使用了Attention LSTM,由两层LSTM组成
  • Multi-Label Image Recognition with Graph Convolutional Networks
    • 这篇文章是使用构建图来捕捉multi-label之间的关系来做recognition
    • 模型分成两个部分,image representation learning和GCN based classifier learning,特别的是,使用构建的multi-label关系图来学习线性分类器
    • 图中关系矩阵的建立是通过统计条件概率得到的有向图模型
    • 直接的图特征映射最终会导致over smoothing,这点通过re-weighted方法来解决
    • Ablation Studies也很impressive
  • Graph-Based Global Reasoning Networks
    • 提出了GloRe单元来辅助网络获取图像全局上的目标关系
    • 通过将feature map映射到latent space中进行关系推理,推理后映射回原空间中
  • Knowledge-Embedded Routing Network for Scene Graph Generation
    • 本文为了生成scene graph,先对proposal建立了一张完全图,用GCN得到contextualized的region feature,再进行object prediction,之后,再以两两目标为一组构成一张图,用GCN提取目标之间的相互影响后的特征,再进行relationship prediction,从而得到graph scene
  • On the Automatic Generation of Medical Imaging Reports
    • 这篇文章是生成医疗报告的,生成的目标包括tap和findings两个部分
    • 通过多标签回归预测tag
    • 利用tag embedding(semantic feature)和region feature 生成更representative 的context vector
    • 两个LSTM,sentence LSTM 同时对semantic feature 和region feature进行anttention加权处理生成context vector,最后生成topic vector,word LSTM 根据一个topic vector生成一句报告Chasel
  • Factored Attention and Embedding for Unstructured-view Topic-related Ultrasound Report Generation
    • 本文重要的两点就是View-guided Factored Attention和Topic-oriented Factored Embedding,一个将view信息融入图像特征中,另一个使用奇怪的embedding方法…

self-critical的结果

训练误差
第四十一周学习笔记
测试误差
第四十一周学习笔记
学习率
第四十一周学习笔记
在COCO测试集上的结果
第四十一周学习笔记
第四十一周学习笔记
第四十一周学习笔记
在我拍的照片上的结果
第四十一周学习笔记
第四十一周学习笔记
第四十一周学习笔记
在网上找的尺寸风格与COCO差不多的图片上的结果
第四十一周学习笔记
第四十一周学习笔记
第四十一周学习笔记

ResNet20 on CIFAR10

终于把ResNet20在论文上的表现结果复现出来了
第四十一周学习笔记
这过程中出现了以下错误

  • x和out架在一起做bn,acc只有81%
  • 加上cifar10 的augmentation:4padding + random crop((32,32)) + random horizontal flip,acc约85%左右
  • 加上了weight decay和正确的lr,acc能到0.89
  • 把0.5 0.5,的norm改成CIFAR10标准的Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010))之后下降到87%
  • 加上resnet源码中的init方法,也就是卷积层用kaiming_normal,bn层初始化为恒等变换,acc大概是88%左右
  • 忘记在eval前加net.eval()了,改过来acc=91.99%,解决问题,论文上是91.25%,略有提高

小结

  • bn层前的conv层应该设置bias=False
  • nn.AdaptiveAvgPool2d可以通过指定输出尺寸来确定
  • nn.Sequential可以用来给不确定层数的网络生成一个block,之前我还用__setattr__来做…其实用nn.Sequential即可

本周小结

  • 论文阅读 √
  • 代码跑通 √

下周计划

  • 根据心情选一个网络写出来在cifar10上跑到论文的结果
  • paper 5+5