第四十一周学习笔记
第四十一周学习笔记
论文阅读概述
- Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
- 结合Bottom-Up和Top-Down的信息,Bottom-up:Faster RCNN,Top-Down:Hierarchical LSTM
- 两个LSTM,第一个用来做attention,第二个用来caption,通过concat方法融合各种特征
- VQA模型同样使用top-down attention模型,根据Question embedding结合image feature做image feature attention,然后结合两者生成回答的词
- Exploring Visual Relationship for Image Captioning
- 融合semantic relationship和spatial relationship的image caption
- 使用了Attention LSTM,由两层LSTM组成
- Multi-Label Image Recognition with Graph Convolutional Networks
- 这篇文章是使用构建图来捕捉multi-label之间的关系来做recognition
- 模型分成两个部分,image representation learning和GCN based classifier learning,特别的是,使用构建的multi-label关系图来学习线性分类器
- 图中关系矩阵的建立是通过统计条件概率得到的有向图模型
- 直接的图特征映射最终会导致over smoothing,这点通过re-weighted方法来解决
- Ablation Studies也很impressive
- Graph-Based Global Reasoning Networks
- 提出了GloRe单元来辅助网络获取图像全局上的目标关系
- 通过将feature map映射到latent space中进行关系推理,推理后映射回原空间中
- Knowledge-Embedded Routing Network for Scene Graph Generation
- 本文为了生成scene graph,先对proposal建立了一张完全图,用GCN得到contextualized的region feature,再进行object prediction,之后,再以两两目标为一组构成一张图,用GCN提取目标之间的相互影响后的特征,再进行relationship prediction,从而得到graph scene
- On the Automatic Generation of Medical Imaging Reports
- 这篇文章是生成医疗报告的,生成的目标包括tap和findings两个部分
- 通过多标签回归预测tag
- 利用tag embedding(semantic feature)和region feature 生成更representative 的context vector
- 两个LSTM,sentence LSTM 同时对semantic feature 和region feature进行anttention加权处理生成context vector,最后生成topic vector,word LSTM 根据一个topic vector生成一句报告Chasel
- Factored Attention and Embedding for Unstructured-view Topic-related Ultrasound Report Generation
- 本文重要的两点就是View-guided Factored Attention和Topic-oriented Factored Embedding,一个将view信息融入图像特征中,另一个使用奇怪的embedding方法…
self-critical的结果
训练误差
测试误差
学习率
在COCO测试集上的结果
在我拍的照片上的结果
在网上找的尺寸风格与COCO差不多的图片上的结果
ResNet20 on CIFAR10
终于把ResNet20在论文上的表现结果复现出来了
这过程中出现了以下错误
- x和out架在一起做bn,acc只有81%
- 加上cifar10 的augmentation:4padding + random crop((32,32)) + random horizontal flip,acc约85%左右
- 加上了weight decay和正确的lr,acc能到0.89
- 把0.5 0.5,的norm改成CIFAR10标准的
Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010))
之后下降到87% - 加上resnet源码中的init方法,也就是卷积层用
kaiming_normal
,bn层初始化为恒等变换,acc大概是88%左右 - 忘记在eval前加net.eval()了,改过来acc=91.99%,解决问题,论文上是91.25%,略有提高
小结
- bn层前的conv层应该设置bias=False
- nn.AdaptiveAvgPool2d可以通过指定输出尺寸来确定
- nn.Sequential可以用来给不确定层数的网络生成一个block,之前我还用
__setattr__
来做…其实用nn.Sequential即可
本周小结
- 论文阅读 √
- 代码跑通 √
下周计划
- 根据心情选一个网络写出来在cifar10上跑到论文的结果
- paper 5+5