第四十一周学习笔记

论文阅读概述

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
- 结合Bottom-Up和Top-Down的信息，Bottom-up:Faster RCNN，Top-Down:Hierarchical LSTM
- 两个LSTM，第一个用来做attention，第二个用来caption，通过concat方法融合各种特征
- VQA模型同样使用top-down attention模型，根据Question embedding结合image feature做image feature attention，然后结合两者生成回答的词
Exploring Visual Relationship for Image Captioning
- 融合semantic relationship和spatial relationship的image caption
- 使用了Attention LSTM，由两层LSTM组成
Multi-Label Image Recognition with Graph Convolutional Networks
- 这篇文章是使用构建图来捕捉multi-label之间的关系来做recognition
- 模型分成两个部分，image representation learning和GCN based classifier learning，特别的是，使用构建的multi-label关系图来学习线性分类器
- 图中关系矩阵的建立是通过统计条件概率得到的有向图模型
- 直接的图特征映射最终会导致over smoothing，这点通过re-weighted方法来解决
- Ablation Studies也很impressive
Graph-Based Global Reasoning Networks
- 提出了GloRe单元来辅助网络获取图像全局上的目标关系
- 通过将feature map映射到latent space中进行关系推理，推理后映射回原空间中
Knowledge-Embedded Routing Network for Scene Graph Generation
- 本文为了生成scene graph，先对proposal建立了一张完全图，用GCN得到contextualized的region feature，再进行object prediction，之后，再以两两目标为一组构成一张图，用GCN提取目标之间的相互影响后的特征，再进行relationship prediction，从而得到graph scene
On the Automatic Generation of Medical Imaging Reports
- 这篇文章是生成医疗报告的，生成的目标包括tap和findings两个部分
- 通过多标签回归预测tag
- 利用tag embedding(semantic feature)和region feature 生成更representative 的context vector
- 两个LSTM,sentence LSTM 同时对semantic feature 和region feature进行anttention加权处理生成context vector，最后生成topic vector，word LSTM 根据一个topic vector生成一句报告Chasel
Factored Attention and Embedding for Unstructured-view Topic-related Ultrasound Report Generation
- 本文重要的两点就是View-guided Factored Attention和Topic-oriented Factored Embedding，一个将view信息融入图像特征中，另一个使用奇怪的embedding方法…

self-critical的结果

训练误差
第四十一周学习笔记
测试误差

学习率

在COCO测试集上的结果

在我拍的照片上的结果

在网上找的尺寸风格与COCO差不多的图片上的结果

ResNet20 on CIFAR10

终于把ResNet20在论文上的表现结果复现出来了
第四十一周学习笔记
这过程中出现了以下错误

x和out架在一起做bn，acc只有81%
加上cifar10 的augmentation:4padding + random crop((32,32)) + random horizontal flip，acc约85%左右
加上了weight decay和正确的lr，acc能到0.89
把0.5 0.5，的norm改成CIFAR10标准的Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010))之后下降到87%
加上resnet源码中的init方法，也就是卷积层用kaiming_normal，bn层初始化为恒等变换，acc大概是88%左右
忘记在eval前加net.eval()了，改过来acc=91.99%，解决问题，论文上是91.25%，略有提高

小结

bn层前的conv层应该设置bias=False
nn.AdaptiveAvgPool2d可以通过指定输出尺寸来确定
nn.Sequential可以用来给不确定层数的网络生成一个block，之前我还用__setattr__来做…其实用nn.Sequential即可

本周小结

论文阅读 √
代码跑通 √

下周计划

根据心情选一个网络写出来在cifar10上跑到论文的结果
paper 5+5

第四十一周学习笔记

第四十一周学习笔记

论文阅读概述

self-critical的结果

ResNet20 on CIFAR10

小结

本周小结

下周计划

相关推荐