文献阅读(47)

  • 题目:A Real-Time Object Detection Accelerator with Compressed SSDLite on FPGA
  • 时间:2018
  • 会议:FPT
  • 研究机构:帝国理工学院

1 缩写 & 引用

  • BRB: bottleneck residual block
  • HOG: histogram of gradients

2 abstract & introduction & background

本篇论文的主要贡献:

  1. 基于FPGA的SSDLite-MobileNetV2
  2. 硬件优化:fused bottleneck residual block、共享PE、load-balanced channel pruning
  3. 软件优化:部分量化、bias folding

一些概念:

  • depth-wise卷积:对不同通道分别二维卷积,这样通道数是不变的
  • point-wise convolution:就是1x1的卷积
  • bottleneck residual block:有三层卷积层,分别叫expansion convolution(point-wise convolution)、depth-wise convolution和projection convolution(point-wise convolution)

文献阅读(47)

3 FPGA accelerator design

采用了单处理器结构,depth-wise和point-wise卷积的kernel size不一样,为depth-wise设计的PE不能直接用来做point-wise,需要loop unrolling和loop interchanging,用同一套硬件实现这个。

1个PE有9个乘法器,depth-wise是算不同input channel的结果,所以就一次算9个input channel;对point-wise来说,还要把这9个channel的数累加起来,这就要一个加法树
文献阅读(47)
一次BRB是一起算,一次BRB的中间结果都存在cache上,如果片上存储空间不够怎么办?input feature切成小块