文献阅读(47)
- 题目:A Real-Time Object Detection Accelerator with Compressed SSDLite on FPGA
- 时间:2018
- 会议:FPT
- 研究机构:帝国理工学院
1 缩写 & 引用
- BRB: bottleneck residual block
- HOG: histogram of gradients
2 abstract & introduction & background
本篇论文的主要贡献:
- 基于FPGA的SSDLite-MobileNetV2
- 硬件优化:fused bottleneck residual block、共享PE、load-balanced channel pruning
- 软件优化:部分量化、bias folding
一些概念:
- depth-wise卷积:对不同通道分别二维卷积,这样通道数是不变的
- point-wise convolution:就是1x1的卷积
- bottleneck residual block:有三层卷积层,分别叫expansion convolution(point-wise convolution)、depth-wise convolution和projection convolution(point-wise convolution)
3 FPGA accelerator design
采用了单处理器结构,depth-wise和point-wise卷积的kernel size不一样,为depth-wise设计的PE不能直接用来做point-wise,需要loop unrolling和loop interchanging,用同一套硬件实现这个。
1个PE有9个乘法器,depth-wise是算不同input channel的结果,所以就一次算9个input channel;对point-wise来说,还要把这9个channel的数累加起来,这就要一个加法树
一次BRB是一起算,一次BRB的中间结果都存在cache上,如果片上存储空间不够怎么办?input feature切成小块