文献阅读(49)
文章目录
- 题目:An ultra-high energy-efficient reconfigurable processor for deep neural networks with binary/ternary weights in 28nm CMOS
- 时间:2018
- 会议:Symposium on VLSI Circuits Digest of Technical Papers
- 研究机构:清华魏少军
1 缩写 & 引用
- TPPS: total partial pixel summation
- TPS: total pixels summation
- BWN: binary weights network
- TWN: ternary weights network
- PPS: binary activations and weights
2 abstract & introduction
本文的三个主要创新点:
- total partial pixel summation
- kernel transformation data reconstruction
- hybrid load balancing mechanism
对于low-bit权重网络,会存在的可以优化的地方是:
- 相同的操作
- 冗余的操作
- 负载不平衡
最后流片的结果是BNN可以实现765.6TOPS/W
3 overall architecture
主要包括计算单元、configurable interfere、控制器、片上存储
计算单元一共有32个PE,分成16组,每组的两个PE可以交换输入权重和输出activation来平衡负载,32个PE可以同时计算32个输入和32个权重的卷积
控制器可以通过配置工作模式S0-S4针对不同位宽的情况,如果TPPS更省计算量,就用TPPS的方式计算;如果KTDR更省计算量,就按照KTDR的方式计算;如果稀疏性不够,TPPS和KTDR都不能节省计算开销,就按照以前的original的方式计算
4 total partial pixel summation
有点类似动态规划的思想,操作具体流程是:
- 根据input feature一直做累加,计算出上图中的IFM(x, y)存起来,这就像动态规划的存表记下
- 如果是2x2的卷积,利用加减法,可以求出TPS(r,c);不同尺寸的kernel都用同一个IFM
- 然后计算得到TPPS
5 Kernel transformation data reconstruction
相同的input feature,不同的kernel,如K1和K2,可以将二者相加或相减得到K1’和K2’,这样就有可能出现很多0,可以利用这个稀疏度了
6 hybrid load-balancing mechanism
就是负载平衡,把工作量最多的和工作量最小的分到同一组PE中