文献阅读(49)

  • 题目:An ultra-high energy-efficient reconfigurable processor for deep neural networks with binary/ternary weights in 28nm CMOS
  • 时间:2018
  • 会议:Symposium on VLSI Circuits Digest of Technical Papers
  • 研究机构:清华魏少军

1 缩写 & 引用

  • TPPS: total partial pixel summation
  • TPS: total pixels summation
  • BWN: binary weights network
  • TWN: ternary weights network
  • PPS: binary activations and weights

2 abstract & introduction

本文的三个主要创新点:

  1. total partial pixel summation
  2. kernel transformation data reconstruction
  3. hybrid load balancing mechanism

对于low-bit权重网络,会存在的可以优化的地方是:

  • 相同的操作
  • 冗余的操作
  • 负载不平衡
    文献阅读(49)
    最后流片的结果是BNN可以实现765.6TOPS/W

3 overall architecture

主要包括计算单元、configurable interfere、控制器、片上存储
计算单元一共有32个PE,分成16组,每组的两个PE可以交换输入权重和输出activation来平衡负载,32个PE可以同时计算32个输入和32个权重的卷积
控制器可以通过配置工作模式S0-S4针对不同位宽的情况,如果TPPS更省计算量,就用TPPS的方式计算;如果KTDR更省计算量,就按照KTDR的方式计算;如果稀疏性不够,TPPS和KTDR都不能节省计算开销,就按照以前的original的方式计算
文献阅读(49)

4 total partial pixel summation

文献阅读(49)
有点类似动态规划的思想,操作具体流程是:

  1. 根据input feature一直做累加,计算出上图中的IFM(x, y)存起来,这就像动态规划的存表记下
  2. 如果是2x2的卷积,利用加减法,可以求出TPS(r,c);不同尺寸的kernel都用同一个IFM
  3. 然后计算得到TPPS
    文献阅读(49)

5 Kernel transformation data reconstruction

相同的input feature,不同的kernel,如K1和K2,可以将二者相加或相减得到K1’和K2’,这样就有可能出现很多0,可以利用这个稀疏度了
文献阅读(49)

6 hybrid load-balancing mechanism

就是负载平衡,把工作量最多的和工作量最小的分到同一组PE中
文献阅读(49)