用FPGA实现深度卷积神经网络(5)
先放一张仿真图
yolo的网路将输入图像改为24x24,一共仿真2层,需要428us,由此推算若输入图像为448x448,则仿真两层需要149ms,速度上是不能接受的。因此作为yolo网络在功能上实现了,但是速度远没有达到高速。
作为version 1,我设了100M时钟,并行度为8,总的来说并行度太小,但是胜在设计比较简单。
接下来就是设计version 2,对于ZCU102(总的DSP为2520)计划设计并行度为128(每个PE需要9个DSP,所需DSP为128x9=1152),并将时钟提高至200M。当然这要求结构更加复杂,数据位宽转化是必不可少的。
然后分享两篇论文:
a) Evaluating Fast Algorithms for Convolutional Neural Networks on FPGAs
b) A High-Efficiency Runtime Reconfigurable IP for CNN Acceleration on a Mid-Range All-Programmable SoC
所以敬请期待v2的结构吧!