参考文献

[1]、lauren的FPGA(微信公众号)

项目描述

有软件基础的同学应该知道程序的两个衡量指标是时间复杂度与空间复杂度，与我们FPGA中的最大时钟频率与资源相对应。时间复杂度的体现形式是循环的结构，这也是主要时间消耗的地方。那么，对于使用VIVADO HLS工具进行进一步的编译，程序的时间延迟也会主要体现在循环语句中。所以，我们只要使用HLS对软件的循环语句添加一定的约束，便很可能取到我们要求的指标。这篇博客主要介绍各种循环语句的优化，进而减少FPGA侧的资源与始终延迟。

循环的主要优化措施有Pipeline、Unrolling。

for循环的衡量指标

衡量一个for循环的指标有：
1、Loop Iteration Latency ：C函数中的for循环每迭代一次需要多少时钟周期。
2、Loop Iteration Interval（Loop II）：本次循环开始到下一次循环开始所需要的周期数。
3、Loop Latency ：完成整个循环需要多少个时钟周期。
4、Loop Trip Count ： for循环的循环迭代的次数。
举一个例子如下：
VIVADO HLS循环语句的优化

对for循环设置Pipeline操作

还是以上面的例子添加了Pipeline的约束，如下：
VIVADO HLS循环语句的优化
1、添加Pipeline约束的方法。
2、添加Pipeline约束进行性能优化之后的性能指标。
3、为什么添加Pipeline可以减少for循环的指标。

对for循环设置Unrolling操作

在默认的情况下for循环是被折叠的，可以理解for循环每次迭代都使用了同一套电路，所谓展开就是电路被复制了n份。
举例如下：
VIVADO HLS循环语句的优化
由上图可知，for循环的迭代被复制了三份，消耗的资源量如下：

1、Unroll的设置方法。
2、消耗的资源量。

for循环的合并

对于两个完全并列的for循环约束方法——合并for循环

举一个例子如下：
VIVADO HLS循环语句的优化
for循环综合后的结果是：

然而我们想要的综合后的结构如下：

那么进行约束的方法就是进行for循环合并，进行for循环合并的方法就是：
1、先将两个for循环引入一个loop region区域。
2、然后对这个区域加LOOP_MERGE约束。
具体方法如下：
VIVADO HLS循环语句的优化
合并之后的结果如下：

对于并列for循环的循环边界为不同常数的循环合并

对于两个for循环的循环边界不一致的情况下，进行合并，外部的时间延迟会按照大的循环边界进行设置，如下：
VIVADO HLS循环语句的优化

对于并列for循环的循环边界一个为常数一个为变量的合并

如果直接进行合并，将会报告错误信息，如下：
VIVADO HLS循环语句的优化
在这个例子中N为常数，K为变量。
1、两个并列的for循环进行约束
2、进行LOOP_MERGE之后的报错信息

所以for循环中有一个常数，一个变量没法直接进行合并

对于并列for循环的循环边界两个均为变量的合并

遇上一个例子形同，同样会报错：
VIVADO HLS循环语句的优化

在这个例子中J，K均为变量。

解决方案，假设K<J,则可以进行下面的改善：
VIVADO HLS循环语句的优化
其实就是将下面的for循环进行拆开，同理如果for循环的循环边界一个是常数、一个是变量满足N<K的情况下也可以进行这样的约束。

for循环的优化——dataflow

前面已经讲解过for循环之间没有依赖关系的我们可以对for循环施加LOOP_MERGE约束。那么，for循环之间有依赖关系，我们应该如何操作呢？答案就是进行dataflow操作，举例如下：
VIVADO HLS循环语句的优化
默认的执行结果如下：

因为for循环之间的依赖性，那么这三个for循环之间不允许进行。
所以我们会对上面的for循环施加dataflow约束，那么dataflow为什么可以较少延迟：

从上面可以看出只要循环有交叠，那么便可以节省for循环的时间。进行约束的方法与约束后的资源报告如下：
VIVADO HLS循环语句的优化
1、资源报告。
2、设置for循环之间的缓存是fifo、ram、pingpang等等操作。