循环展开导致代码无法启动。。。cuda优化-展开循环的知识

前两天手动将循环展开,在windows下出现了错误,不知道为什么,在linux下成功启动,也可以设置register使用,但不知道原因。今天看到这个,才明白,记录下。

原来展开后的代码的中间计算过程也是需要寄存器来存储临时变量的。


转载:http://blog.csdn.net/redline2005/article/details/23161525

最近看到了一些循环展开优化程序性能的知识,总结一下。循环展开,即 #pragma unroll N(N为要展开的数值)。一般来说,循环展开主要是为了减少CUDA运行的分支冲突,由于GPU中SM架构的特殊性以及WARP(Half-warp)执行的严格并行性,使得循环语句有着交的的分支冲突,通过循环展开,可以有效的降价分支冲突。如:

循环展开导致代码无法启动。。。cuda优化-展开循环的知识

就是完全循环展开后的形式,但是也可以不完全循环展开,只展开循环体中的一部分。这样也可以有效的提高性能。

但是循环展开会使得寄存器的使用增加,因为编译时已知使用常量索引(意味着要完全循环展开吗)的数组通常位于寄存器中,但是如果使用变量索引,则不能位于寄存器中。需要循环展开才能在寄存器存储器(不是较慢的全局存储器)中保存数组元素。但是,展开循环可能使寄存器的使用量大大上升,这将导致在局部内存中保存变量——抵消了循环展开的诸多好处。可以使用nvcc选项“—maxrregcount=value”告诉编译器使用更多寄存器(注意:可以指定的最大寄存器数量为128)。这需要在“使用更多的寄存器”和“创建更少的线程”之间权衡利弊,有可能会妨碍隐藏存储器延迟。在某些架构中,使用该选项可能造成资源不足,从而导致内核无法启动。因此可以说,要慎重使用循环展开!