CUDA C编程指南笔记——第四章（一个线程块中的warp和寄存器数量计算公式）

第四章硬件映射

SIMT（Single-Instruction, Multiple-Thread）
SIMT指令指定单个线程的执行和分支行为，如果仅仅想要编程正确的话，程序员不用理会SIMT，然而需要注意在代码中减少warp中线程的分支分歧。但是如果你想写出peak性能的话，则需要考虑了。向量架构需要软件层面上进行合并访存到向量，以及手动的调整分支分歧。
如果non-atomic指令通过不止一个线程在warp中写入全局内存或者共享内存中的同一地址，那么发生在这个地址上串行写的数量根据不同的计算能力而异
如果一个原子指令通过不止一个线程在一个warp中进行读、修改和写操作到全局内存或者共享内存中同一地址，每个操作都会串行执行，但是顺序是随机的。
硬件中的多线程
每个warp的执行上下文（program,counters,registers,ect）将一直保存在片上在整个warp的生命周期中。转换执行上下文不需要花费任何代价，在每个执行发射的时间中，warp调度器选择了一个具有准备好执行下一条指令（指令2）的线程的warp，同事发射这个指令（指令1）到这些线程中。
特别的，32bit的寄存器是属于warp级的存储器，cache和共享内存是线程块级的存储器。