基于openvino 2019R3的推理性能优化的学习与分析 (四) 基于GPU的推理(inference)性能分析

再看看纯集成显卡GPU的mobilenet-ssd 的推理性能, 测试平台是i5 7440HQ, 4核4线程, GPU是Gen9 的GT2, 24EU, 属于纯大白菜集成显卡

首先是FP32模型

当Batch size =1时

Latency = 13.6ms, Throughtput = 73FPS, 性能还不错，是CPU的2倍多

inference request(nireq) = 4时，即设置GPU_THROUGHPUT_STREAMS = GPU_THROUGHPUT_AUTO时，openvino建议number of stream数为2, 对应的number of ireq并发数为4 ，同时并发4个推理请求

基于openvino 2019R3的推理性能优化的学习与分析 (四) 基于GPU的推理(inference)性能分析

这个就有点尴尬了，Throughtput = 78FPS, 提升不大，对应的CPU推理是96FPS。这时候的性能表现不如CPU。这时候每路推理的一致性还不错，每路的工作量基本一致

接下来看看batch size = 3，inference request(nireq) = 4时。即每次推理处理三张图片, 4路推理并发的情况

基于openvino 2019R3的推理性能优化的学习与分析 (四) 基于GPU的推理(inference)性能分析

63FPS, 看来集成显卡资源有限，数据量一旦超出硬件的能力范围性能就会大打折扣

接下来是FP16模型

当Batch size =1时

基于openvino 2019R3的推理性能优化的学习与分析 (四) 基于GPU的推理(inference)性能分析

Latency: 9ms, Throughtput: 113FPS, 这个数字大大高于CPU FP32的最好表现

inference request(nireq) = 4时，即设置GPU_THROUGHPUT_STREAMS = GPU_THROUGHPUT_AUTO时，openvino建议number of stream数为2, 对应的number of ireq并发数为4 ，同时并发4个推理请求

基于openvino 2019R3的推理性能优化的学习与分析 (四) 基于GPU的推理(inference)性能分析

133FPS，看来GPU相对于CPU确实更适合做推理。同时相对于FP32的模型，因为FP16模型对内存带宽的需求减半，所以性能也是大大的提升。

还是看batch size = 3，inference request(nireq) = 4时。即每次推理处理三张图片, 4路推理并发的情况

基于openvino 2019R3的推理性能优化的学习与分析 (四) 基于GPU的推理(inference)性能分析

看来还是硬件资源有限，数据一多以后处理能力就会大幅度下降。

前面都是用GPU_THROUGHPUT_STREAMS = GPU_THROUGHPUT_AUTO来测试，最后看一下手工设置GPU_THROUGHPUT_STREAMS = 1，即nstream = 1, nireq =2的情况，看看性能会不会减半

基于openvino 2019R3的推理性能优化的学习与分析 (四) 基于GPU的推理(inference)性能分析

这个FPS几乎和GPU_THROUGHPUT_AUTO一样了，只有不到2%的下降，看来前2路的推理就占了GPU绝大多数的资源，GPU_THROUGHPUT_AUTO多出来的2路nireq就是为了再从蚊子腿里再找一些肉。

简单总结一下，OpenVINO的GPU推理