GPU云主机,到底谁有真功夫(一)——基础能力对比

关键词:2.5倍 151%

         现在在国内能提供P100云主机的厂商有三家,阿里云、天翼云、还有华为云。阿里云在去年7月30日左右抢先华为云一个月发布了P100实例,并且现在能够开放购买。华为云还在公测阶段,需要申请。到底谁才有真功夫,可以通过一系列的对比来一探究竟。

        这是一个系列文章,我打算分三个部分,从三个方面来比比看。第一部分,先用NVIDIA提供的一些CUDA sample对比一下GPU的基础能力;第二部分,用业界流行的一些HPC测试工具对比一下计算能力;第三部分,蹭一下深度学习的热度,用tensorflow的benchmark工具测一下真实的业务处理能力。本文是第一部分。

        如果各位读者想看看自己关心的领域的性能对比,也可以联系我。

        天翼云我搞不到GPU云主机,就先看看华为云和阿里云的。首先,我们在华为云选择公测的P1双GPU实例,在阿里云选择GN5双GPU实例,两个实例的cpu规格和内存规格接近,都提供两张P100 GPU。

阿里的云主机信息见下图

GPU云主机,到底谁有真功夫(一)——基础能力对比

 华为的云主机信息见下图

GPU云主机,到底谁有真功夫(一)——基础能力对比

    用bandwidthTest看看GPU带宽,这个工具是NVIDIA的CUDA开发包里提供的sample,能够测试GPU到主机,主机到GPU的传输带宽。下面我们来看看阿里云和华为云在这一回合的较量结果。可以从下面的图上看到,在显存带宽上,阿里云和华为云的几乎持平不分伯仲。在p2p时延上,阿里占优一些。但在GPU p2p带宽上,单向带宽华为比阿里高33%,双向带宽华为是阿里的2.5倍。阿里的p2p带宽和非p2p带宽竟然几乎一样。阿里虚拟化以后的损耗太大了,完全制约了P100的能力。

GPU云主机,到底谁有真功夫(一)——基础能力对比

GPU云主机,到底谁有真功夫(一)——基础能力对比

GPU云主机,到底谁有真功夫(一)——基础能力对比

GPU云主机,到底谁有真功夫(一)——基础能力对比

    GPU p2p就是所说的GPU direct技术,能够极大提高GPU之间的数据传输效率,最终能够极大提升需要大数据量传输的业务性能。我查阅了一下公开资料,Amber在GPU p2p下性能能够提升151%。深度学习训练过程中,各节点之间也需要大量的数据传输,我没有找到公开的资料,相信在这个场景下也能够提升非常多。

    从GPU p2p的能力来看,在需求多GPU p2p的业务场景下,华为云的GPU云主机性能应该能够碾压阿里云。下一篇文章我将把HPC领域的测试数据发出来,来验证我的观点。


附原始测试数据截图:

GPU云主机,到底谁有真功夫(一)——基础能力对比    

GPU云主机,到底谁有真功夫(一)——基础能力对比

GPU云主机,到底谁有真功夫(一)——基础能力对比

GPU云主机,到底谁有真功夫(一)——基础能力对比