在2020年选择最佳的深度学习GPU

2020/07/29

在2020年选择最佳的深度学习GPU

最先进的（SOTA）深度学习模型具有大量的内存占用空间。许多GPU没有足够的VRAM来训练它们。在本文中，我们确定了哪些GPU可以训练最新的网络而不会引发内存错误。我们还将基准每个GPU的训练性能。

TLDR：

截至2020年2月，以下GPU可以训练所有SOTA语言和图像模型：

以下GPU可以训练大多数（但不是全部）SOTA模型：

以下GPU不适合用于训练SOTA模型：

*在这些GPU上进行训练需要小批量，因此期望模型精度较低，因为模型的能量分布近似会受到影响。

Image models

Maximum batch size before running out of memory

*The GPU does not have enough memory to run the model.

Performance, measured in images processed per second

*The GPU does not have enough memory to run the model.

Language models

Maximum batch size before running out of memory

*The GPU does not have enough memory to run the model.

Performance

*The GPU does not have enough memory to run the model.

结果由Quadro RTX 8000标准化

Results normalized by Quadro RTX 8000

在2020年选择最佳的深度学习GPU

图2.针对Quadro RTX 8000标准化的训练吞吐量。

上：image models。下：Language models.。

结论

语言模型比图像模型受益于更大的GPU内存。注意右图比左图陡。这表明语言模型受内存限制更大，而图像模型受计算限制更大。
具有较高VRAM的GPU具有更好的性能，因为使用较大的批处理大小有助于使CUDA内核饱和。
具有更高VRAM的GPU可按比例实现更大的批处理大小。信封后的计算得出合理的结果：具有24 GB VRAM的GPU可以比具有8 GB VRAM的GPU容纳大约3倍的批处理。
对于长序列，语言模型不成比例地占用大量内存，因为注意力集中在序列长度上。

GPU建议

RTX 2060（6 GB）：如果您想在业余时间探索深度学习。
RTX 2070或2080（8 GB）：如果您认真研究深度学习，但GPU预算为$ 600-800。八GB的VRAM可适合大多数型号。
RTX 2080 Ti（11 GB）：如果您认真研究深度学习并且您的GPU预算约为1200美元。RTX 2080 Ti比RTX 2080快40％。
Titan RTX和Quadro RTX 6000（24 GB）：如果您正在广泛使用SOTA模型，但没有足够的预算用于RTX 8000提供的面向未来的证明。
Quadro RTX 8000（48 GB）：您正在投资未来，甚至可能有幸在2020年研究SOTA深度学习。

Footnotes

Image Models

Language Models

Model	Task	Dataset	Repo
Transformer Big	Supervised machine translation	WMT16_en_de	GitHub
Conv. Seq2Seq	Supervised machine translation	WMT14_en_de	GitHub
unsupMT	Unsupervised machine translation	NewsCrawl	GitHub
BERT Base	Language modeling	enwik8	GitHub
BERT Finetune	Question and answer	SQUAD 1.1	GitHub
MT-DNN	GLUE	GLUE	GitHub

老规矩还是给大家介绍一下租用GPU做实验的方法，我们是在智星云租用的GPU，使用体验很好。具体大家可以参考：智星云官网： http://www.ai-galaxy.cn/，淘宝店：https://shop36573300.taobao.com/公众号: 智星AI，

在2020年选择最佳的深度学习GPU

参考文献：