在2020年选择最佳的深度学习GPU
2020/07/29
最先进的(SOTA)深度学习模型具有大量的内存占用空间。许多GPU没有足够的VRAM来训练它们。在本文中,我们确定了哪些GPU可以训练最新的网络而不会引发内存错误。我们还将基准每个GPU的训练性能。
TLDR:
截至2020年2月,以下GPU可以训练所有SOTA语言和图像模型:
- RTX 8000:48 GB VRAM,约5500美元。
- RTX 6000:24 GB VRAM,〜$ 4,000。
- Titan RTX:24 GB VRAM,约2,500美元。
以下GPU可以训练大多数(但不是全部)SOTA模型:
- RTX 2080 Ti:11 GB VRAM,约1,150美元。*
- GTX 1080 Ti:11 GB VRAM,约$ 800翻新。*
- RTX 2080:8 GB VRAM,约720美元。*
- RTX 2070:8 GB VRAM,约500美元。*
以下GPU不适合用于训练SOTA模型:
- RTX 2060:6 GB VRAM,约359美元。
*在这些GPU上进行训练需要小批量,因此期望模型精度较低,因为模型的能量分布近似会受到影响。
Image models
Maximum batch size before running out of memory
Model / GPU |
2060 |
2070 |
2080 |
1080 Ti |
2080 Ti |
Titan RTX |
RTX 6000 |
RTX 8000 |
4 |
8 |
8 |
8 |
8 |
32 |
32 |
64 |
|
2 |
2 |
2 |
4 |
4 |
8 |
8 |
16 |
|
2 |
4 |
4 |
4 |
4 |
8 |
8 |
16 |
|
0* |
0* |
0* |
0* |
0* |
1 |
1 |
2 |
|
1 |
1 |
1 |
4 |
4 |
8 |
8 |
16 |
|
1 |
2 |
2 |
2 |
2 |
8 |
8 |
16 |
*The GPU does not have enough memory to run the model.
Performance, measured in images processed per second
Model / GPU |
2060 |
2070 |
2080 |
1080 Ti |
2080 Ti |
Titan RTX |
RTX 6000 |
RTX 8000 |
7.3 |
9.2 |
10.9 |
10.1 |
12.9 |
16.3 |
13.9 |
15.6 |
|
4.4 |
4.82 |
5.8 |
5.43 |
7.6 |
9.01 |
8.02 |
9.12 |
|
7.8 |
9.15 |
11.08 |
11.03 |
14.12 |
14.22 |
12.8 |
14.22 |
|
0.0* |
0.0* |
0.0* |
0.0* |
0.0* |
0.73 |
0.71 |
0.71 |
|
1.92 |
2.25 |
2.6 |
2.97 |
4.22 |
4.94 |
4.25 |
4.96 |
|
2.85 |
3.33 |
4.36 |
4.42 |
5.22 |
6.3 |
5.54 |
5.84 |
*The GPU does not have enough memory to run the model.
Language models
Maximum batch size before running out of memory
Model / GPU |
Units |
2060 |
2070 |
2080 |
1080 Ti |
2080 Ti |
Titan RTX |
RTX 6000 |
RTX 8000 |
Tokens |
0* |
2000 |
2000 |
4000 |
4000 |
8000 |
8000 |
16000 |
|
Tokens |
0* |
2000 |
2000 |
3584 |
3584 |
8000 |
8000 |
16000 |
|
Tokens |
0* |
500 |
500 |
1000 |
1000 |
4000 |
4000 |
8000 |
|
Sequences |
8 |
16 |
16 |
32 |
32 |
64 |
64 |
128 |
|
Sequences |
1 |
6 |
6 |
6 |
6 |
24 |
24 |
48 |
|
Sequences |
0* |
1 |
1 |
2 |
2 |
4 |
4 |
8 |
*The GPU does not have enough memory to run the model.
Performance
Model / GPU |
Units |
2060 |
2070 |
2080 |
1080 Ti |
2080 Ti |
Titan RTX |
RTX 6000 |
RTX 8000 |
Words/sec |
0* |
4597 |
6317 |
6207 |
7780 |
8498 |
7407 |
7507 |
|
Words/sec |
0* |
7721 |
9950 |
5870 |
15671 |
21180 |
20500 |
22450 |
|
Words/sec |
0* |
1010 |
1212 |
1824 |
2025 |
3850 |
3725 |
3735 |
|
Ex./sec |
34 |
47 |
58 |
60 |
83 |
102 |
98 |
94 |
|
Ex./sec |
7 |
15 |
18 |
17 |
22 |
30 |
29 |
27 |
|
Ex./sec |
0* |
3 |
4 |
8 |
9 |
18 |
18 |
28 |
*The GPU does not have enough memory to run the model.
结果由Quadro RTX 8000标准化
Results normalized by Quadro RTX 8000
图2.针对Quadro RTX 8000标准化的训练吞吐量。
上:image models。下:Language models.。
结论
- 语言模型比图像模型受益于更大的GPU内存。注意右图比左图陡。这表明语言模型受内存限制更大,而图像模型受计算限制更大。
- 具有较高VRAM的GPU具有更好的性能,因为使用较大的批处理大小有助于使CUDA内核饱和。
- 具有更高VRAM的GPU可按比例实现更大的批处理大小。信封后的计算得出合理的结果:具有24 GB VRAM的GPU可以比具有8 GB VRAM的GPU容纳大约3倍的批处理。
- 对于长序列,语言模型不成比例地占用大量内存,因为注意力集中在序列长度上。
GPU建议
- RTX 2060(6 GB):如果您想在业余时间探索深度学习。
- RTX 2070或2080(8 GB):如果您认真研究深度学习,但GPU预算为$ 600-800。八GB的VRAM可适合大多数型号。
- RTX 2080 Ti(11 GB):如果您认真研究深度学习并且您的GPU预算约为1200美元。RTX 2080 Ti比RTX 2080快40%。
- Titan RTX和Quadro RTX 6000(24 GB):如果您正在广泛使用SOTA模型,但没有足够的预算用于RTX 8000提供的面向未来的证明。
- Quadro RTX 8000(48 GB):您正在投资未来,甚至可能有幸在2020年研究SOTA深度学习。
Footnotes
Image Models
Model |
Task |
Dataset |
Image Size |
Repo |
NasNet Large |
Image Classification |
ImageNet |
331x331 |
|
DeepLabv3 |
Image Segmentation |
PASCAL VOC |
513x513 |
|
Yolo v3 |
Object Detection |
MSCOCO |
608x608 |
|
Pix2Pix HD |
Image Stylization |
CityScape |
2048x1024 |
|
StyleGAN |
Image Generation |
FFHQ |
1024x1024 |
|
MaskRCNN |
Instance Segmentation |
MSCOCO |
800x1333 |
Language Models
Model |
Task |
Dataset |
Repo |
Transformer Big |
Supervised machine translation |
WMT16_en_de |
|
Conv. Seq2Seq |
Supervised machine translation |
WMT14_en_de |
|
unsupMT |
Unsupervised machine translation |
NewsCrawl |
|
BERT Base |
Language modeling |
enwik8 |
|
BERT Finetune |
Question and answer |
SQUAD 1.1 |
|
MT-DNN |
GLUE |
GLUE |
老规矩还是给大家介绍一下租用GPU做实验的方法,我们是在智星云租用的GPU,使用体验很好。具体大家可以参考:智星云官网: http://www.ai-galaxy.cn/,淘宝店:https://shop36573300.taobao.com/公众号: 智星AI,
参考文献:
https://lambdalabs.com/blog/choosing-a-gpu-for-deep-learning/