联泰集群发布水晶系列工作站,用于深度学习场景

北京时间2019年12月26日,联泰集群在北京正式发布了水晶系列工作站产品 W722、W7224和W5232。

 

联泰集群硬件产品技术中心总监刘振锋、软件产品技术中心总监孙建军、硬件产品技术中心工程师肖学文分别从应用方向、水晶工作站一体化软件平台及水晶系列产品硬件方面对本系列产品进行了介绍。

 

他们介绍道,水晶工作站在提供高算力的同时,又能保证静音。

 

联泰集群发布水晶系列工作站,用于深度学习场景

 

在配置方面,联泰集群水晶系列工作站有不少亮特点:

 

  • CPU 56核(双路8200系列),在计算、存储和网络应用中,为计算密集型工作负载提供高性能和可扩展性。
  • 4块GPU,高达448万亿次浮点运算性能,既能支持深度学习实验,又支持AI超级计算。
  • 内存使用Intel创新性的OptaneTM技术,将业界领先的低延迟、高持久性、QoS和高吞吐量等特点结合在一起,可以消除数据瓶颈并释放CPU的潜力。
  • 冷排,自研降噪散热系统,即享高性能计算的同时,在安静的环境中完成设计、编码、撰写文稿等工作。
  • HDD,支持8个热插拔硬盘位,提供海量存储能力。

 

此外,水晶工作站系列产品还具有可扩展性的特点,支持两颗二代lntel Xeon Scalable

Processors(Cascade Lake-SP),Intel Xeon Scalable Processors系列处理器,最大支持16条DIMM插槽,最高支持DDR42933MHz内存,最大支持4TB内存,最大支持2TB [email protected]数据中心级可持久化内存,最大支持8个2.5英寸热插拔SATA硬盘和2个内置3.5寸硬盘,最大可支持4张高性能加速卡。

 

在应用场景上,水晶系列工作站可用于AI机器学习、高性能计算、专业建模和专业图形化处理。

 

深度学习已成为工作站的重要应用场景之一,如果有专业的工作站,执行深度学习训练、运行模型等将变得事半功倍。联泰的W5232工作站就是针对深度学习场景的一款产品。

 

  1. 深度学习需要大量的并行计算资源,而且动辄计算几天甚至数周,而显卡(GPU)恰好适合这种工作,提供几十上百倍的加速,性能强劲的GPU能在几个小时内完成原本CPU需要数月完成的任务,所以目前深度学习乃至于机器学习领域已经全面转向GPU架构,使用GPU完成训练任务;
  2. 如今即使使用GPU的深度学习任务也要持续数天乃至数月(取决于数据规模和深度学习网络模型),需要使用单独的设备保障保证训练任务能够7x24小时长期稳定运行;
  3. 独立的深度学习工作站(服务器)可以方便实现实验室计算资源共享,多用户可以在个人电脑编写程序,远程访问到深度学习服务器上排队使用计算资源,减少购买设备的开支并且避免了在本地计算机配置复杂的软件环境。

 

由于深度学习任务对计算机的性能要求较高,深度学习工作站配置要求门槛也相对较高,各硬件主要完成数据调入、数据与处理、内存→显存→计算、数据结果→内存、数据保存等操作:

 

联泰集群发布水晶系列工作站,用于深度学习场景  

 

上图为深度神经网络计算大致流程,下面通过深度神经网络计算环节,分析核心硬件配置理想要求:

 

联泰集群发布水晶系列工作站,用于深度学习场景

 

CPU:

 

因为主要使用显卡进行cuda计算,因此对CPU的要求并不是很高,频率越高、线程数越多越好,一般最低要求cpu核心数大于显卡个数。其中一个制约因素:cpu的最大PCI-E 通道数。每张显卡占用16条pcie通道才能达到最大性能,而单cpu最大支持48条pcie,也就是最多3条PCI-E x16接口, 但是受限主板的大小,只有选用专业的工作站板子才能充分发挥GPU卡的性能。联泰的W5232工作站采用专用的双路工作站,不仅提升了CPU的处理能力,也能通过使用两张GPU卡来增加训练能力。

 

GPU卡:

 

深度学习需要较强性能的显卡进行复杂的单精度运算,通常神经网络需要大量显存和内存资源,因此需要8GB以上显存才能运行大规模的深度卷积网络,执行计算机视觉任务,一般选择GTX1070以上配置。应该购买具有较大显存的显卡。下面给出2080ti、2080、2070、1080ti、1070、1060、Titan X、Titan V的几项指标的对比:

 

TFLOPS(teraFLOPS FLoating-point Operations Per Second每秒浮点运算次数)单精度

也就是运算性能,决定了运算速度,首选1080ti、2080ti、Titan V,不过性能最强的Titan V的价格是2080ti的三倍。

 

联泰集群发布水晶系列工作站,用于深度学习场景

 

VRAM (显存):

 

显存大小决定了网络模型是否可以执行,大型的卷积神经网络会使用超过8G以上的显存,因此购买具有大显存的显卡才能够保证大多数卷积神经网络模型能够顺利执行。

 

作为入门级深度学习的工作站,联泰的W5232工作站就采用的是两颗二代Intel至强可扩展处理器,并且配备了64GB的内存,支持2张GPU加速卡,480G的SSD作为系统盘,4T的SATA盘作为数据盘。

 

 

静音工作站W4232

CPU

2 * Intel® Xeon® Silver 4210 Processor 10/20 Cores/threads 2.2GHz 13.74MB L3 cache 85W

GPU

2 * RTX2080TI

RAM

4 * DDR4 16G 2400MHz

Boot Storage

480G SSD

Data Storage

希捷4TB SATA

OS

Ubuntu/Centos/Windows