了解行业动向,NVIDIA GTC 2020 总结
文章目录
1. 开场
1.1 NVIDIA COVID-19
主要应用有:
- 7小时辅助完成基因测序;
- 全美新冠感染率实时分析;
- 每天筛查十亿个药物化合物,而以前需要一年;
- 重建新冠病毒刺突蛋白结构;
- 新冠病毒分类;
- 递送医疗物资的机器人;
- 自动检测和筛查体温系统。
1.2 NVIDIA & Mellanox
未来计算三大构成:
- CPU负责通用计算;
- GPU负责加速计算;
- DPU负责数据中心的数据传输与处理。
1.3 NVIDIA SDK
- CUDA:所有产品都与该架构兼容,CUDA11做到了向下向上的兼容;
- CUDA-X:包括加速运算库、线性几何库、信号处理库、图分析库;TensorRT(深度学习网络编译和优化器)
- 面向市场及专业领域的库:
- 1)RTX:用于光线追踪;
- 2)HPC:用于高性能计算;
- 3)RAPIDS:用于数据分析;
- 4)AI:用于人工智障;
- 5)Clara:用于医疗健康和生命科学;
- 6)Metropolis:用于视频分析及流媒体视频平台;
- 7)DRIVE:用于自动驾驶;
- 8)ISSAC:用于机器人;
- 9)AERIAL 5G:用于最新的5G 虚拟RAN处理库;
目前NVIDIA平台的开发者已经超过180万。
2. RTX
(略)
3. 高性能计算和数据分析(Spark3.0)
3.1 加速计算四个支柱
- GPU:高性能的GPU;
- 堆栈:每个计算领域的加速计算软件堆栈;
- 系统
-
开发者
由于数据量猛增,机器学习正在变得困难,特征工程和数据处理对硬件提出了新的要求。先前Spark通过调用服务器集群实现数据集的运算分发,但是CPU的缓存通常在几十MB,对于如今动辄数百TB的数据,协调CPU服务器的开销成了其最大的瓶颈。NVIDIA推出了使用GPU加速的数据处理堆栈,可以实现GB级别的数据运算分发。【下一代Spark3.0将使用NVIDIA加速!】
3.2 Spark3.0性能突破的关键技术
- GPU Driect加速存储和IUCX框架:NVIDIA和Mellanox共同推出的GPU Driect加速存储和IUCX框架,使得IO、存储以及多节点的加速运算成为可能。
- Spark调度器:其可以识别出GPU和CPU,将任务分发到GPU上,并进行分布式调度,实现该架构的大量计算。
- RAPIDS库:可以提取数据,创建DataFrame,做特征工程,SQL查询,截取Spark调用,并使用GPU加速这些调用。
- Catalyst:Spark SQL加速器,并针对NVIDIA GPU做了优化。
the more you buy,the more you save??? 我岁数小,你别骗我!每年double 11和618,两位爸爸也这么说。
3.3 DL端到端加速框架组成
- RAPIDS:处理数据;
- cuDNN:深度学习和人工智能核心库;
- TensorRT:用于优化从训练框架生成的计算图;
我对此无比自豪,目前省钱力度还不够,我们还将致力于为你们省钱!
快结束了,秀秀肌肉,看看哪些企业省钱了:
一个个都是不差钱的主~
4. 推荐系统
推荐系统是机器学习算法部署流程中最重要和最复杂的流程之一。创建推荐系统非常复杂,但是可以为用户省钱,真的省钱,推荐得越精准越省钱。花呗额度越来越高,钱包越来越扁,买一堆没用的,也不知道省哪里去了,反正你告诉我省了就是省了。
4.1 推荐系统组成
推荐算法有两种协同过滤和内容过滤。
- 协同过滤:试图从相似的其他用户的交互中预测用户的偏好。
- 内容过滤:视图基于相似的项目,来预测哪些项目更受人喜爱。
推荐系统的第一个阶段包括:获取用户和项目的高维信息,并将其编码为低维向量。在此过程中,计算用户与其他用户,以及项目和其它项目之间的相似性,将高维度的信息转化为低维度的向量,这个过程称为Embedding,这是一个计算密集型的过程。提醒你该省钱了。这些Embedding被推荐系统用来学习如何预测用户的偏好;当新用户注册,并使用某个项目(歌曲、电影等等)时,为其推荐。在这个过程中,将会从数十亿的数据中,产生上千个候选项,已经学习到特定用户偏好的神经网络会对这些候选项进行排序,以提供下一个偏好项目的排序列表。这也是为啥你在b站(是不是b你心里清楚,油腻)看视频,播放结束后,推荐的视频与刚才观看的视频相似的原因;歌曲、图书、购物APP同样的道理,包括你此时从CSDN APP推荐页看到这篇文章。基于用户交互和查询来预测用户的偏好的能力是互联网如此个性化的重要原因之一。
对于公司而言,推荐系统可以将销售和营销自动化;对于医疗卫生行业,它可以长期推荐治疗方法;对于每个行业,它都至关重要,无论是客户,供应链,还是客户服务,呼救系统将在后台使用推荐系统,推荐解决方案和自救方法。推荐系统是互联网的基础,也是各大厂商努力的目标,然而构建推荐系统非常复杂。省钱小贴士开始了,NVIDIA专注于简化构建推荐系统的复杂度,将其放到一个框架之下,从而将其普及到各个行业,这就是传说中看不见的手?现在已经做好了,称之为【NVIDIA Merlin】。
4.2 NVIDIA Merlin
NVIDIA Merlin 是一个深度学习算法框架,仅需要几行代码就可以对几百TB的数据进行加载、提取、转换。并且容易部署,其应用流程如下:
通过该框架,原来花几天的钱,现在几分钟就能花完,是不是帮你省下了几天花钱的时间,太赚了。
5. 对话式AI
推理是机器学习算法流程中的最后一个阶段,即将训练好的模型部署到生产环境中。机器学习的工作流和框架产生的是非常复杂的计算图,将这些计算图和种类繁多的神经网络编译到目标服务器中是非常复杂的工作。NVIDIA 创建了一个优化编译框架 TensorRT,现在是7.0版,本,目前已经可以处理RNN模型。全球前300强的互联网公司都在其服务器中部署了NVIDIA GPU,我充的QB,开的各种红橙黄绿青蓝紫钻也做了贡献。其中可以实现的最主要的应用就是对话式AI。
对话式AI是最重要的推理任务之一,因为其对交互性能要求很高,构建对话式AI的工作流中的各元素,最近取得了突破性的进展。对于低延时对话式AI来说则要求更高,因为其应用了业界最先进的算法和处理流程,所以训练这些模型需要大量的计算资源,并且能够在端到端的框架中将这些模型融合起来。之前业界没有人做,今天NVIDIA 推出了【Jarvis】,可以创建交互式3D对话机器人,使得这种完整的体验成为可能的AI模型,就是我们所说的语音生成表情,它需要音频输入,并且已经学会如何描绘网格物体动画,以及讲话时的动画表情,并创建一个交互式机器人。下面是NVIDIA创建的一个Demo–Misty:
要实现上述3D AI交互式机器人,需要实现自然语言处理,文本到语音的转换,合成并渲染图形
Jarvis是一个多模态对话式AI服务框架,可以简化对话式AI的创建和开发。它包括先进的模型,这些模型已经预先上传至Helms chart中,这些图表经过优化,运行在NVIDIA Triton以及GPU上,并且其性能是交互式的,整个端到端模型的流程仅需要几百毫秒。同时Jarvis还包括许多预训练的先进模型,这些最先进的模型经过大量的数据训练,在NVIDIA GPU CLOUD中经过数十万小时的训练,如果使用一台DGX需要训练10到20年。它自带一个工具NeMo,采用预训练好的模型,并使用自定义的数据优化模型,由于数据可能来自特定领域,例如医疗、保险或金融服务等,这些领域的专业词汇,特定的语言都是Jarvis需要学习的,使用NeMo工具在Jarvis中来对自定义的数据进行反复训练。
6. NVIDIA A100 GPU、HGX A100 和 DGX A100
(略)
7. 边缘AI与机器人
(略)
8. 自动驾驶
自动驾驶汽车是最大的计算挑战之一,也是最具影响力的挑战之一,更是世界上最大的产业之一,每年汽车行驶10万亿英里,实现端到端的各类车辆自动驾驶是业内研究的热门领域。NVIDIA推出了端到端的自动驾驶框架DRIVE。
合作伙伴(省钱伙伴):
Video Online:https://investor.nvidia.com/events-and-presentations/events-and-presentations/event-details/2020/GTC-2020-Keynote/default.aspx
Keynote download:https://investor.nvidia.com/events-and-presentations/events-and-presentations/event-details/2020/GTC-2020-Keynote/default.aspx