面向人工智能新特性的计算系统设计讲座笔记
本文基于:上海交通大学 过敏意教授 2020-5-18 ”面向人工智能新特性的计算系统设计“ 讲座,以记录学习为目的。若侵权,立删除。
1 TPU = 3 GPU = 1000 CPU
David Patterson:A New Golden Age for Computer Architecture
1、常见人工智能模型的计算特性
模型计算量大、模型存储量大、计算模式单一
(建立在采用的模型单一前提下?)
Google TPU、华为昇腾等
2、新的计算特性及其挑战
算法迭代更新、模型黑盒特性、模型稀疏特性
3、快速迭代模型与架构固化的矛盾
比如对图片识别的卷积、全连接的专用架构,但随着算法更新:比如语义分割、实例分割等便会出现不适应。
专用架构的灵活性确实使得其无法应对不断涌现的新型混合型神经网络模型
解决方案:
- 多模态架构——专用与通用架构融合
硬件资源复用、异步执行与显式同步的粗粒度指令、上述指令模式使得GPU原有通用架构和专用架构进行了解耦。
-
架构融合的其他应用(专用与专用的融合)
-
非对称容错架构
- CODA系统设计
4、加速器专用架构可靠性挑战
越来越多加速器架构集成于计算系统中,开始考虑针对加速器系统容错
- 加速器架构由于其性能和能耗优势而被大量采用
- 加速器更容易出错
加速器系统容错要求:
- 通用性
- 高效性
现有技术无法兼顾两者
现有容错技术总结:
通用的 备份-重执行容错技术:产生错误就恢复备份重新执行。可用于加速器容错方案,但开销很大。
基于幂等性的重新执行:一段代码多次执行结果一样则满足幂等性。可以极大提高效率,但仅仅适用于冯诺依曼结构
5、大规模GPU管理问题
GPU利用率低,活跃率低,任务排队。来自于CPU忙碌。
6、深度神经网络的黑盒特性
- 容易受到输入扰动的影响
消除对抗样本影响:提取神经网络的有效路径
7、稀疏加速
- 减去不重要的神经元:但可能减枝后会降低性能
- 基于矩阵分块的稀疏神经网络。