面向人工智能新特性的计算系统设计讲座笔记

本文基于：上海交通大学过敏意教授 2020-5-18 ”面向人工智能新特性的计算系统设计“ 讲座，以记录学习为目的。若侵权，立删除。

1 TPU = 3 GPU = 1000 CPU

David Patterson：A New Golden Age for Computer Architecture

1、常见人工智能模型的计算特性

模型计算量大、模型存储量大、计算模式单一

（建立在采用的模型单一前提下？）
Google TPU、华为昇腾等

算法迭代更新、模型黑盒特性、模型稀疏特性
面向人工智能新特性的计算系统设计讲座笔记

比如对图片识别的卷积、全连接的专用架构，但随着算法更新：比如语义分割、实例分割等便会出现不适应。
专用架构的灵活性确实使得其无法应对不断涌现的新型混合型神经网络模型

解决方案：

面向人工智能新特性的计算系统设计讲座笔记

面向人工智能新特性的计算系统设计讲座笔记

越来越多加速器架构集成于计算系统中，开始考虑针对加速器系统容错

加速器系统容错要求：

现有容错技术总结：
面向人工智能新特性的计算系统设计讲座笔记
通用的备份-重执行容错技术：产生错误就恢复备份重新执行。可用于加速器容错方案，但开销很大。

基于幂等性的重新执行：一段代码多次执行结果一样则满足幂等性。可以极大提高效率，但仅仅适用于冯诺依曼结构

GPU利用率低，活跃率低，任务排队。来自于CPU忙碌。

面向人工智能新特性的计算系统设计讲座笔记

面向人工智能新特性的计算系统设计讲座笔记