华为达芬奇架构好在哪里？从使用效果看，我们华为手机的AI能力就能体现实实在在的好效果。如果从技术角度看，达芬奇架构可以在同样的单位功耗下提供更多的AI算力。而现在的科技时代正是人工智能AI快速发展的时代，达芬奇架构将来一定会大放光彩。

华为达芬奇架构到底好在哪里？

1、什么是达芬奇架构

达芬奇架构是华为在深入研究ARM的架构基础上，为了实现更快的AI计算，而自主研发的面向AI计算特征的全新计算架构。具备高算力、高能效、灵活可裁剪的特性，是将来万物互联，智能计算的重要架构。它不仅继承了ARM的低功耗，又实现了高算力，确实是一个不可多得的架构。

华为达芬奇架构到底好在哪里？

2、达芬奇架构的实际效果

讲达芬奇架构，很多非技术人士可能不太了解，但直接看实际使用效果应该都可以体会得到。很多使用华为手机的人都知道，华为手机里有一个叫做NPU的人工智能芯片。它在默默的为我们做很多AI驱动的功能。比如，余承东曾经介绍的：

以上只是部分AI功能，但这都是华为HiAI的功能，也是用达芬奇架构下的NPU的AI计算作为支撑的。这下应该知道达芬奇有多好了吧，它的AI能力可以方便我们生活的方方面面。

华为达芬奇架构到底好在哪里？

从技术上讲，达芬奇架构是采用3D Cube针对矩阵运算做了加速设计，能够大幅度提升AI运算能力，又不会增加太多能耗。目前，每个AI Core可以在一个时钟周期内实现4096个MAC操作，相比传统的CPU和GPU实现了数量级的提升。

同时，为了提升AI计算的完备性和不同场景的计算效率，达芬奇架构还集成了向量、标量、硬件加速器等多种计算单元。同时支持多种精度计算，支撑训练和推理两种场景的数据精度要求，实现AI的全场景需求覆盖。

在华为的NPU中，里面有很多很多AI Core。每个core里面又包含了核心的3D cube、Vector向量计算单元、Scalar标量计算单元等等。他们各自负责AI场景中的各种关于深南，并最大程度实现并行化计算，确保AI计算高效处理。

3D Cube矩阵乘法单元：这是AI计算的核心，这部分运算由3D Cube完成，Buffer L0A、L0B、L0C则用于存储输入矩阵和输出矩阵数据，负责向Cube计算单元输送数据和存放计算结果。
Vector向量计算单元：是为了补充3D Cube无法完成的向量计算类型，也可以覆盖各种基本的计算类型和许多定制的计算类型。
Scalar标量计算单元：主要负责标量运算，就像一个微型CPU，它可以很高效的完成程序的循环控制、条件判断、基本的算术运算。
计算加速：华为达芬奇架构不同于以前的标量、矢量运算。它以3D Cube计算引擎为基础，针对矩阵运算进行加速。比如：同样进行4096次运算，2D结构需要64X64矩阵运算才能算出结果。而3D Cube只需要16X16X16的结构就能算出。运算明显得到了加速。

综上，在华为达芬奇架构下的NPU，能够大幅提高单位面积下的AI算力，充分激发端侧AI的运算潜能。这也是我们手机能够实时的为我们处理很多AI场景的原因。

华为达芬奇架构到底好在哪里？

在达芬奇架构下，可以针对不同环境独，支持可大可小，适应全场景立部署。对开发者来说是非常方便的。而且除了方便还有更多开发优势：

华为达芬奇架构到底好在哪里？

总之，华为达芬奇架构是华为AI战略的重要基础。它可以让华为的消费者享受更智能的AI功能，也能让华为的开发者享受更加便捷的服务。同时，该架构技术上提高了单位面积的AI算力，可以为华为在将来的人工智能时代占领领先地位。