华为达芬奇架构到底好在哪里?

华为达芬奇架构好在哪里?从使用效果看,我们华为手机的AI能力就能体现实实在在的好效果。如果从技术角度看,达芬奇架构可以在同样的单位功耗下提供更多的AI算力。而现在的科技时代正是人工智能AI快速发展的时代,达芬奇架构将来一定会大放光彩。

华为达芬奇架构到底好在哪里?

 

1、什么是达芬奇架构

达芬奇架构是华为在深入研究ARM的架构基础上,为了实现更快的AI计算,而自主研发的面向AI计算特征的全新计算架构。具备高算力、高能效、灵活可裁剪的特性,是将来万物互联,智能计算的重要架构。它不仅继承了ARM的低功耗,又实现了高算力,确实是一个不可多得的架构。

 

华为达芬奇架构到底好在哪里?

 

2、达芬奇架构的实际效果

讲达芬奇架构,很多非技术人士可能不太了解,但直接看实际使用效果应该都可以体会得到。很多使用华为手机的人都知道,华为手机里有一个叫做NPU的人工智能芯片。它在默默的为我们做很多AI驱动的功能。比如,余承东曾经介绍的:

  • 人像分割功能:该功能可以精准地将人物和背景识别出来,并对两者进行分离。同时在这基础上,可以实现人物美颜、背景虚化、以及直播过程中很多特效。
  • 智慧识物:我们可以用华为手机对着食物扫一扫,华为的AI算法很快就能帮助你识别食物的卡路里,让你轻松管理你的饮食。
  • 实时翻译:华为手机支持数十种国家的语言实时翻译,我们只需要唤醒华为的“小艺、小艺”,然后说“翻译一下+需要翻译的语句”。

以上只是部分AI功能,但这都是华为HiAI的功能,也是用达芬奇架构下的NPU的AI计算作为支撑的。这下应该知道达芬奇有多好了吧,它的AI能力可以方便我们生活的方方面面。

 

华为达芬奇架构到底好在哪里?

 

2、达芬奇架构的技术优势

从技术上讲,达芬奇架构是采用3D Cube针对矩阵运算做了加速设计,能够大幅度提升AI运算能力,又不会增加太多能耗。目前,每个AI Core可以在一个时钟周期内实现4096个MAC操作,相比传统的CPU和GPU实现了数量级的提升

同时,为了提升AI计算的完备性和不同场景的计算效率,达芬奇架构还集成了向量、标量、硬件加速器等多种计算单元。同时支持多种精度计算,支撑训练和推理两种场景的数据精度要求,实现AI的全场景需求覆盖。

在华为的NPU中,里面有很多很多AI Core。每个core里面又包含了核心的3D cube、Vector向量计算单元、Scalar标量计算单元等等。他们各自负责AI场景中的各种关于深南,并最大程度实现并行化计算,确保AI计算高效处理。

  • 3D Cube矩阵乘法单元:这是AI计算的核心,这部分运算由3D Cube完成,Buffer L0A、L0B、L0C则用于存储输入矩阵和输出矩阵数据,负责向Cube计算单元输送数据和存放计算结果。
  • Vector向量计算单元:是为了补充3D Cube无法完成的向量计算类型,也可以覆盖各种基本的计算类型和许多定制的计算类型。
  • Scalar标量计算单元:主要负责标量运算,就像一个微型CPU,它可以很高效的完成程序的循环控制、条件判断、基本的算术运算。
  • 计算加速:华为达芬奇架构不同于以前的标量、矢量运算。它以3D Cube计算引擎为基础,针对矩阵运算进行加速。比如:同样进行4096次运算,2D结构需要64X64矩阵运算才能算出结果。而3D Cube只需要16X16X16的结构就能算出。运算明显得到了加速。

综上,在华为达芬奇架构下的NPU,能够大幅提高单位面积下的AI算力,充分激发端侧AI的运算潜能。这也是我们手机能够实时的为我们处理很多AI场景的原因。

华为达芬奇架构到底好在哪里?

 

达芬奇架构的开发者优势

在达芬奇架构下,可以针对不同环境独,支持可大可小,适应全场景立部署。对开发者来说是非常方便的。而且除了方便还有更多开发优势:

  • 将模型保护已经嵌入到AI框架中了,实现模型安全可靠
  • 通过实现AI算法即代码,使开发态变得更加友好,减少模型开发时间。以自然语言处理模型为例,最高可以减少20%的核心代码量,效率整体提升50%以上。

 

华为达芬奇架构到底好在哪里?

 

总结

总之,华为达芬奇架构是华为AI战略的重要基础。它可以让华为的消费者享受更智能的AI功能,也能让华为的开发者享受更加便捷的服务。同时,该架构技术上提高了单位面积的AI算力,可以为华为在将来的人工智能时代占领领先地位。