完成A+轮融资4000万美元的深鉴科技,不做英伟达要做Movidius

整理 | 藤子 路雪


有一家公司被称为中国版的英伟达,它就是深鉴科技。


成立于 2016 年的深鉴科技核心成员大多来自于清华大学和斯坦福大学,联合创始人兼 CEO 姚颂 2015 年从清华大学电子系本科毕业,另外一名联合创始人汪玉是清华电子系副教授,ACMFPGA 技术委员会亚太唯一成员,IEEE/ACM Fellow ;获得 ICLR 2016 最佳论文、FPGA 2017 最佳论文的韩松本科毕业于清华大学电子工程系,是斯坦福大学电子工程系博士; CTO 单羿作为前百度 IDL 异构计算方向创始成员,同样来自清华大学。团队的核心技术为 Deep Learning Processing Unit (DPU)  及神经网络压缩编译技术。


完成A+轮融资4000万美元的深鉴科技,不做英伟达要做Movidius

深鉴科技创始人团队:从左到右依次为韩松、姚颂、汪玉、单羿 


正是这样一支团队,在 10 月 24 日下午于北京举办的发布会上,宣布获得由蚂蚁金服与三星风投领投、招商局创投与华创资本跟投的 A+ 轮融资 4000 万美元。此前,他们曾获得 FPGA 巨头赛灵思、联发科、清华控股、高榕资本、金沙江创投等投资。


姚颂表示,本轮融资部分金额将继续用于安防和大数据领域的产品开发和市场销售,落地更多安防监控的终端产品和服务。蚂蚁金服与三星的领投,前者会帮助深鉴进一步开拓包括金融在内的应用场景。而与后者在存储等方面的合作,则会帮助深鉴科技的 AI 芯片打造以深度学习处理器为核心的整体系统,使其扩展到更多领域,促使深鉴科技进一步产品落地和商业化。


备受关注,是因为其独特压缩算法


此前,深鉴科技发布了基于亚里士多德架构和笛卡尔架构的 DPU,前者针对卷积神经网络 CNN 而设计,后者专为处理 DNN/RNN 网络而打造,对经过结构压缩后的稀疏神经网络进行硬件加速。两者都可用于优化语音识别、图像识别等算法,应用场景包括智能安防、智能大数据以及嵌入式端图像处理等。


相对于 Intel Xeon CPU  与 Nvidia TitanX GPU,应用笛卡尔架构的处理器在计算速度上能提高 189 倍与 13 倍,能效提高 24000 倍与 3000 倍。而亚里士多德架构的灵活与可扩展的特性使它可被应用于各种不同规格的终端中。


如今,人工智能公司应用深度学习,将面临着越来越复杂的数据类型和数据量,因此,增强计算能力和改善带宽成为了深度学习计算硬件厂商的常规应对方法。比如升级内存,或从双通道增加到多通道,或者在计算芯片上集成 HBM 内存。


然而,这样的做法会导致成本或功耗进一步增加。但事实上,瓶颈不在于系统计算的核心部分,而是数据传输。此时,优秀的压缩算法就至关重要。这也是深鉴科技成为业内明星,获得投资人青睐的原因——拥有完全自主的深度压缩算法。


在发布会上,姚颂公布了一系列芯片计划,包括其自主研发将于 2018 年上半年正式上市的芯片——“听涛”。“听涛”系列芯片核心使用亚里士多德架构,采用台积电 28 纳米制程,峰值性能 1.1 瓦  4.1 TOPS。


借鉴 Movidius ,不做英伟达


尽管业内将深鉴科技称为中国版的英伟达,但深鉴科技却将自己定位为行业方案的提供商,在商业上希望借鉴 Movidius ,把软件做好,在行业内建立标准,构建生态圈。


Movidius 是一家以色列科技公司,后被英特尔收购。和其他芯片厂商推出的多用途、普适性较高的 CPU、GPU 不同,Movidius 推出的 VPU 专门为计算机视觉进行优化,可以用于 3D 扫描建模、室内导航、360 度全景视频等。相较主流的移动处理芯片,其 VPU 尺寸更小,视觉处理运算的效能更高。


完成A+轮融资4000万美元的深鉴科技,不做英伟达要做Movidius


在这次发布会上,深鉴科技同样推出了一系列 AI 产品,除了深鉴深度学习 SDK DNNDK(Deep Neural Network Development Kit)、双目深度视觉套件和深鉴 ARISTOTLE 架构平台之外,还有视频结构化解决方案、人脸分析解决方案、人脸检测识别模组。


深鉴 ARISTOTLE 架构平台深鉴视频结构化及人脸识别硬件分析平台采用 Aristotle 架构,在各个平台上提供高性能、低功耗、高性价比的解决方案,该架构支持主流深度学习卷积神经网络的实时处理,可用于人脸识别、视频结构化、行为分析等场景。Aristotle 架构提供了在多平台上已经验证的高效处理能力,针对神经网络算法计算量大,并发度高同时数据吞吐量大的特点,定制化设计了高效的计算阵列和灵活的数据流控制流,同时易于扩展以支持不断更新的算法,实现加速比和通用性、功耗和性能等的优化和平衡。该架构还融合了深鉴科技的神经网络压缩、定点算法并提供了完整的 SDK 和编译工具,在 Zynq7020 平台上峰值可达 230GOPS ,支持 AlexNet 、VGGNet 、GoogLeNet 、ResNet 等几乎所有主流卷积神经网络,实测效率最高超过90%。
 视频结构解决方案深鉴视频结构化硬件分析板卡采用 FPGA 架构,集成了基于深度学习的车辆检测、人员检测、车辆型号识别、车牌识别、人员属性、跟踪等深度学习算法,可实时提取视频中车辆、非机动车、行人等属性的结构化信息。支持对车、非机动车、行人等活动目标数据进行分析,对图像中的目标特征属性进行提取并存储,提高视频应用价值。支持 SUV 、大客车、面包车、无厢货车、小轿车、小客车、有厢货车的车型识别。支持车身颜色、车牌、行车方向等的提取。支持行人性别、行进方向、衣服颜色等的提取。 人脸分析解决方案深鉴人脸硬件分析板卡采用 FPGA 架构,集成了基于深度学习的人脸智能算法。通过对人脸的检测、质量判断、跟踪、轨迹、识别及比对,单板卡可实现多路视频流和照片流 IPC 的人脸检测及识别。支持对性别、年龄段、是否戴眼镜等特征的识别;支持实时对黑名单库人脸的布控报警;支持1:1、1:N、N:N快速比对;支持以人脸特征属性作为过滤条件对人脸照片进行查询;支持对上传图片的人脸进行建模,实现在抓拍图片库中搜索相似的人脸图片,并按照相似度排序等功能。人脸检测识别模组采用 Aristotle 架构,可实现主流深度学习卷积网络 CNN 在多种场景下的实时应用,该方案可为行业用户快速实现基于深度学习算法的智能 IPC,在前端实现人脸检测与识别,支持黑名单/白名单布控。应用场景有社区、机场、汽车站、关键道路、银行进出口、超市、火车站、宾馆、地铁进出口、通道进出口。


“如果把自己定位为通用芯片公司,竞争对手就是英伟达、Cadence 。” 姚颂曾在此前的采访时表示。因此,深鉴科技的策略是将技术通过软件开发与硬件设计落地转化为实际产品,通过集成基于深度学习的智能算法,实现车辆检测与识别、前后端多路人脸识别等功能,应对多种场景下的应用需求。完成A+轮融资4000万美元的深鉴科技,不做英伟达要做Movidius