寒武纪科技的前身是中国科学院计算技术研究所下的一个课题组,早在 2008 年就开始研究神经网络算法和芯片并于 2012 年开始陆续发表研究成果,公司创始人、首席执行官陈天石教授是处理器架构和人工beplay下载软件 领域享有国际盛誉的青年科学家。公司是全球第一个成功流片并拥有成熟产品的beplay下载软件 芯片公司,主要产品是各类beplay下载软件 云服务器、beplay下载软件 终端以及beplay下载软件 机器人的核心处理器芯片。
DianNao 是寒武纪系列的第一个原型处理器结构,包含一个处理器核,主频为 0.98GHz,峰值性能达每秒 4520 亿次神经网络基本运算,65nm 工艺下功耗为 0.485W,面积 3.02mm2。在若干代表性神经网络上的实验结果表明,DianNao 的平均性能超过主流 CPU 核的 100 倍,但是面积和功耗仅为 1/10,效能提升可达三个数量级;DianNao 的平均性能与主流GPGPU 相当,但面积和功耗仅为主流 GPGPU 百分之一量级。DaDianNao 在 DianNao的基础上进一步扩大了处理器的规模,包含 16 个处理器核和更大的片上存储,并支持多处理器芯片间直接高速互连,避免了高昂的内存访问开销。在 28nm 工艺下,DaDianNao的主频为 606MHz,面积 67.7 mm2,功耗约 16W。单芯片性能超过了主流 GPU 的 21 倍,而能耗仅为主流 GPU 的 1/330。64 芯片组成的高效能计算系统较主流 GPU 的性能提升甚至可达 450 倍,但总能耗仅为 1/150。

中科寒武纪设有两大产品线:
(1)终端:世界首款商用深度学习处理器 CAMBRICON-1A 系列 IP 产品可授权集成到手机、安防、可穿戴设备、无人机、beplay下载软件 驾驶、beplay下载软件 机器人等终端芯片中,华为发布全球首款手机 AI 芯片麒麟 970,搭载的 NPU 据称正是寒武纪科技的 CAMBRICON-1A 处理器。
(2)beplay下载软件 云服务器芯片:作为 PCIE 加速卡插在云服务器上,主要面向中科曙光、浪潮信息等服务器厂商。
2016 年寒武纪科技获得数千万元 Pre-A 轮投资,元禾原点领投,科大讯飞(投资 1000 万元占股权 2.08%)、涌铧投资跟投。2017 年 8 月,寒武纪科技完成一亿美元 A 轮融资,由国投创业(A 轮领投方),阿里巴巴创投、联想创投、国科投资、中科图灵、元禾原点(天使轮领投方)、涌铧投资(天使轮投资方)联合投资。完成 A 轮融资后公司成为全球第一个 AI 芯片独角兽初创公司。
华为麒麟 970 芯片
华为发布全球首款 AI 移动芯片,抢先一步占领 AI 芯片制高点。2017 年 9 月 2 日,华为在德国 IFA 发布全球首款麒麟 970 移动计算平台,引起业界广泛关注。麒麟 970 采用了行业高标准的 TSMC 10nm 工艺,集成了 55 亿个晶体管,功耗降低了 20%,并实现了 1.2Gbps 峰值下载速率;创新性集成 NPU 专用硬件处理单元,创新设计了 HiAI 移动计算架构,其 AI 性能密度大幅优于 CPU 和 GPU。相较于四个 Cortex-A73 核心,处理相同 AI 任务,新的异构计算架构拥有约 50 倍能效和 25 倍性能优势,图像识别速度可达到约2000 张/分钟;麒麟 970 高性能 8 核 CPU,采用 4*Cortex-A73+4*Cortex-A53 的大小核设计,其中 A73 大核主频为 2.4GHz,A53 小核主频为 1.8GHz,对比上一代能效提高 20%,率先商用 Mali G72 12-Core GPU,与上一代相比,图形处理性能提升 20%,能效提升50%,可以更长时间支持 3D 大型游戏的流畅运行;另外,华为方面表示,将会把麒麟作为人工beplay下载软件 移动计算平台开放给更多的开发者和合作伙伴。



移动端 AI 运算单元 NPU 成为最大亮点,成就 AI 应用强大性能。麒麟 970 在 AI 任务上的超强表现,主要还是得益于异构架构中的 NPU。NPU 峰值性能 1.92 TFLOPs FP16(半精度),集成了 NPU 后的麒麟 970 每分钟能处理 2005 张图像(没有 NPU 每分钟 97 张图像)。凭借其在性能和能效比上的优秀表现,NPU 可谓支撑麒麟 970 beplay下载软件 计算真正意义上的“大脑”。麒麟 970 芯片中 NPU 单元成为华为云端 AI 生态的重要支撑,业界普遍猜测,NPU 正是顶尖 AI 芯片企业寒武纪科技去年发布的寒武纪 1A 处理器(Cambricon-1AProcessor)。根据寒武纪科技公开的宣传材料,这款处理器是国际上首个商用深度学习处理器产品,拟以 IP(知识产权)授权的方式进入下游厂商 SoC 芯片,华为和寒武纪团队共同面向终端,在 AI 方面进行了联合开发与优化。

参考中国报告网发布《2018-2023年中国人工beplay下载软件 行业市场供需现状调研与投资前景趋势研究报告》
华为的人工beplay下载软件 发展战略:Mobile AI=On Device AI + Cloud AI,即人工beplay下载软件 在未来终端上的实现必须通过端、云协同。
云侧beplay下载软件 :提供大数据、云端的海量信息、服务和超强计算力。华为云侧beplay下载软件 经过多年发展,已经得到了广泛应用,影音娱乐、新闻资讯、运动健康以及餐饮出行等服务,可以结合用户需求,通过华为beplay下载软件 助手的手机负一屏界面实现beplay下载软件 推荐、服务直达,简化了用户逐一寻找并点击进入相关应用的繁琐流程。
端侧beplay下载软件 :通过强大的感知能力,积累大量实时、场景化、个性化的数据,在强劲持久的芯片处理能力支持,配合云端大数据的支持,实现云端beplay下载软件 的优势互补。麒麟 970 打破了端侧硬件能力的瓶颈。基于云计算的大数据,可训练形成通用知识模型并传递到手机上运行,这意味着手机将具有通用知识能力。

与中科创达合作,共建 AI 操作系统生态。人工beplay下载软件 是一种基础能力,未来将由应用场景驱动发展。一个单纯的平台技术创新并不能真正实现用户体验的革命性提升,华为期望携手更多的开发者、内容、服务等应用提供商携手合作,真正为用户创造价值。
NPU 硬件的使用需要专门的编程模型实现,中科创达为华为构建操作系统 AI 软件生态环境。中科创达是移动beplay下载软件 终端操作系统产品和技术提供商,主营业务为移动beplay下载软件 终端操作系统产品的研发、销售及提供相关技术服务,长期以来专注在操作系统核心技术上,并具有较高的可扩展性。
公司与华为建立了长期的合作关系,一直以来为华为终端海外市场提供技术服务和产品定制。此次华为发布麒麟 970 beplay下载软件 芯片,AI 软件系统由中科创达定制开发,软硬龙头强强联手,把芯片性能发挥至最大化。

苹果 A11 处理器
2017 年 9 月 12 日,苹果在秋季发布会上正式推出全新一代beplay下载软件 手机:Iphone8/8plus/X,这三款新手机搭载了苹果最新移动芯片 A11 Bionic。A11 芯片拥有六个核心和 43 亿个晶体管,与 A10 Fusion 芯片相比,两个性能核心的速度提升最高可达 25%,四个能效核心的速度提升最高可达 70%。当需要提升处理速度时,第二代性能控制器能同时发挥全部六个核心的性能最高提升 70%。A11 内置了苹果自研的最新 GPU,图形处理速度较 A10 提升了 30%,功耗降低了一半。


除了强大的 CPU 和 GPU,A11 另一大亮点是其搭载的 “A11 生物神经网络引擎”(A11 bionic neural engine)芯片,该芯片采用双核设计,每秒运算次数最高可达 6000 亿次。该芯片主要用于机器学习任务,赋能的最重要工作是 Face ID 身份认证功能,可以快速识别人脸从而解锁 iPhone X 或进行购物。早在今年 5 月,彭博就曾经报道,苹果公司正在为 iPhone 开发 AI 芯片,而 A11 beplay下载软件 芯片的推出无疑印证了这一报道。
百度 DuerOS 智慧芯片
2017 年 3 月 30 日,百度发布 DuerOS 智慧芯片,这款芯片搭载了 DuerOS 对话式人工beplay下载软件 操作系统,可以赋予轻量级设备可对话的能力, 能广泛用于beplay下载软件 玩具、蓝牙音箱、beplay下载软件 家居等多种设备。
在发布会上,百度宣布与紫光展锐、ARM、上海汉枫达成战略合作。此次合作将构建包括度秘大脑、语音解决方案、芯片/模组在内的三层结构,其中,前两层由百度度秘提供,赋予芯片 DuerOS“可对话”的核心功能,包括 7 大系统 70 多项功能,有日程管理、天气查询、答疑解惑、查找音乐等人工beplay下载软件 传统应用和像查找餐厅,订餐、买电影票等直接提供生活服务的独特功能。芯片模组板块分别由紫光展锐、ARM、汉枫共同支持。
百度智慧芯片已将 DuerOS 与紫光展锐 RDA5981 进行了集成,使其具有低功耗、低成本的特点,并提供丰富的 IO 接口,支持 Wi-Fi/蓝牙多种连接模式;同时,采用了 ARM 公司 mbed 内核及安全网络协议栈,实现了与云端的安全连接,降低了设备商应用开发门槛;在此基础上,知名的模组厂商汉枫也率先基于该芯片推出 WiFi 模组 HF-LPB200U。

中星微 NPU
中星微的“星光beplay下载软件 一号”嵌入式 NPU 是中国首款实现量产,并投入实际应用的 NPU 芯片。根据中星微 CTO 张韵东博士介绍,“星光beplay下载软件 一号”VC0758 可以支持 Caffe、 TensorFlow 等多种神经网络框架,支持 AlexNet、GoogleNet 等各类神经网络。每个 NPU
具有 4 个内核,每个内核有两个数据流处理器(Dataflow Processor),每个流处理器具有 8 个长位宽或 16 个长位宽的 SIMD 运算单元。每个 NPU 核具有 38G Ops 的长位宽处理能力或 76G Ops 短位宽处理能力。NPU 也可以组成多核阵列或多芯片级联的方式进一步扩展性能。除了处理器内核,VC0758 还集成了国家标准的音视频编码器,是全球首颗具备深度学习和视频采集压缩编码系统级芯片。


【版权提示】观研报告网倡导尊重与保护知识产权。未经许可,任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至kf@chinabaogao.com,我们将及时沟通与处理。