一、GPU是AI计算加速芯片市场最主流产品,占比近7成
根据观研报告网发布的《中国GPU行业发展深度研究与投资趋势预测报告(2025-2032年)》显示,AI加速计算芯片是一种专门为高效执行人工beplay下载软件 计算任务而设计的处理器,广泛应用于数据中心、边缘设备、自动驾驶等领域,是支撑现代AI应用发展的核心硬件基础。目前AI加速计算芯片主要包括GPU、FPGA和ASIC三种类型,它们在功能性能、开发者友好性和使用成本等方面各有特点。其中GPU因其通用性和成熟的开发环境,在人工beplay下载软件 训练和推理方面表现出色,且在相同用途中最具成本效益,成为了AI计算加速芯片市场最主流产品,占比近7成。根据弗若斯特沙利文数据显示,在2024年我国AI计算加速芯片市场规模中,GPU占比达到了69.9%。
GPU、FPGA和ASIC三种类型的AI加速计算芯片对比
指标 |
GPU |
FPGA |
ASIC |
|
功能和性能 |
灵活性 |
通用性。可通过编程定义功能,无需永久性物理更改。 |
半定制。可通过编程定义功能,无需永久性的物理更改,但也有局限性。 |
完全定制。硬件设计决定了其功能,不可更改。 |
计算能力 |
高于FPGA和ASIC |
落后于GPU和ASIC |
高于FPGA,但低于GPU;但上限最高 |
|
开发者友好性 |
GPU拥有极其成熟的开发环境和庞大而成熟的开发人员生态系统 |
开发工作具有挑战性,与主流和成熟的GPU开发环境不兼容 |
开发工作具有挑战性,与主流和成熟的GPU开发环境不兼容 |
|
使用成本 |
能粍 |
能耗最高 |
能耗介于GPU和ASIC之间 |
能耗表现优势明显 |
价格 |
相同用途中最具成本效益 |
成本相对较高 |
初始开发成本高;规模化和商业化后,成本将低于FPGA |
资料来源:公开资料,观研天下整理
数据来源:弗若斯特沙利文,观研天下整理
二、AI算力爆发下全球GPU迎来爆炸式增长,预计2029年市场规模将超3.66万亿元
GPU(图形处理芯片)又称显示核心、视觉处理器、显示芯片,是一种主要用于计算加速领域的微处理器。GPU的关键组件包括决定其处理能力和运算效率的微架构,以及由开发工具、程序库和应用程序接口(API)组成的强大软件生态系统,这一生态系统确保了开发者能够在各类应用场景中高效调用GPU的计算能力。目前根据功能定位,GPU主要分为全功能GPU、图形GPU和GPGPU几类。其中,由于与其他类型的GPU相比,全功能GPU可满足更广泛的应用需求,因此在元宇宙、世界模型、具身beplay下载软件 、物理AI等未来AI的发展趋势下,将拥有显著的竞争优势。
资料来源:公开资料,观研天下整理
近年来,随着AI应用(如ChatGPT大模型技术)的突破,全球市场对AI算力的需求显著增加。以中国市场为例:根据弗若斯特沙利文数据显示,近年随着AI和大数据技术的广泛应用,我国算力规模呈现快速增长态势,整体规模从2020年的136.20EFLOPs增长至2024年的617EFLOPs,期间年均复合增长率为45.9%;预计到2029年中国算力总规模将达到3442.89EFLOPs,2025-2029年期间年均复合增长率达40%。
数据来源:弗若斯特沙利文,观研天下整理
随着支持深度学习和数据分析等AI应用的高性能计算需求不断增长,对GPU的需求也随之激增。而以英伟达为代表的GPU产品,因其成熟的开发者生态以及优秀的算力性能迎来了爆发式增长。根据弗若斯特沙利文数据显示,2020-2024年全球GPU市场规模从1509.98亿元增长到了10515.37亿元,年均复合增长率为62.4%。预计到2029年全球GPU市场规模将达到36119.74亿元,2025-2029年期间年均复合增长率达到24.5%。
数据来源:弗若斯特沙利文,观研天下整理
三、我国GPU起步晚但发展快,预计在全球市场比重将不断提升
虽然与全球相比,我国GPU起步晚,仍处于起步阶段。但随着国内企业在技术上的不断突破,市场正在快速增长,同时在全球市场比重也将得到不断提升。根据弗若斯特沙利文数据显示,2020-2024年我国GPU市场规模从384.77亿元快速增长到1638.17亿元。预计到2029年我国GPU市场规模将增长到13635.78亿元,在全球市场中的市场占比将从2024年的15.6%提升至37.8%。
数据来源:弗若斯特沙利文,观研天下整理
数据来源:弗若斯特沙利文,观研天下整理
四、AI智算产品已成为我国GPU最大细分市场,占比超6成
GPU产业下游应用领域可细分为AI智算产品和桌面级产品。其中AI智算产品已成为我国GPU最大细分市场,2024年占比超6成。近年随着AI不断发展,对算力的需求快速增长,AI智算GPU的市场规模也从2020年的142.86亿元迅速增至2024年的996.72亿元,期间年均复合增长率高达62.5%。预计到2029年,我国AI智算GPU市场规模将达到10333.40亿元,2025-2029年期间年均复合增长率为56.7%。
数据来源:弗若斯特沙利文,观研天下整理
注:AI智算产品口径包括数据中心端(应用于智算中心中AI训练和推理等场景的GPU及相关产品)、边缘计算端(应用于数字孪生、汽车、机器人等边缘计算场景的GPU、SoC芯片及相关产品)、其他云计算端等
数据来源:弗若斯特沙利文,观研天下整理
其中在我国AI智算GPU市场中,数据中心GPU产品是过去增速最快的细分市场,其市场规模从2020年的8亿元快速增长至2024年的687.22亿元,年均复合增长率达到70.1%。预计未来还将以年均复合增长率55.7%的高增速增至2029年的6639.16亿元。
数据来源:弗若斯特沙利文,观研天下整理
五、需求政策双驱动下国产化进程加速,当前国产GPU企业正逐步打破海外垄断
当前全球数字经济竞争中,GPU作为人工beplay下载软件 计算的“心脏”,直接决定算力基础设施的自主可控程度。但长期以来,国内GPU市场长期被英伟达(占比超80%)、AMD等国际巨头垄断,尤其在高端AI训练芯片领域,海外企业几乎形成技术壁垒。国产产品大多集中在中低端领域,与国际巨头的差距依然明显。以英伟达H100为例,其单卡算力超1000Tflops,而国产代表性产品如景嘉微JM9系列,性能仅对标GTX1050,能效比更是落后近一倍。
与此同时,AI算力爆发催生“国产替代”刚需。截至2025年6月底,我国在用算力中心标准机架达1085万架,存力总规模超1680EB,beplay下载软件 算力需求以每年超50%的速度增长。AI大模型训练、自动驾驶、工业互联网等场景对高性能GPU的需求呈爆发式增长。
数据来源:公开数据,观研天下整理
更严峻的是,美国《人工beplay下载软件 扩散暂行最终规则》持续加码,不仅限制先进计算芯片出口,还对闭源AI模型权重实施严格监管,2025年4月更是要求H20芯片对华出口需许可证且无限期生效。在此背景下,我国GPU亟需加快国产替代。
对此,2025年8月23日,在2025中国算力大会上,工信部副部长熊继军宣布我国beplay下载软件 算力规模已达788EFLOPS,并明确提出“加快突破GPU芯片等关键核心技术”。这一政策指引不仅为长期受制于国际巨头的国产GPU产业注入强心剂,更标志着我国在AI算力自主可控的赛道上按下“加速键”。随后8月26日,国务院发布的《关于深入实施“人工beplay下载软件 +”行动的意见》进一步为国产GPU提供了政策利好。政策明确提出“加速人工beplay下载软件 与6大重点领域融合”,包括beplay下载软件 终端、beplay下载软件 体等应用普及率超70%,这为国产GPU产品提供了更广阔的应用场景。
目前我国政策层面已构建起“国家引导+地方协同”的支持体系。国家级规划:工信部推动算力网络“点、链、网、面”体系化发展,开展算力强基“揭榜”行动,聚焦GPU等核心技术,同时引导beplay下载软件 算力设施合理布局,通过绿色数据中心建设降低PUE(当前全国算力中心平均PUE已降至1.42);地方实践:山西大同打造环首都算力集群,在用机架达51.4万标准机架,beplay下载软件 算力规模32EFLOPS,形成“设备制造—基础设施—算力服务”完整生态;重庆两江新区通过国资投资(如重庆两江产业发展集团)扶持象帝先等GPU企业,加速技术落地。
在国家数据安全保护需求与国家政策利好的驱动下,本土GPU企业不断突破知识产权技术壁垒,推动国产GPU生态系统的技术验证和快速发展。从砺算科技实现国产GPU的破局,到龙芯中科实现通用计算GPU“从0到1”的突破,再到沐曦半导体推出对标英伟达的高性能芯片可看出,当前国产GPU企业正以架构创新、性能跃升和生态完善为抓手,逐步打破海外垄断,重塑全球算力竞争格局。
如国产GPU的“破局者”——砺算科技的7G100系列,它是国内首款从指令集到计算核心完全自主设计的产品,基于自研的TrueGPU天图架构,采用6nm先进工艺,在架构设计上藏着不少“巧思”:beplay下载软件 多任务处理能同时运行48个无依赖任务,彻底告别等待耗时;beplay下载软件 乱序渲染打破三角形渲染的顺序限制,在非依赖场景下效率直接提升50%;硬件级指令双发射技术让FP32与INT32运算并行,资源利用率最大化;就连显存存储都做了优化,矩阵数据以方块形式存储,显存使用效率提升40%。
龙芯中科历时五年研发的首款通用计算GPU(GPGPU)——龙芯9A1000,于2024年Q3完成流片,2025年正式发布,标志着国产GPU从“图形渲染”向“通用计算”的关键跨越。并计划于2025年推出下一代产品9A2000,性能预计提升8-10倍,对标NVIDIARTX2080,进一步填补中端通用计算市场空白。
沐曦半导体曦云C500采用7nm工艺,FP32算力达15TFLOPS,相当于英伟达A100的75%,搭配HBM2显存(带宽900GB/s),支持千卡集群部署与RDMA技术——这意味着它能与英伟达A100混合训练同一模型,且不会拉低训练效果,彻底打破了“国产GPU无法融入国际算力集群”的偏见。2025年7月发布的曦云C600更实现了从芯片设计到封装测试的100%国产供应链闭环,摆脱了对国外技术的依赖。曦云C600是目前国产GPU中唯一公开完整FP8规格的训推一体芯片,直接对标英伟达Hopper系列,堪称“国产GPU性能天花板”。
象帝先凭借国资背景(重庆两江产业发展集团投资)与顶尖团队(核心成员来自英伟达、AMD,平均从业超10年),在图形渲染领域实现突破。如新一代伏羲架构GPU采用5nm工艺,FP32算力160TFLOPS,集成12GBHBM2显存,图形渲染能力已适配《黑神话悟空》等3A游戏,填补国产高端渲染芯片空白。
摩尔线程的MTT系列瞄准“全功能GPU”的空白。其代表作MTTS80是国内唯一支持DirectX12的消费级显卡,基于自研的MUSA架构——这是国内首个能在单芯片上同时支持AI计算加速、图形渲染、物理仿真和超高清视频编解码的架构,4096个MUSA核心在1.8GHz频率下能实现14.4TFLOPS的单精度浮点算力,搭配16GBGDDR6显存(带宽448GB/s),性能直逼国际中端产品。
部分GPU企业相关产品情况
企业名称 |
产品 |
相关情况 |
砺算科技 |
7G100系列(国内首款从指令集到计算核心完全自主设计的产品) |
从性能参数看,7G100系列的单精度浮点算力1.3TFLOPS,GPU频率1100MHz,搭配12GBGDDR6显存(带宽128GB/s),功耗却仅10W,能效比远超同级别国际产品。 |
在实际测试中,1080P高画质下《黑神话:悟空》平均帧率超70帧,与英伟达RTX4060持平;本地化部署DeepSeek-R18B大模型时,推理延迟控制在200ms内,完全满足日常AI应用需求。 |
||
龙芯中科 |
龙芯9A1000(首款通用计算GPU(GPGPU)) |
采用统一渲染架构,集成八大计算阵列与片上互联网络,流处理器面积减小20%,轻负载功耗降低70%,主频提升25%,兼顾性能与能效; |
FP32精度达1TFLOPS,INT8整数运算32TFLOPS,AI算力40TOPS,虽对标2017年AMDRX550(性能略低17%),但已能满足边缘计算、轻量级AI任务(如视觉识别、实时语音翻译)需求; |
||
全面支持OpenGL4.0、OpenCL3.0接口,内置H.264/H.265编解码组件,提供CUDA兼容接口,降低开发者迁移成本。 |
||
沐曦半导体 |
曦云C600(国产GPU中唯一公开完整FP8规格的训推一体芯片) |
FP8峰值算力1000TFLOPS,配备144GBHBM3e显存(带宽3.6TB/s),支持ECC/RAS企业级容错,单节点可8卡并联,多节点支持超节点拓扑,满足百亿到千亿参数大模型单卡训练/推理需求; |
采用第二代自研XCORE1.5架构,新增FP8TensorCore+TensorTranspose专用指令,硬件原生支持E5M2/E4M3两种FP8格式,能效比达2.5TFLOPS/W(400WTDP下),与英伟达H100(2.6TFLOPS/W)基本持平; |
||
MetaXMACASDK3.0与CUDA语义基本一致,支持PyTorch、DeepSpeed直接调用,DeepSeek已基于曦云C600完成FP8训练验证,端到端性能较FP16提升1.3-1.6倍,预计2025年Q4小批量量产。 |
||
曦云C500 |
曦云C500采用7nm工艺,FP32算力达15TFLOPS,相当于英伟达A100的75%,搭配HBM2显存(带宽900GB/s),支持千卡集群部署与RDMA技术——这意味着它能与英伟达A100混合训练同一模型,且不会拉低训练效果,彻底打破了“国产GPU无法融入国际算力集群”的偏见。 |
|
象帝先计算 |
伏羲A0 |
新一代GPU——伏羲A0采用5nm工艺,FP32算力160TFLOPS,集成12GBHBM2显存,图形渲染能力已适配《黑神话悟空》等3A游戏,填补国产高端渲染芯片空白。 |
GPU与NPU融合的伏羲B0芯片 |
伏羲B0是GPU与NPU融合的芯片,主打端侧模型部署和快速兴起的AIPC市场,将全面支持LLAMA 、ChatGLM-6B 、Stable-Diffusion 、Sora、DeepSeek R1 1.5B/7B等主流模型的端侧部署需求。 |
|
12nm天钧系列GPU |
12nm天钧系列GPU已在信创市场批量出货,通过国产CPU与操作系统兼容性认证,2025年上半年政务领域订单同比增长210%。 |
|
景嘉微 |
JM9系列 |
该系列的浮点性能已从2022年的1.5TFLOPS提升至15TFLOPS,7nm工艺良率突破85%,显存带宽达128GB/s,还支持4路独立图形控制器,能同时输出4路HDMI2.0、2路eDP和1路VGA信号,完美适配航空航天、航海等对可靠性要求极高的场景。 |
摩尔线程 |
MTTS80 |
MTTS80是国内唯一支持DirectX12的消费级显卡,基于自研的MUSA架构——这是国内首个能在单芯片上同时支持AI计算加速、图形渲染、物理仿真和超高清视频编解码的架构,4096个MUSA核心在1.8GHz频率下能实现14.4TFLOPS的单精度浮点算力,搭配16GBGDDR6显存(带宽448GB/s),性能直逼国际中端产品。 |
MTvGPU2.7.0驱动 |
MTvGPU2.7.0驱动是国内首次实现国产GPU云电脑对DirectX12的支持,目前已适配200+国产软件,从WPS到中望CAD,逐步覆盖日常办公与专业设计场景。 |
资料来源:公开资料,观研天下整理
随着国产相关企业技术的不断突破,我国国产GPU的市场渗透率正在稳步提升。有数据显示,2024年国产GPU在国内市场的占有率已从几年前的微不足道提升至约30%,预计到2025年将突破35%,到2030年,突破 50%,其中AI训练芯片的国产化率超 40%。这个增长轨迹表明国产GPU正在获得市场认可。
数据来源:公开数据,观研天下整理
应用场景也在不断拓宽。国产GPU已从最初的政府单位和事业单位,逐渐扩展到互联网企业、运营商智算平台、商业化智算中心以及教科研、金融等行业。
此外,互联网巨头也开始逐步接纳国产GPU。字节跳动、腾讯等企业在其人工beplay下载软件 研发、内容推荐系统、短视频处理等业务中开始使用国产GPU算力。虽然采购仍以国际产品为主,但国产GPU凭借性价比优势和本地化服务能力,已经逐渐进入这些企业的供应链体系。
而尽管近年相关产品层面已实现诸多突破,但国产GPU要真正打破垄断,还需跨越生态建设的“最后一公里”。其中最核心的短板,莫过于软件生态与英伟达CUDA的差距——英伟达拥有400万开发者、3000+专业软件适配,新游戏发布当日就能提供优化驱动,而国产GPU不仅驱动稳定性有待提升(比如摩尔线程MTTS80运行《原神》需特殊优化,帧率波动明显,而同价位RTX3060可即插即玩且支持DLSS超分辨率技术),API接口覆盖也不够全面,专业软件适配更是滞后。
不过,近几年国产企业已展开针对性追赶:摩尔线程明确提出“构建中国版CUDA”的目标,通过兼容CUDA生态降低开发者迁移成本;沐曦发布完整的MACA驱动及SDK,还推出《曦云系列快速上手指南》帮助开发者快速上手;景嘉微则通过OpenGL/Vulkan兼容层,让CAD、GIS等专业软件能在国产GPU上流畅运行。截至2025年,国产GPU适配的软件已超500款,较2023年增长200%,生态建设正加速推进。
除了生态建设,供应链安全是另一大挑战。目前国产高端GPU如象帝先伏羲系列(5nm)、沐曦曦云C600(7nm)仍依赖台积电代工,国内晶圆代工厂中芯国际仅能量产14nm,先进制程的“卡脖子”问题尚未解决;高端显存(如HBM3)、光刻胶等关键材料的进口占比也超80%,产业链自主可控程度有待提升。
为应对这一问题,企业与国家层面也在双管齐下:
企业方面:沐曦C600已实现封装测试的100%国产化,中芯国际启动7nm工艺研发并计划2026年量产。
国家层面:国家设立的“半导体材料专项基金”2025年规模超200亿元,上海、合肥等地还在建设GPU产业链集群,从设计、制造到封装测试,逐步完善自主供应链。
预计未来,随着技术持续迭代与生态不断完善,国产GPU有望在AI训练、图形渲染、边缘计算等领域实现“从跟跑到并跑,再到领跑”的跨越,为中国数字经济高质量发展筑牢算力底座。(WW)

【版权提示】观研报告网倡导尊重与保护知识产权。未经许可,任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至kf@chinabaogao.com,我们将及时沟通与处理。