一、主流视频厂商模型向DiT架构收敛,全球AI视频生成行业技术能力实现关键跨越
AI视频生成,是指以生成式人工beplay下载软件 技术为核心,通过文本、图像、音频、动作序列等简易输入,借助大模型、扩散模型、神经渲染等算法,自动合成、创建全新视频内容的技术与应用形态。
AI视频生成技术自2010年代中后期逐步起步,历经多轮关键架构迭代升级。其技术雏形可追溯至20世纪90年代的图像序列拼接方法,开启了静态帧合成动态视频的早期探索,但真正意义上的AI模型化研究,始于2014年GAN模型的提出。
2017年Transformer架构的引入,显著提升了模型的时序建模与语义表达能力,不过受限于计算资源,仍存在生成质量不稳定的短板。2020年后,部分开源社区尝试采用扩散模型突破这一局限,行业技术路线一度出现分歧。
2022年,Diffusion与Transformer的融合思路逐步成型;2024年OpenAI发布Sora,进一步验证了DiT架构在视频生成中的可行性与优势,推动行业迎来关键转折点。目前,字节、Google、腾讯等主流厂商及各类开源项目均向DiT框架迁移,虽各家主干技术仍有差异,但均属DiT架构内的迭代优化,AI视频生成自此迈入高速发展阶段。
AI视频生成技术发展历程
| 发展阶段 | 时间 | 发展情况 |
| GAN–VAE阶段 | 2014-2016年 | 确立“视频可被端到端生成”的技术方向,是后续技术跃迁的理论起点。视频生成技术最早可追溯至2016年UC Berkeley提出的VGAN,该模型首次将生成式对抗网络(GAN)引入视频生成任务,并通过空间–时间卷积结构实现低分辨率短时动态序列的合成。同年,京都大学与东京大学提出的TGAN将视频生成分解为时间潜变量序列与图像生成器协同工作的方式,实现捕捉跨帧运动信息。在此基础上,2018年NVIDIA团队提出MoCoGAN,将视频内容与运动显式解耦,分别建模并通过对抗学习生成一致动作序列,从而实现了更具可控性的基础视频生成框架。但该阶段的模型多基于GAN的对抗式重建能力+VAE的连续潜空间表达,受限于模型架构限制,应用范围仅限于简单场景(如数字、基础动作),生成分辨率与时长均较低。 |
| Transformer表征阶段 | 2017–2021年 | 时空表征能力显著提升,为视频生成真正可用奠定底层基础,但生成质量、成本化能力均属过渡期。2017年Transformer论文发表后,该架构快速渗透至各类序列建模场景,并在视频生成任务中开启探索。自2021年Google推出Video Vision Transformer(ViViT)起,GODIVA、VideoGPT、Phenaki、CogVideo、NUWA 等视频模型相继出现。相较于GAN系列,Transformer具备明确的概率密度建模能力、收敛过程更稳定,并能够有效捕捉跨帧长程依赖,在生成时序一致、衔接自然的动态内容上更具优势。但由于其计算复杂度随空间与时间token数呈平方级增长,分辨率与时长提升将带来指数级的算力压力,导致该阶段模型在生成效果上仍受限制,其产业价值主要体现在从“能生成”迈向“能理解再生成”。 |
| Diffusion扩散模型阶段 | 2020–2023年 | 实现高质量短视频生成,但受限于时长与物理一致性,存在技术上限。扩散模型(Diffusion)通过“逐步加噪—逆向去噪”的显式概率建模范式,解决了GAN在训练稳定性和可控性上的核心缺陷,为高质量视觉生成奠定了基础。2022年,Meta发布Make-A-Video,其可根据自然语言生成约5秒短视频,是推动视频生成技术进入商业化探索阶段的早期代表之一。但传统扩散模型的去噪网络基于U-Net,其本质是一种以局部卷积为主的二维图像编码器,只能在空间维度内进行局部感受野建模,缺乏对时间维度的统一表征,也无法捕捉跨帧的长程依赖、物体状态延续与物理一致性。基于此结构的视频扩散模型,误差会沿时间轴不断累积,导致跨帧漂移、运动不连续,使视频生成在时长与整体一致性上存在上限。 |
| DiT扩散模型阶段 | 2024至今 | 在Sora推动下进入商业化周期,形成视频生成的主导技术路线。DiT的核心思想是以Transformer结构取代传统扩散模型中的U-Net作为去噪网络。2024年2月,OpenAI发布Sora,首次在工业级规模上验证了Diffusion+Transformer结合的有效性:在更长时长、更高分辨率、更复杂场景物理一致性以及更强的帧间连贯性上实现突破。目前业内主流视频厂商模型均已向DiT架构收敛。Sora 发布之后,字节、Google、腾讯等主流厂商以及各类开源项目亦在向DiT框架迁移。尽管各家主干架构技术仍有差异,但路线本质上均是在DiT架构内的技术演进。 |
资料来源:观研天下整理
主流视频模型技术架构概览(部分)
| 模型 | 主干架构 | 文本塔 | 视频塔 | 位置编码 | 分辨率 |
| Seedance(字节) | MM-DIT | Qwen2.5-14B | VAE | 3D RoPE + MM-RoPE | 720p,1080p |
| 混元-Avatar(腾讯) | MM-DIT | LLaVA | Two Hunyuan 3D VAE | 3D RoPE | 704p,1216p |
| MAGI-1 | DiT | T5 | Transformer-based VAE | 3D RoPE | 720p |
| 混元-Custom(腾讯) | Hunyuan-MM-DiT | LLaVA | Two Hunyuan 3D VAE | 3D RoPE | 512p,720p |
| Veo3(google) | DiT | - | - | - | 1080p |
| SkyReels-v2 | Wan-DiT | umT5 | Wan VAE | Learnable Frequency Embeddings | 256p,360p,540p,720p |
| Open-Sora 2.0 | Flux (MM-DIT) | T5-XXL,CLIP-Large | HunyuanVideo 3D VAE.Deep Compression Autoencoder | 3D RoPE | 256p,768p |
| WAN2.1 | DiT+Cross-attn | umT5,Qwen2-VL | Wan-VAE | Standard Sinusoidal Spatialpositional Encodings | 480p,720p |
| VACE | Wan-T2V-14B,LTX-Video-2B | Inherited | Inherited | Inherited | 480p,720p |
| Phantom | MMDIT | T5 Dinov2(Ref.Img) | (CLIP VAE),(Qwen2.5,3D VAE) | 3DRoPE | 480p,720p |
| StepVideo | DIT | Hunyuan-CLIP,Step-LLM | Video-VAE | 3DRoPE | 544p |
| ConceptMaster | Transformer-based latent diffusion | T5;CUP | 3D VAE | 3D Self-attention | - |
| VideoAlchemist | DIT | DiT Text Encoder,CLIP,Arcface | CogVideoX-5B VAE.DiT Tokenizer CLIP VIT-L/14、DINOv2 VIT-L/14 | RoPE | 256p |
| 混元(腾讯) | Flux (MM-DiT) | Hunyuan MLLM Decoder +CLIP | 3D VAE | 3D RoPE | 720p |
| LTX-video | DIT+Cross-attn | DiT Text Encoder | Video-VAE | RoPE | 512p |
| MovieGen (Meta) | LLaMa3 Design | U2I, ByTS, Long-prompt MetaCLIP | TAE+VAE | Factored | 256p,1080p |
| PyramidFlow | MM-DIT | - | PyramidStages Autoregressive TemporalPyramid | - | 768p |
| Sora (OpenAl) | DIT | - | - | - | 480p,1080p |
资料来源:观研天下整理
二、B端降本增效刚需与C端创作需求共振,全球AI视频生成行业进入商业化落地加速期
根据观研报告网发布的《中国AI视频生成行业发展深度研究与投资前景分析报告(2026-2033年)》显示,伴随大模型能力持续迭代与应用场景快速拓展,全球 AI 视频生成行业已进入商业化落地加速期,商业模式清晰分化为C 端订阅付费与B端 API/行业解决方案双轨路径,市场空间打开、增长确定性显著提升。
AI视频商业模式分类
| 客群方向 | 收费模式 | 计价模式 | 客户群体 |
| C端 | 订阅制 | 用户可按需选择免费版、标准版、高级版、尊享版等不同等级,月度订阅价格从几元至数百元不等 | 内容创作者、短视频用户及泛娱乐消费群体 |
| B端 | API调用与定制化解决方案 | 生成时长或项目定制程度计价,月度支出从几十元至数万元不等 | 影视制作、互联网平台、电商营销、广告代理等行业 |
资料来源:观研天下整理
当前全球AI 视频生成行业处于早期放量阶段,呈现企业服务主导、个人创作者协同增长的格局。2025 年全球 AI 视频生成市场规模预计达8 亿美元, 2030年全球 AI 视频生成市场规模预计达400亿美元,其中B端占比 90%(360 亿美元)、C端占比 10%(40 亿美元)。
数据来源:观研天下数据中心整理
从驱动逻辑看,B 端为核心增长极,依托成本替代与效率提升实现规模化渗透。2025年全球电影与视频制作市场规模达3000 亿美元,并以 3% 年复合增速稳步扩张,覆盖广告、动漫、影视、社媒商业内容等多元场景;行业普遍面临高成本约束,47% 的制作工作室预算超支、39% 受成本挤压利润,而 AI 视频生成具备显著经济性,每分钟成本约300 美元,远低于传统顶级影视制作水平。当前 AI 在素材生成环节渗透率已处于高位,随着模型向长视频、复杂内容延伸,预计 2030 年 AI 在制作环节渗透率可达10%,对应 B 端市场规模360 亿美元。
数据来源:观研天下数据中心整理
C 端依托社交生态与创作平权实现稳健扩容。2025年全球社交媒体用户数量已达达54 亿,市场渗透率达66%,为内容创作提供庞大用户底座。测算显示,全球内容创作者渗透率有望由 2025 年 1.5% 提升至 2030 年 4%,对应创作者规模从 8000 万人增长至 2.8 亿人;叠加付费率由 1% 提升至 6%、ARPPU 维持 20 美元 / 月,2030 年 C 端订阅市场规模可达40 亿美元,占比10%,成为行业稳定增长的第二曲线。
数据来源:观研天下数据中心整理
数据来源:观研天下数据中心整理
数据来源:观研天下数据中心整理
整体来看,AI视频生成正从技术试点走向产业普及,B端降本增效刚需与C端创作需求共振,推动行业由早期探索迈入高速增长通道,中长期成长空间广阔。
三、AI视频生成C端呈现头部集中、本土追赶、技术趋同特征,B端市场将迎来场景深化与格局重构
1.C端竞争
从商业模式来看,C端各平台普遍采用免费试用 + 多档订阅 + 积分的复合收费体系,定价围绕视频生成数量、分辨率、时长与生成速度设置梯度,主流价格带集中在8–30 美元 / 月,并向上延伸专业版与企业级订阅。积分 / 额度制已成为行业通用规则,用户通过消耗积分生成视频,亦可额外购买积分包提升使用额度,产品差异主要体现在并行任务数、输出分辨率及无水印商务授权等维度。行业普遍以降低创作门槛、扩大用户基数为核心目标,通过用户规模反哺模型训练与生态迭代,形成 “用户增长 — 数据优化 — 体验提升 — 商业变现” 的正向循环。
C 端以 SaaS 为主要变现模式,因此用户量、访问量与使用时长是现阶段衡量商业化能力的核心指标,市场竞争格局呈现头部集中、本土追赶、技术趋同的特征。OpenAI 旗下 Sora 在独立访客、整体访问量与总使用时长上保持断层领先,品牌与用户基数优势显著;可灵、海螺、HeyGen 等本土头部平台快速崛起,访问量已迈入千万级别,呈现强劲追赶态势。从产品维度看,Sora 与主流竞品在单次访问时长上差距不大,反映各平台在基础功能与用户体验上并未形成显著壁垒,技术趋同特征明显。中期来看,Sora 短期内仍将凭借用户与品牌优势维持领先地位,但行业格局并非固化。长期竞争胜负将取决于技术迭代速度、生成质量提升、创作链条完整性及商业化运营效率,后发产品有望通过差异化场景与精细化运营实现局部反超,市场将从流量争夺转向技术 + 产品+生态的综合竞争。
数据来源:观研天下数据中心整理
数据来源:观研天下数据中心整理
数据来源:观研天下数据中心整理
数据来源:观研天下数据中心整理
2.B端竞争
B端方面,API是主流业务模式,核心电商展示、广告等领域应用已基本成熟。如前所述,由于现阶段视频生成模型仍难以支撑长叙事、镜头连贯与角色一致性等高要求的影视级内容创作,B端应用重点聚焦于短时长、可结构化的内容场景,典型如电商商品展示、广告创意视频等。在此背景下,“生成质量、生成效率、调用成本”成为衡量API商用能力的三大核心维度,在此维度上国产模型已实现弯道超车,形成显著竞争优势。
生成质量方面,可灵2.5 Turbo表现超越Veo 3.1、Sora 2等海外标杆产品,Hailuo 2.3、PixVerse V5等国产模型亦具备较强竞争力;生成效率上,国内主流产品普遍实现分钟级输出,其中Wan 2.2单视频生成耗时仅45.2秒,大幅领先于Sora 2 Pro的7分钟以上;价格层面,海外Sora、Veo 3.1系列API单秒调用价格在0.15-0.5美元之间,而海螺、万相等国产模型已将成本压缩至美分级,显著降低下游企业的试错门槛与规模化生成成本,进一步强化了国产模型在B端市场的竞争力。
B端AI视频生成市场正处于高速增长期,API模式持续释放商业价值,头部企业凭借技术与运营优势巩固市场地位。未来,随着模型能力迭代突破长视频创作瓶颈,以及国产模型在成本、效率上的优势持续扩大,B端市场将迎来场景深化与格局重构,具备全场景适配能力与成本优势的企业将持续领跑行业增长。
数据来源:观研天下数据中心整理
数据来源:观研天下数据中心整理
数据来源:观研天下数据中心整理
四、全球AI视频生成行业将呈现“高保真、长周期、强可控”核心演进趋势
当前 AI 视频生成技术已实现从 “画面生成工具” 到 “视听内容引擎” 的关键跨越。依托大模型能力的持续迭代,AI 视频可根据文本提示直接生成包含多人物、动态动作与复杂背景的完整画面,Sora 2、Veo 3 等音画一体化模型的出现,进一步推动生成内容的质量与丰富度提升,短片段生成质量已接近专业制作水准。然而,现有架构在生成时长、物理合理性等维度仍存在结构性限制,难以支撑更复杂的长视频构建,目前主流视频模型生成时长仍普遍维持在数秒级,业界普遍认为“世界模型”是突破这一瓶颈的核心路径。
主流视频模型生成情况
| 模型名 | 模型类型 | 单次生成时长 | 清晰度 | 视频尺寸 | 支持模式 |
| 可灵 2.6 | 音画同步模型 | 5S、10S | 不可选 | 文生音画支持 16:9、1:1、9:16;图生暂不提供选择 | 文生 / 图生视频 |
| 即梦 3.5 Pro | 音画同步模型 | 5S、10S、12S | 不可选 | 21:9、16:9、4:3、1:3、1:1、9:16 | 文生 / 图生视频 |
| Hailuo 2.3 | 单视频模型 | 6s、10s | 720P、1080P | 不可选 | 文生 / 图生视频 |
| Vidu Q2 | 单视频模型 | 文生视频普通版 5s,会员可延展至 8s;图生不可选 | 1080P | 文生音画支持 16:9、1:1、9:16;图生暂不提供选择 | 文生 / 图生 / 参考视频 |
| 百度蒸汽机 2.0 (有声版) | 音画同步模型 | 5s、10s | 720P | 不可选 | 图生视频 |
| OpenAI Sora 2 | 音画同步模型 | 5s、10s、15s、20s | 480P、720P、1080P | 16:9、4:3、1:3、1:1、9:16、3:2 | 文生 / 图生(含视频)视频 |
| Runway Gen 4.5 | 音画同步模型 | 5s、8s、10s | 720P,可升级至 4K | 基础支持 16:9 | 文生 / 图生(视频)视频 |
| Google VEO 3.1 | 音画同步模型 | 4s、6s、8s | 720P、1080P | 16:9、9:16 | 文生 / 图生视频 |
资料来源:观研天下整理(zlj)
世界模型的发展历程可分为两大阶段:2025 年前,行业以 “表征派” 为主,主要聚焦环境感知与状态预测,旨在弥补语言模型在物理与因果建模方面的能力缺口;2025 年后,产业研究重心开始向 “生成派” 倾斜,Genie 3、Marble 等代表性成果的推出,标志着世界模型已具备生成持续存在物体、模拟因果逻辑与动态环境的潜力,直接对应当前视频生成的技术短板。与现有视频模型相比,世界模型不受 DiT 等架构限制,且在空间一致性与物理逻辑等关键性能上展现出更快的迭代效率。行业亦已普遍认为视频生成是世界模型的雏形,后续在能力与技术演进上可能进一步重合。目前,世界模型已被业内视为与大语言模型同级的重要人工beplay下载软件 发展路径,相关参与者数量持续增加,研发节奏预计将进一步加快,2026 年或为实现技术跃迁的关键节点。
展望未来,AI视频生成行业将呈现“高保真、长周期、强可控”的核心演进趋势。随着技术瓶颈的突破,视频生成时长和内容复杂度将不再是核心障碍,行业竞争焦点将转向生成内容的电影级画质、长程逻辑一致性,以及对镜头语言、角色动作的精细控制。用户将能够通过更自然的语言或草图,精确指导视频的生成与修改,AI 视频生成将从辅助工具升级为核心创作引擎,重塑内容产业的生产范式。
【版权提示】观研报告网倡导尊重与保护知识产权。未经许可,任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至kf@chinabaogao.com,我们将及时沟通与处理。







