视频生成比较

比较适用于在 Clore.ai GPU 服务器上部署的领先开源视频生成模型。

circle-info

AI 视频生成 在 2024–2025 年爆发。本指南比较了顶级开源模型 — 昊元视频、Wan2.1、CogVideoX、Mochi 1 和 LTX-Video — 涵盖质量、速度、显存要求和使用场景。


快速决策矩阵

昊元视频
Wan2.1
CogVideoX
Mochi 1
LTX-Video

开发者

腾讯

阿里巴巴

智谱AI

Genmo

LightRicks

速度

⭐⭐⭐⭐⭐

⭐⭐⭐⭐⭐

⭐⭐⭐⭐

⭐⭐⭐⭐

⭐⭐⭐

适用场景

较慢

高细节

高细节

高细节

通用使用

最低显存

24GB

16GB

16GB

24GB

8GB

最大分辨率

1280×720

1280×720

1440×960

848×480

1216×704

最大时长

5秒

5秒

6秒

5.4秒

2 分钟

许可

CLA

Apache 2.0

Apache 2.0

Apache 2.0

Apache 2.0

GitHub 星标

1万+

7千+

6千+

4千+

5千+


概览

昊元视频

腾讯的昊元视频被广泛认为是截至 2025 年初最佳的开源视频生成模型。它使用基于 Transformer 的架构,运动质量出色。

关键规格:13B 参数,720p 下 5 秒,要求 24GB+ 显存

Wan2.1

阿里巴巴的 Wan(文影)2.1 是昊元的有力竞争者,提供类似质量且最低显存要求更低。提供 1.3B 和 14B 参数变体。

关键规格:1.3B(精简)或 14B,720p 下 5 秒,1.3B 需 16GB+ 显存

CogVideoX

智谱 AI 的 CogVideoX 注重精确的文本遵从和连贯的长视频生成。它在电影化内容和叙事驱动生成方面尤其强势。

关键规格:5B/10B 参数,1440×960 下 6 秒,16GB+ 显存

Mochi 1

Genmo 的 Mochi 1 以平滑流畅的运动和逼真的物理效果著称。它使用新颖的 AsymmDiT 架构。完全开源(权重 + 训练代码)。

关键规格:10B 参数,848×480 下 5.4 秒,24GB 显存

LTX-Video

LightRicks 的 LTX-Video 将推理速度置于首位。它可以在现代 GPU 上实时或近实时生成视频——非常适合交互式应用。

关键规格:2B 参数,最长可达 2 分钟视频,8GB 显存


质量比较

EvalCrafter 基准(2025)

circle-info

质量是主观的。这些评分反映了来自 VBench 和 EvalCrafter 基准的社区共识。

模型
VBench 得分
运动质量
文本对齐
美学

昊元视频

83.2

适合照片级写实

适合照片级写实

适合照片级写实

Wan2.1(14B)

82.8

适合照片级写实

适合照片级写实

适合照片级写实

CogVideoX-5B

79.6

快速

非常好

快速

Mochi 1

77.4

非常好

快速

快速

LTX-Video

71.2

快速

快速

可接受

定性优势

模型
最擅长
弱点

昊元视频

整体质量、电影感

非常慢,显存需求高

Wan2.1

质量/效率平衡,图像到视频(I2V)

偶尔过饱和

CogVideoX

长篇叙事,文本准确性

运动较不动态

Mochi 1

流畅运动,物理逼真

分辨率下限较低

LTX-Video

速度、长视频

与其他模型的质量差距


速度基准

生成时间(A100 80GB,单 GPU)

模型
480p 5秒
720p 5秒
1080p 5秒

昊元视频

45 分钟

约 3 小时

❌ 内存溢出

Wan2.1(14B)

15 分钟

45 分钟

❌ 内存溢出

Wan2.1(1.3B)

3 分钟

8 分钟

❌ 内存溢出

CogVideoX-5B

10 分钟

25 分钟

❌ 内存溢出

Mochi 1

8 分钟

❌ 内存溢出

❌ 内存溢出

LTX-Video

45 秒

3 分钟

8 分钟

circle-exclamation

经过优化(TeaCache / FORA / 步骤蒸馏)

优化后的推理可以显著减少生成时间:

模型
启用缓存时
加速比

昊元视频

〜15 分钟(720p)

Wan2.1

〜12 分钟(720p)

〜4×

CogVideoX

〜8 分钟(720p)

〜3×

LTX-Video

〜45 秒(720p)


显存需求

按模型和分辨率的最小显存

模型
480p
720p
1080p

昊元视频

24GB

40GB+

Wan2.1(14B)

24GB

40GB+

Wan2.1(1.3B)

8GB

16GB

24GB

CogVideoX-5B

16GB

24GB

CogVideoX-2B

8GB

16GB

Mochi 1

24GB

LTX-Video

8GB

12GB

24GB

内存优化技术

量化

CPU 卸载


昊元视频:深入解析

架构

  • 13B DiT (扩散 Transformer)参数

  • 对所有空间和时间 token 采用全注意力

  • 在 10 亿+ 视频片段上训练

在 Clore.ai 上部署

通过 ComfyUI

适用场景:最高质量的电影级视频生成,无显存限制时首选


Wan2.1:深入解析

架构

  • 两种变体:Wan2.1-T2V-1.3B 和 Wan2.1-T2V-14B

  • 图像到视频 (I2V)模型也可用

  • 强大的多语种(中文 + 英文)提示支持

在 Clore.ai 上部署

使用 Wan2.1 的图像到视频

适用场景:质量与效率平衡,I2V,多语种


CogVideoX:深入解析

架构

  • 专家级 Transformer 配备 3D 全注意力

  • 5B 和 10B 参数变体

  • 采用 CogView3 图像编码器以提升视觉质量

在 Clore.ai 上部署

适用场景:精确的文本到视频、叙事内容、长篇生成


Mochi 1:深入解析

架构

  • AsymmDiT — 非对称扩散 Transformer

  • 注重时间一致性和流畅运动

  • 完全开源,包括训练代码

在 Clore.ai 上部署

适用场景:流畅运动、逼真物理、研究用途


LTX-Video:深入解析

架构

  • 2B 参数 DiT — 更小、更快

  • 原生 长视频 支持(最长可达 2 分钟)

  • 为实时或近实时生成设计

在 Clore.ai 上部署

适用场景:快速生成、交互式应用、长视频、显存受限(8GB)


功能比较

能力概览

功能
昊元
Wan2.1
CogVideoX
Mochi
LTX

文本到视频

图像到视频

视频到视频

ControlNet

部分支持

LoRA 支持

ComfyUI 节点

长视频(>10 秒)

部分支持

中文提示


Clore.ai 的 GPU 建议

针对每个模型

模型
最低 GPU
推荐配置
理想

昊元视频

生产

A6000(48GB)

A100(80GB)

Wan2.1 14B

生产

A6000(48GB)

A100(80GB)

Wan2.1 1.3B

RTX 3080(10GB)

RTX 3090

RTX 4090

CogVideoX-5B

生产

A6000(48GB)

A100

CogVideoX-2B

RTX 3080(10GB)

RTX 3090

RTX 4090

Mochi 1

生产

A6000(48GB)

A100

LTX-Video

RTX 3080(10GB)

RTX 4080

RTX 4090

每个视频的成本估算


何时使用哪个

决策指南


有用的链接


总结

模型
使用场景

昊元视频

当最优质量最重要且有 A100+ 可用时

Wan2.1

质量与效率平衡最佳

CogVideoX

精确的文本到视频、长篇叙事

Mochi 1

流畅运动、物理逼真、开放研究

LTX-Video

速度、低显存、长视频

开源视频生成生态发展迅速。对于大多数 Clore.ai 部署, Wan2.1 (1.3B 适合预算,14B 适合质量)在质量、速度和资源效率方面提供了最佳组合。

最后更新于

这有帮助吗?