LTX-2(音频 + 视频)
在 Clore.ai GPU 上使用 LTX-2 生成带原生音频的影片——包含拟音、环境声与口型同步。
LTX-2(2026年1月)是Lightricks的第二代视频基础模型,也是首个能在一次前向传递中生成 与视频同步的音频 的开权重模型。该模型有190亿参数,能够生成带有拟音效果、环境音和对嘴同步语音的片段,而无需单独的音频模型。其架构建立在原始LTX-Video速度优势之上,同时大幅扩展了功能。
在 Clore.ai 租用GPU是运行190亿参数模型的最实用方式——无需购买2000美元的GPU,只需启动一台机器并开始生成。
主要特性
原生音频生成 ——拟音效果、环境氛围和与视频帧联合生成的对嘴对白。
190亿参数 ——相比LTX-Video v1显著更大的Transformer骨干,提供更清晰的细节和更连贯的运动表现。
文本到视频 + 图像到视频 ——两种模态均支持并输出音频。
最高至720p分辨率 ——比v1模型具有更高的保真度输出。
联合视听潜在空间 ——统一的VAE同时对视频和音频进行编码,保持它们的时间对齐。
开放权重 ——以宽松许可证发布,可用于商业用途。
与Diffusers集成 ——兼容Hugging Face
diffusers生态系统。
要求
GPU 显存
16 GB(可启用卸载)
24+ GB
系统内存
32 GB
64 GB
磁盘
50 GB
80 GB
Python
3.10+
3.11
CUDA
12.1+
12.4
diffusers
0.33+
最新
Clore.ai 的 GPU 推荐: 一台 512x512 (24 GB,约$0.5–2/天)是舒适生成带音频的720p的最低配置。对于批量工作负载或更快的迭代,请筛选 双4090 或 A6000 (48 GB)在Clore.ai市场上的挂牌信息。
快速开始
使用示例
带音频的文本到视频
带对嘴音频的图像到视频
带拟音的环境场景
给 Clore.ai 用户的提示
明确描述声音 ——LTX-2的音频分支会对提示中的音频线索做出反应。“木柴劈啪作响”、“砾石上脚步声”、“人群低语”等比含糊的描述能带来更好的拟音效果。
CPU 卸载是必需的 ——在190亿参数规模下,模型需要
enable_model_cpu_offload()在24 GB卡上。系统内存请预算为64 GB。持久化存储 ——模型检查点约为40 GB。挂载Clore.ai持久卷并设置
HF_HOME以避免在每次容器重启时重新下载。混流音频与视频 ——如果流水线单独输出音频,请使用以下命令合并:
ffmpeg -i video.mp4 -i audio.wav -c:v copy -c:a aac final.mp4.仅bf16 ——该190亿模型以bf16训练;使用fp16会导致数值不稳定。
在 tmux 中批处理 —— 在 Clore.ai 的租用环境中始终在
tmux在Clore.ai租用时以防SSH断开连接时继续运行任务。检查模型 ID ——由于LTX-2是新发布的(2026年1月),在运行前请在 Lightricks HF 页面 上验证确切的HuggingFace模型ID。
# 使用固定种子以获得一致结果
OutOfMemoryError
启用 pipe.enable_model_cpu_offload();确保系统内存 ≥64 GB
输出中无音频
音频生成可能需要显式标志或更新的diffusers;请查看模型卡以获取最新的API信息
音视频不同步
重新用 ffmpeg 混流: ffmpeg -i video.mp4 -i audio.wav -c:v copy -c:a aac -shortest out.mp4
生成非常慢
190亿模型计算开销大;在RTX 4090上生成5秒片段预计约需2–4分钟
出现 NaN 输出
使用 torch.bfloat16 ——此模型规模不支持 fp16
磁盘空间错误
模型约为40 GB;下载前请确保有 ≥80 GB 的可用磁盘空间
ModuleNotFoundError: soundfile
pip install soundfile ——导出 WAV 音频所需
最后更新于
这有帮助吗?