SkyReels-V3
在 Clore.ai GPU 上使用 SkyReels-V3(基于昆仑 Wan2.1 的开源视频模型)生成 24fps 视频。
SkyReels-V3 是昆仑(SkyWork AI)基于 Wan2.1 视频架构构建的开源视频生成模型。它可以以 24 帧/秒生成平滑的剪辑,支持文本到视频(T2V)和图像到视频(I2V)。该模型继承了 Wan2.1 在运动一致性和时间一致性方面的强大能力,同时加入了 SkyWork 的训练改进以提升视觉质量和对提示词的遵从度。
在 以下 环境 上 运行 SkyReels-V3 Clore.ai 让您无需购买硬件即可使用其所需的 24 GB 显存 — 以几美元租用 RTX 4090 即可开始生成。
主要特性
24 帧/秒 输出 — 开箱即用的平滑、广播级帧率。
文本到视频 — 从自然语言描述生成剪辑,具有很强的提示遵循性。
图像到视频 — 使用可控的相机运动和主体动作对参考图像进行动画化。
基于 Wan2.1 构建 — 继承了 Wan 架构经过验证的时间注意力和运动建模能力。
多分辨率 — 根据显存预算支持 480p 和 720p 的生成。
开放权重 — 在开放许可下提供,可用于研究和商业用途。
中文 + 英文 — 来自 Wan2.1 文本编码器的双语提示支持。
要求
GPU 显存
16 GB(480p 并启用卸载)
24 GB
系统内存
32 GB
64 GB
磁盘
25 GB
50 GB
Python
3.10+
3.11
CUDA
12.1+
12.4
Clore.ai 的 GPU 推荐: 一台 512x512 (24 GB,约 $0.5–2/天)是最佳选择 — 足够的显存用于以全精度生成 720p。 速度 (24 GB,约 $0.3–1/天)适用于 480p,并在市场上提供最佳的每剪辑价格比。
快速开始
使用示例
文本到视频
图像到视频
低分辨率快速预览
给 Clore.ai 用户的提示
使用 Wan 管道类 — SkyReels-V3 在架构上基于 Wan2.1,因此它使用
WanPipeline/WanImageToVideoPipeline来自 diffusers。从 480p 开始 — 先在较低分辨率上迭代提示词,一旦对构图满意再生成最终的 720p 剪辑。
CPU 卸载 —
enable_model_cpu_offload()建议在 24 GB 显卡上用于 720p 生成以避免 OOM(显存不足)。持久化存储 —— 设置
HF_HOME=/workspace/hf_cache在 Clore.ai 的持久卷上;模型大约占用 ~15–20 GB。原生 24 fps — 不要更改导出帧率;模型的时间注意力是针对 24 fps 输出训练的。
双语提示 — Wan2.1 文本编码器同时支持英文和中文;如有需要可以混合使用两种语言。
引导强度(Guidance scale) — 4.0–6.0 效果最佳。较高的值(>8)可能导致过饱和。
tmux 是必须的 — 始终在 Clore.ai 上的一个
tmux会话中运行生成以在 SSH 断开时保持进程存活。
# 使用固定种子以获得一致结果
OutOfMemoryError 以 720p
启用 pipe.enable_model_cpu_offload();如果仍然 OOM 则降至 480p
HuggingFace 上未找到模型
检查 在 SkyworkAI 的 HF 页面 — 它可能以变体名称列出
抖动或闪烁的运动
增加 num_inference_steps 到 40;将 guidance_scale 降到 4.0
生成速度慢
在 RTX 4090 上每个 4 秒剪辑 ~1–3 分钟为正常;480p 大约快 2 倍
色偏 / 过度饱和
降低 guidance_scale 到 4.0–5.0
ImportError: imageio
pip install imageio[ffmpeg]
重启时重新下载权重
挂载持久存储并设置 HF_HOME 环境变量
最后更新于
这有帮助吗?