SkyReels-V3

在 Clore.ai GPU 上使用 SkyReels-V3(基于昆仑 Wan2.1 的开源视频模型)生成 24fps 视频。

SkyReels-V3 是昆仑(SkyWork AI)基于 Wan2.1 视频架构构建的开源视频生成模型。它可以以 24 帧/秒生成平滑的剪辑,支持文本到视频(T2V)和图像到视频(I2V)。该模型继承了 Wan2.1 在运动一致性和时间一致性方面的强大能力,同时加入了 SkyWork 的训练改进以提升视觉质量和对提示词的遵从度。

在 以下 环境 上 运行 SkyReels-V3 Clore.aiarrow-up-right 让您无需购买硬件即可使用其所需的 24 GB 显存 — 以几美元租用 RTX 4090 即可开始生成。

主要特性

  • 24 帧/秒 输出 — 开箱即用的平滑、广播级帧率。

  • 文本到视频 — 从自然语言描述生成剪辑,具有很强的提示遵循性。

  • 图像到视频 — 使用可控的相机运动和主体动作对参考图像进行动画化。

  • 基于 Wan2.1 构建 — 继承了 Wan 架构经过验证的时间注意力和运动建模能力。

  • 多分辨率 — 根据显存预算支持 480p 和 720p 的生成。

  • 开放权重 — 在开放许可下提供,可用于研究和商业用途。

  • 中文 + 英文 — 来自 Wan2.1 文本编码器的双语提示支持。

要求

组件
最低
推荐

GPU 显存

16 GB(480p 并启用卸载)

24 GB

系统内存

32 GB

64 GB

磁盘

25 GB

50 GB

Python

3.10+

3.11

CUDA

12.1+

12.4

Clore.ai 的 GPU 推荐: 一台 512x512 (24 GB,约 $0.5–2/天)是最佳选择 — 足够的显存用于以全精度生成 720p。 速度 (24 GB,约 $0.3–1/天)适用于 480p,并在市场上提供最佳的每剪辑价格比。

快速开始

使用示例

文本到视频

图像到视频

低分辨率快速预览

给 Clore.ai 用户的提示

  1. 使用 Wan 管道类 — SkyReels-V3 在架构上基于 Wan2.1,因此它使用 WanPipeline / WanImageToVideoPipeline 来自 diffusers。

  2. 从 480p 开始 — 先在较低分辨率上迭代提示词,一旦对构图满意再生成最终的 720p 剪辑。

  3. CPU 卸载enable_model_cpu_offload() 建议在 24 GB 显卡上用于 720p 生成以避免 OOM(显存不足)。

  4. 持久化存储 —— 设置 HF_HOME=/workspace/hf_cache 在 Clore.ai 的持久卷上;模型大约占用 ~15–20 GB。

  5. 原生 24 fps — 不要更改导出帧率;模型的时间注意力是针对 24 fps 输出训练的。

  6. 双语提示 — Wan2.1 文本编码器同时支持英文和中文;如有需要可以混合使用两种语言。

  7. 引导强度(Guidance scale) — 4.0–6.0 效果最佳。较高的值(>8)可能导致过饱和。

  8. tmux 是必须的 — 始终在 Clore.ai 上的一个 tmux 会话中运行生成以在 SSH 断开时保持进程存活。

# 使用固定种子以获得一致结果

问题
修复

OutOfMemoryError 以 720p

启用 pipe.enable_model_cpu_offload();如果仍然 OOM 则降至 480p

HuggingFace 上未找到模型

检查 在 SkyworkAI 的 HF 页面arrow-up-right — 它可能以变体名称列出

抖动或闪烁的运动

增加 num_inference_steps 到 40;将 guidance_scale 降到 4.0

生成速度慢

在 RTX 4090 上每个 4 秒剪辑 ~1–3 分钟为正常;480p 大约快 2 倍

色偏 / 过度饱和

降低 guidance_scale 到 4.0–5.0

ImportError: imageio

pip install imageio[ffmpeg]

重启时重新下载权重

挂载持久存储并设置 HF_HOME 环境变量

最后更新于

这有帮助吗?