Mochi-1 Video

Mochi-1 является открытой 10-миллиардной параметрической моделью генерации видео от Genmo, создающей выход 848×480 @ 30fps с физически правдоподобным движением. Она использует архитектуру асимметричного диффузионного трансформера (AsymmDiT) и входит в число открытых видео моделей с самым высоким качеством воспроизведения движения. Разверните её в GPU-облаке Clore.ai, чтобы генерировать видео профессионального уровня за долю стоимости коммерческих API.


Что такое Mochi-1?

Mochi-1 — это модель с 10 миллиардами параметров модель видео-диффузии, обученная создавать видео с:

  • Плавным, физически правдоподобным движением

  • Высокой временной согласованностью

  • Сильным соответствием запросу

  • Разрешение 848×480 при 30 кадрах/с

Она использует асимметричный диффузионный трансформер (архитектура AsymmDiT) — разные глубины энкодеров для видео и текста — что обеспечивает эффективный вывод в масштабе. Весы выпущены под Genmo Open Source License, бесплатно для исследований и коммерческого использования.

Основные характеристики модели:

  • 10 миллиардов параметров

  • Нативный вывод 848×480 @ 30 fps

  • Высокая точность движения (в сообществе занимает верхние позиции в бенчмарках)

  • Доступна на Hugging Face с интеграцией diffusers

  • Gradio-демо UI для простого взаимодействия


Требования

Требование
Минимум
Рекомендуется

VRAM GPU

24 ГБ

40–80 ГБ

GPU

RTX 4090

A100 / H100

ОЗУ

32 ГБ

64 ГБ

Хранилище

60 ГБ

100 ГБ

CUDA

11.8+

12.1+

circle-exclamation

Шаг 1 — Арендуйте GPU на Clore.ai

  1. Перейдите на clore.aiarrow-up-right и войдите в систему.

  2. Нажмите Маркетплейс и отфильтруйте:

    • VRAM: ≥ 24 ГБ (минимум RTX 4090, рекомендуется A100)

    • Для мульти‑GPU: фильтруйте по количеству GPU ≥ 2

  3. Выберите свой сервер и нажмите Настроить.

  4. Установите Docker-образ на pytorch/pytorch:2.4.1-cuda12.4-cudnn9-devel (базовый образ — мы установим Mochi внутри).

  5. Установите открытые порты: 22 (SSH) и 7860 (Gradio UI).

  6. Нажмите Арендовать.

circle-info

Clore.ai предлагает инстансы A100 40 ГБ по цене от ~$0.60–$0.90/час. Для Mochi-1 в полном качестве это наиболее экономичный выбор.


Шаг 2 — Пользовательский Dockerfile

Соберите собственный образ или используйте этот Dockerfile чтобы создать готовую среду Mochi-1:

Сборка и загрузка в Docker Hub

Соберите образ локально и запушьте его в свой аккаунт Docker Hub (замените YOUR_DOCKERHUB_USERNAME на ваш фактический логин):

Затем используйте YOUR_DOCKERHUB_USERNAME/mochi-1:latest в качестве вашего Docker-образа в Clore.ai.

circle-info

Официального предсобранного Docker-образа Mochi-1 на Docker Hub нет. Вам нужно собрать из Dockerfile выше. Альтернативно можно использовать pytorch/pytorch:2.4.1-cuda12.4-cudnn9-devel в качестве базового образа напрямую и вручную выполнить команды установки по SSH.


Шаг 3 — Подключитесь по SSH

После запуска вашего инстанса:


Шаг 4 — Скачивание весов Mochi-1

Весы модели размещены на Hugging Face. Скачайте их через huggingface_hub CLI:

circle-info

Полная bf16 модель примерно 80 ГБ. fp8 Квантованная версия — ~40 ГБ и работает на RTX 4090 (24 ГБ) с выгрузкой на CPU. Укажите --include "*fp8*" чтобы загрузить только квантованные веса.

Альтернатива: загрузить только fp8 квантованные веса


Шаг 5 — Запуск Gradio-демо

Mochi-1 поставляется с веб‑интерфейсом Gradio для простого преобразования текста в видео:

Для режима с малым объёмом VRAM (RTX 4090, 24 ГБ):

circle-info

Параметр --cpu_offload флаг перемещает слои модели в оперативную память CPU, когда они не используются, снижая пик VRAM до ~18–20 ГБ за счёт примерно в 2× более медленной генерации.


Шаг 6 — Доступ к веб‑интерфейсу

Откройте браузер и перейдите по адресу:

Вы увидите интерфейс Mochi-1 Gradio с:

  • Полем ввода текстового запроса

  • Настройками генерации (steps, guidance scale, seed)

  • Плеером для вывода видео


Шаг 7 — Сгенерируйте своё первое видео

Примеры запросов

Сцена природы:

Экшн-сцена:

Абстрактное/художественное:

Рекомендуемые настройки

Параметр
Значение

Шаги

64

Guidance Scale

4.5

Длительность

5.1 секунды (по умолчанию)

Разрешение

848×480 (нативное)

circle-info

Время генерации существенно зависит от GPU. На A100 80 ГБ 5‑секундное видео занимает примерно 2–4 минуты. На RTX 4090 с выгрузкой на CPU ожидайте 8–15 минут.


Использование Python API

Для программной генерации используйте конвейер diffusers:

Скрипт пакетной генерации


Мульти‑GPU вывод

Для более быстрой генерации с несколькими GPU:

circle-info

Clore.ai предлагает мульти‑GPU серверы (2×, 4× RTX 4090 или A100). С 2× A100 80 ГБ время генерации снижается до менее чем 60 секунд для 5‑секундного клипа.


Устранение неполадок

CUDA: недостаточно памяти

Решения:

  1. Добавьте --cpu_offload к команде gradio

  2. Включите VAE slicing: pipe.enable_vae_slicing()

  3. Уменьшите num_frames (попробуйте 24 вместо 84)

  4. Используйте квантованные веса fp8 вместо bf16

Медленная загрузка модели

Решение: Убедитесь, что веса находятся на быстром NVMe‑диске, а не на HDD. Проверьте скорость хранилища:

Артефакты видео / временное мерцание

Решения:

  • Увеличьте количество шагов вывода (попробуйте 80–100)

  • Отрегулируйте guidance scale (диапазон 3.5–5.0 обычно оптимален)

  • Используйте конкретное seed для воспроизводимости и итераций

Порт 7860 недоступен

Проверьте, что порт правильно открыт в Clore.ai и что Gradio-сервер привязывается к 0.0.0.0:


Оценка стоимости

GPU
VRAM
Примерная цена
Время для 5‑секундного видео

RTX 4090

24 ГБ

~$0.35/час

~10–15 мин

A100 40GB

40 ГБ

~$0.70/ч

~3–5 мин

A100 80GB

80 ГБ

~$1.20/ч

~2–3 мин

2× A100 80ГБ

160 ГБ

~$2.20/час

~60–90 сек


Рекомендации Clore.ai по GPU

Mochi-1 требует много VRAM — 10‑миллиардная модель требует внимательного подбора GPU.

GPU
VRAM
Цена Clore.ai
Режим
Время генерации 5‑секундного видео

RTX 4090

24 ГБ

~$0.70/ч

только квантованный fp8

~10–15 мин

A100 40GB

40 ГБ

~$1.20/ч

рекомендуется bf16

~3–5 мин

A100 80GB

80 ГБ

~$2.00/ч

полный bf16, быстро

~2–3 мин

2× A100 80ГБ

160 ГБ

~$4.00/час

тензорный параллелизм, самый быстрый

~60–90 сек

circle-exclamation

Лучшее соотношение цена/качество: A100 40 ГБ по ~$1.20/час генерирует 5‑секундный клип за 3–5 минут. Это ~$0.08–0.10 за клип — значительно дешевле, чем Runway ML ($0.25–0.50/клип) или подписки Pika Labs.


Полезные ресурсы

Последнее обновление

Это было полезно?