Mochi-1 Video
Mochi-1 является открытой 10-миллиардной параметрической моделью генерации видео от Genmo, создающей выход 848×480 @ 30fps с физически правдоподобным движением. Она использует архитектуру асимметричного диффузионного трансформера (AsymmDiT) и входит в число открытых видео моделей с самым высоким качеством воспроизведения движения. Разверните её в GPU-облаке Clore.ai, чтобы генерировать видео профессионального уровня за долю стоимости коммерческих API.
Что такое Mochi-1?
Mochi-1 — это модель с 10 миллиардами параметров модель видео-диффузии, обученная создавать видео с:
Плавным, физически правдоподобным движением
Высокой временной согласованностью
Сильным соответствием запросу
Разрешение 848×480 при 30 кадрах/с
Она использует асимметричный диффузионный трансформер (архитектура AsymmDiT) — разные глубины энкодеров для видео и текста — что обеспечивает эффективный вывод в масштабе. Весы выпущены под Genmo Open Source License, бесплатно для исследований и коммерческого использования.
Основные характеристики модели:
10 миллиардов параметров
Нативный вывод 848×480 @ 30 fps
Высокая точность движения (в сообществе занимает верхние позиции в бенчмарках)
Доступна на Hugging Face с интеграцией diffusers
Gradio-демо UI для простого взаимодействия
Требования
VRAM GPU
24 ГБ
40–80 ГБ
GPU
RTX 4090
A100 / H100
ОЗУ
32 ГБ
64 ГБ
Хранилище
60 ГБ
100 ГБ
CUDA
11.8+
12.1+
Mochi-1 — крупная модель (≈40 ГБ в fp8 / ≈80 ГБ в bf16). Одна RTX 4090 (24 ГБ) может запускать её с квантованием. Для полного качества используйте A100 40 ГБ или более. Поддерживаются мульти‑GPU конфигурации.
Шаг 1 — Арендуйте GPU на Clore.ai
Перейдите на clore.ai и войдите в систему.
Нажмите Маркетплейс и отфильтруйте:
VRAM: ≥ 24 ГБ (минимум RTX 4090, рекомендуется A100)
Для мульти‑GPU: фильтруйте по количеству GPU ≥ 2
Выберите свой сервер и нажмите Настроить.
Установите Docker-образ на
pytorch/pytorch:2.4.1-cuda12.4-cudnn9-devel(базовый образ — мы установим Mochi внутри).Установите открытые порты:
22(SSH) и7860(Gradio UI).Нажмите Арендовать.
Clore.ai предлагает инстансы A100 40 ГБ по цене от ~$0.60–$0.90/час. Для Mochi-1 в полном качестве это наиболее экономичный выбор.
Шаг 2 — Пользовательский Dockerfile
Соберите собственный образ или используйте этот Dockerfile чтобы создать готовую среду Mochi-1:
Сборка и загрузка в Docker Hub
Соберите образ локально и запушьте его в свой аккаунт Docker Hub (замените YOUR_DOCKERHUB_USERNAME на ваш фактический логин):
Затем используйте YOUR_DOCKERHUB_USERNAME/mochi-1:latest в качестве вашего Docker-образа в Clore.ai.
Официального предсобранного Docker-образа Mochi-1 на Docker Hub нет. Вам нужно собрать из Dockerfile выше. Альтернативно можно использовать pytorch/pytorch:2.4.1-cuda12.4-cudnn9-devel в качестве базового образа напрямую и вручную выполнить команды установки по SSH.
Шаг 3 — Подключитесь по SSH
После запуска вашего инстанса:
Шаг 4 — Скачивание весов Mochi-1
Весы модели размещены на Hugging Face. Скачайте их через huggingface_hub CLI:
Полная bf16 модель примерно 80 ГБ. fp8 Квантованная версия — ~40 ГБ и работает на RTX 4090 (24 ГБ) с выгрузкой на CPU. Укажите --include "*fp8*" чтобы загрузить только квантованные веса.
Альтернатива: загрузить только fp8 квантованные веса
Шаг 5 — Запуск Gradio-демо
Mochi-1 поставляется с веб‑интерфейсом Gradio для простого преобразования текста в видео:
Для режима с малым объёмом VRAM (RTX 4090, 24 ГБ):
Параметр --cpu_offload флаг перемещает слои модели в оперативную память CPU, когда они не используются, снижая пик VRAM до ~18–20 ГБ за счёт примерно в 2× более медленной генерации.
Шаг 6 — Доступ к веб‑интерфейсу
Откройте браузер и перейдите по адресу:
Вы увидите интерфейс Mochi-1 Gradio с:
Полем ввода текстового запроса
Настройками генерации (steps, guidance scale, seed)
Плеером для вывода видео
Шаг 7 — Сгенерируйте своё первое видео
Примеры запросов
Сцена природы:
Экшн-сцена:
Абстрактное/художественное:
Рекомендуемые настройки
Шаги
64
Guidance Scale
4.5
Длительность
5.1 секунды (по умолчанию)
Разрешение
848×480 (нативное)
Время генерации существенно зависит от GPU. На A100 80 ГБ 5‑секундное видео занимает примерно 2–4 минуты. На RTX 4090 с выгрузкой на CPU ожидайте 8–15 минут.
Использование Python API
Для программной генерации используйте конвейер diffusers:
Скрипт пакетной генерации
Мульти‑GPU вывод
Для более быстрой генерации с несколькими GPU:
Clore.ai предлагает мульти‑GPU серверы (2×, 4× RTX 4090 или A100). С 2× A100 80 ГБ время генерации снижается до менее чем 60 секунд для 5‑секундного клипа.
Устранение неполадок
CUDA: недостаточно памяти
Решения:
Добавьте
--cpu_offloadк команде gradioВключите VAE slicing:
pipe.enable_vae_slicing()Уменьшите
num_frames(попробуйте 24 вместо 84)Используйте квантованные веса fp8 вместо bf16
Медленная загрузка модели
Решение: Убедитесь, что веса находятся на быстром NVMe‑диске, а не на HDD. Проверьте скорость хранилища:
Артефакты видео / временное мерцание
Решения:
Увеличьте количество шагов вывода (попробуйте 80–100)
Отрегулируйте guidance scale (диапазон 3.5–5.0 обычно оптимален)
Используйте конкретное seed для воспроизводимости и итераций
Порт 7860 недоступен
Проверьте, что порт правильно открыт в Clore.ai и что Gradio-сервер привязывается к 0.0.0.0:
Оценка стоимости
RTX 4090
24 ГБ
~$0.35/час
~10–15 мин
A100 40GB
40 ГБ
~$0.70/ч
~3–5 мин
A100 80GB
80 ГБ
~$1.20/ч
~2–3 мин
2× A100 80ГБ
160 ГБ
~$2.20/час
~60–90 сек
Рекомендации Clore.ai по GPU
Mochi-1 требует много VRAM — 10‑миллиардная модель требует внимательного подбора GPU.
RTX 4090
24 ГБ
~$0.70/ч
только квантованный fp8
~10–15 мин
A100 40GB
40 ГБ
~$1.20/ч
рекомендуется bf16
~3–5 мин
A100 80GB
80 ГБ
~$2.00/ч
полный bf16, быстро
~2–3 мин
2× A100 80ГБ
160 ГБ
~$4.00/час
тензорный параллелизм, самый быстрый
~60–90 сек
RTX 3090 (24 ГБ) не рекомендуется — Mochi-1 в режиме fp8 требует минимум 24 ГБ и оставляет почти нулевой запас. RTX 4090 (24 ГБ) работает в fp8, но часто вылетает OOM при более длинных последовательностях. Для стабильных результатов начните с A100 40 ГБ.
Лучшее соотношение цена/качество: A100 40 ГБ по ~$1.20/час генерирует 5‑секундный клип за 3–5 минут. Это ~$0.08–0.10 за клип — значительно дешевле, чем Runway ML ($0.25–0.50/клип) или подписки Pika Labs.
Полезные ресурсы
Последнее обновление
Это было полезно?