LTX-2 (аудио + видео)
Генерируйте видео с встроенным аудио — фоли, атмосферу и синхронизацию губ — используя LTX-2 на GPU Clore.ai.
LTX-2 (январь 2026) — модель второго поколения для видео от Lightricks и первая модель с открытыми весами, которая генерирует синхронизированный звук вместе с видео в одном прогоне. При 19 млрд параметров она создаёт клипы с эффектами фоли, атмосферным звуком и речью с синхронизацией губ без необходимости в отдельной аудио-модели. Архитектура опирается на преимущество по скорости оригинального LTX-Video, одновременно значительно расширяя возможности.
Аренда GPU на Clore.ai — самый практичный способ запустить модель с 19 млрд параметров: не нужно покупать GPU за $2000, просто запустите машину и начинайте генерировать.
Ключевые особенности
Родная генерация аудио — эффекты фоли, окружающая атмосфера и синхронизированный с губами диалог, сгенерированные совместно с видеокадрами.
19 млрд параметров — значительно более крупный трансформерный бэкбон по сравнению с LTX-Video v1, обеспечивающий более чёткие детали и более согласованное движение.
Текст-видео + изображение-видео — обе модальности поддерживаются с выводом аудио.
До 720p разрешения — более высокое качество вывода, чем у модели v1.
Совместное аудиовизуальное латентное пространство — единый VAE кодирует и видео, и аудио, сохраняя их временную синхронизацию.
Открытые веса — выпущено под разрешающей лицензией для коммерческого использования.
Интеграция с Diffusers — совместимо с экосистемой Hugging Face
поддержкой diffusersecosystem.
Требования
VRAM GPU
16 ГБ (с выгрузкой)
24+ ГБ
ОЗУ системы
32 ГБ
64 ГБ
Диск
50 ГБ
80 ГБ
Python
3.10+
3.11
CUDA
12.1+
12.4
поддержкой diffusers
0.33+
latest
Рекомендация Clore.ai по GPU: Один RTX 4090 (24 ГБ, ~0,5–2 $/день) — минимум для комфортной генерации 720p с аудио. Для пакетных задач или более быстрой итерации фильтруйте по dual-4090 или A6000 (48 ГБ) объявления на маркетплейсе Clore.ai.
Быстрый старт
Примеры использования
Текст-видео с аудио
Изображение-видео с синхронизацией губ и аудио
Атмосферная сцена с фоли
Советы для пользователей Clore.ai
Опишите звуки явно — аудиоветка LTX-2 реагирует на аудиоподсказки в промпте. "Трескучий огонь", "шаги по гравию", "шум толпы" дают лучший фоли, чем расплывчатые описания.
Выгрузка на CPU обязательна — при 19 млрд параметров модели требуется
enable_model_cpu_offload()на картах 24 ГБ. Планируйте 64 ГБ оперативной памяти системы.Постоянное хранилище — чекпоинт модели занимает ~40 ГБ. Подключите постоянный том Clore.ai и установите
HF_HOMEчтобы избежать повторной загрузки при каждом перезапуске контейнера.Объединение аудио и видео — если пайплайн выводит аудио отдельно, объедините с помощью:
ffmpeg -i video.mp4 -i audio.wav -c:v copy -c:a aac final.mp4.Только bf16 — модель 19B обучалась в bf16; fp16 вызовет численную нестабильность.
Запуск батчей в tmux — всегда запускайте внутри
tmuxна аренде Clore.ai, чтобы пережить разрывы SSH-сессии.Проверьте ID модели — поскольку LTX-2 только что выпущен (янв. 2026), проверьте точный ID модели на HuggingFace на странице странице Lightricks на HF перед запуском.
Устранение неполадок
OutOfMemoryError
Включите pipe.enable_model_cpu_offload(); убедитесь в наличии ≥64 ГБ оперативной памяти системы
Нет аудио в выводе
Генерация аудио может требовать явного флага или обновлённой версии diffusers; проверьте карточку модели для актуального API
Разсинхронизация аудио/видео
Перемножьте (re-mux) с помощью ffmpeg: ffmpeg -i video.mp4 -i audio.wav -c:v copy -c:a aac -shortest out.mp4
Очень медленная генерация
Модель 19B требует много вычислений; ожидайте ~2–4 минуты на 5-секундный клип на RTX 4090
NaN в выводе
Используйте torch.bfloat16 — fp16 не поддерживается для модели такого масштаба
Ошибка места на диске
Модель занимает ~40 ГБ; убедитесь, что перед загрузкой свободно ≥80 ГБ
ModuleNotFoundError: soundfile
pip install soundfile — требуется для экспорта аудио в WAV
Последнее обновление
Это было полезно?