Развёртывание LLM: Ollama против vLLM против TGI
Сравнение vLLM vs SGLang vs Ollama vs TGI vs LocalAI для сервинга LLM
Краткое руководство для принятия решения
Случай использования
Лучший выбор
Почему
Сравнение времени запуска
Решение
Типичный запуск
Примечания
Обзорное сравнение
Функция
Ollama
vLLM
SGLang
TGI
LocalAI
Бенчмарки 2025: DeepSeek-R1-32B
TTFT, TPOT и пропускная способность (A100 80GB, batch=32, input=512, output=512)
Фреймворк
TTFT (мс)
TPOT (мс/ток)
Пропускная способность (ток/с)
Примечания
Сравнение пропускной способности (RTX 4090, Llama 3.1 8B, 10 одновременных пользователей)
Фреймворк
Токенов/с
Одновременные пользователи
Примечания
SGLang
Обзор
Плюсы
Минусы
Быстрый старт
DeepSeek-R1 с SGLang
Использование API
Мульти-GPU
Лучше всего для
Ollama
Обзор
Плюсы
Минусы
Быстрый старт
Использование API
Совместимость с OpenAI
Производительность
Модель
GPU
Токенов/с
Лучше всего для
vLLM
Обзор
Плюсы
Минусы
Быстрый старт
Docker-развёртывание
Использование API
Мульти-GPU
Производительность
Модель
GPU
Токенов/с
Одновременные пользователи
Лучше всего для
Text Generation Inference (TGI)
Обзор
Плюсы
Минусы
Быстрый старт
Производительность
Модель
GPU
Токенов/с
Одновременные пользователи
Лучше всего для
LocalAI
Обзор
Плюсы
Минусы
Быстрый старт
Использование API
Лучше всего для
Сравнение производительности (2025)
Пропускная способность (токенов/сек) — Один пользователь
Модель
Ollama
vLLM v0.7
SGLang v0.4
TGI
Пропускная способность — Несколько пользователей (10 одновременных)
Модель
Ollama
vLLM v0.7
SGLang v0.4
TGI
Использование памяти
Модель
Ollama
vLLM v0.7
SGLang v0.4
TGI
Время до первого токена (TTFT) — DeepSeek-R1-32B
Фреймворк
TTFT (A100 80GB)
TPOT (мс/ток)
Сравнение функций
Функция
Ollama
vLLM v0.7
SGLang v0.4
TGI
LocalAI
Когда что использовать
Используйте Ollama, когда:
Используйте SGLang, когда:
Используйте vLLM, когда:
Используйте TGI, когда:
Используйте LocalAI, когда:
Руководство по миграции
От Ollama к SGLang
От vLLM к SGLang
Рекомендации по GPU
GPU
Один пользователь
Много пользователей
Модели рассуждений
Дальнейшие шаги
Последнее обновление
Это было полезно?