TGI (Text Generation Inference)
Запустите HuggingFace Text Generation Inference (TGI) для продакшн-подачи LLM на GPU Clore.ai
Требования к серверу
Параметр
Минимум
Рекомендуется
Быстрое развертывание на CLORE.AI
Переменная
Пример
Описание
Пошаговая настройка
1. Арендуйте GPU-сервер на CLORE.AI
2. Подключитесь по SSH
3. Скачайте Docker-образ TGI
4. Запустите TGI с моделью
5. Проверьте, что сервер запущен
6. Доступ через HTTP-прокси CLORE.AI
Примеры использования
Пример 1: Базовая генерация текста
Пример 2: Chat Completions (совместимо с OpenAI)
Пример 3: Потоковый ответ
Пример 4: Клиент на Python
Пример 5: Пакетные запросы
Конфигурация
Ключевые параметры CLI
Параметр
По умолчанию
Описание
Использование локальной модели
AWQ квантизация (быстрее, чем NF4)
Советы по производительности
1. Включите Flash Attention 2
2. Настройте максимальный размер батча
3. Используйте bfloat16 на GPU Ampere+
4. Предварительно скачайте модели на постоянное хранилище
5. Управление памятью GPU
6. Спекулятивная декодировка
Устранение неполадок
Проблема: "CUDA out of memory"
Проблема: медленное скачивание модели
Проблема: сервер недоступен через http_pub
Проблема: требуется "trust_remote_code"
Проблема: медленный первый ответ
Проблема: контейнер завершается сразу
Ссылки
Рекомендации Clore.ai по GPU
Сценарий использования
Рекомендуемый GPU
Примерная стоимость на Clore.ai
Последнее обновление
Это было полезно?