TGI (Text Generation Inference)

Запускайте HuggingFace Text Generation Inference (TGI) для production-развертывания LLM на GPU Clore.ai

Text Generation Inference (TGI) — это промышленный фреймворк обслуживания LLM от HuggingFace, разработанный для высокопроизводительного и низкозадержечного вывода. Он из коробки поддерживает Flash Attention 2, непрерывную пакетную обработку, PagedAttention и тензорный параллелизм — что делает его основным решением для развертывания больших языковых моделей в масштабе на GPU-серверах CLORE.AI.

Все примеры можно запускать на GPU-серверах, арендуемых через CLORE.AI Маркетплейс.

Требования к серверу

Параметр

Минимум

Рекомендуется

ОЗУ

16 ГБ

32 ГБ+

VRAM

8 ГБ

24 ГБ+

Диск

50 ГБ

200 ГБ+

GPU

Любая NVIDIA (Ampere+ для Flash Attention)

A100, H100, RTX 4090

Flash Attention 2 требует архитектуры Ampere или новее (RTX 3000+, A100, H100). Для старых GPU TGI автоматически перейдет на стандартный механизм внимания.

Быстрое развертывание на CLORE.AI

Docker-образ: ghcr.io/huggingface/text-generation-inference:latest

Порты: 22/tcp, 8080/http

Переменные окружения:

Переменная

Пример

Описание

MODEL_ID

mistralai/Mistral-7B-Instruct-v0.3

ID модели на HuggingFace

HF_TOKEN

hf_xxx...

Токен HuggingFace (для закрытых моделей)

NUM_SHARD

2

Количество GPU для тензорного параллелизма

MAX_INPUT_LENGTH

4096

Максимум входных токенов

MAX_TOTAL_TOKENS

8192

Максимум входных + выходных токенов

QUANTIZE

bitsandbytes-nf4

Метод квантизации

Пошаговая настройка

1. Арендуйте GPU-сервер на CLORE.AI

Перейдите на CLORE.AI Маркетплейс и отфильтруйте серверы по:

VRAM ≥ 24 ГБ для моделей 7B (полная точность)
VRAM ≥ 12 ГБ для моделей 7B (квантизация 4 бита)
VRAM ≥ 80 ГБ для моделей 70B (полная точность, один GPU)

2. Подключитесь по SSH

После подтверждения вашего заказа подключитесь к серверу, используя данные SSH из панели управления CLORE.AI:

ssh -p <PORT> root@<SERVER_IP>

Или используйте веб-терминал из панели заказа CLORE.AI.

3. Скачайте Docker-образ TGI

docker pull ghcr.io/huggingface/text-generation-inference:latest

4. Запустите TGI с моделью

Базовый запуск (Mistral 7B):

docker run -d \
  --name tgi \
  --gpus all \
  --shm-size 1g \
  -p 8080:80 \
  -v /root/models:/data \
  -e MODEL_ID=mistralai/Mistral-7B-Instruct-v0.3 \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id mistralai/Mistral-7B-Instruct-v0.3 \
  --max-input-length 4096 \
  --max-total-tokens 8192

С токеном HuggingFace (для закрытых моделей, например Llama 3):

docker run -d \
  --name tgi \
  --gpus all \
  --shm-size 1g \
  -p 8080:80 \
  -v /root/models:/data \
  -e HUGGING_FACE_HUB_TOKEN=hf_your_token_here \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id meta-llama/Meta-Llama-3-8B-Instruct \
  --max-input-length 8192 \
  --max-total-tokens 16384

С квантизацией 4 бита (для меньшего объема VRAM):

docker run -d \
  --name tgi \
  --gpus all \
  --shm-size 1g \
  -p 8080:80 \
  -v /root/models:/data \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id mistralai/Mixtral-8x7B-Instruct-v0.1 \
  --quantize bitsandbytes-nf4 \
  --max-input-length 4096 \
  --max-total-tokens 8192

Тензорный параллелизм на нескольких GPU (для моделей 70B):

docker run -d \
  --name tgi \
  --gpus all \
  --shm-size 2g \
  -p 8080:80 \
  -v /root/models:/data \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id meta-llama/Meta-Llama-3-70B-Instruct \
  --num-shard 2 \
  --max-input-length 8192 \
  --max-total-tokens 16384

5. Проверьте, что сервер запущен

# Просмотр логов
docker logs -f tgi

# Дождитесь сообщения "Connected", затем протестируйте:
curl http://localhost:8080/health

Ожидаемый ответ: {"status":"ok"}

6. Доступ через HTTP-прокси CLORE.AI

В панели заказа CLORE.AI вы увидите ваш http_pub URL для порта 8080. Это позволяет получить доступ из браузера/через API без SSH-туннелирования:

https://<order-id>.clore.ai/

Примеры использования

Пример 1: Базовая генерация текста

curl http://localhost:8080/generate \
  -X POST \
  -H 'Content-Type: application/json' \
  -d '{
    "inputs": "What is the capital of France?",
    "parameters": {
      "max_new_tokens": 100,
      "temperature": 0.7
    }
  }'

Пример 2: Chat Completions (совместимо с OpenAI)

TGI поддерживает формат API chat completions от OpenAI:

curl http://localhost:8080/v1/chat/completions \
  -X POST \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "tgi",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "Explain quantum entanglement in simple terms."}
    ],
    "max_tokens": 512,
    "temperature": 0.8,
    "stream": false
  }'

Пример 3: Потоковый ответ

curl http://localhost:8080/generate_stream \
  -X POST \
  -H 'Content-Type: application/json' \
  -d '{
    "inputs": "Write a Python function to calculate Fibonacci numbers:",
    "parameters": {
      "max_new_tokens": 300,
      "temperature": 0.2
    }
  }' \
  --no-buffer

Пример 4: Клиент на Python

from huggingface_hub import InferenceClient

# Замените на ваш CLORE.AI http_pub URL
client = InferenceClient(model="http://localhost:8080")

# Простая генерация
response = client.text_generation(
    "Translate to French: Hello, how are you?",
    max_new_tokens=100,
    temperature=0.7,
)
print(response)

# Чат
for token in client.chat_completion(
    messages=[{"role": "user", "content": "What is machine learning?"}],
    max_tokens=200,
    stream=True,
):
    print(token.choices[0].delta.content, end="", flush=True)

Пример 5: Пакетные запросы

import requests

BASE_URL = "http://localhost:8080"  # или ваш CLORE.AI http_pub URL

prompts = [
    "Summarize the French Revolution in 3 sentences.",
    "Write a haiku about GPU computing.",
    "What are the main benefits of Rust over C++?",
]

results = []
for prompt in prompts:
    response = requests.post(
        f"{BASE_URL}/generate",
        json={"inputs": prompt, "parameters": {"max_new_tokens": 150}},
    )
    results.append(response.json()["generated_text"])

for prompt, result in zip(prompts, results):
    print(f"Prompt: {prompt}\nAnswer: {result}\n{'-'*50}")

Конфигурация

Ключевые параметры CLI

Параметр

По умолчанию

Описание

--model-id

обязательно

ID модели HuggingFace или локальный путь

--num-shard

Количество шардов GPU (тензорный параллелизм)

--max-concurrent-requests

128

Максимум одновременных запросов

--max-input-length

1024

Максимальная длина входных токенов

--max-total-tokens

2048

Максимум входных + выходных токенов

--max-batch-total-tokens

auto

Максимум токенов в пакете

--quantize

none

Квантизация: bitsandbytes-nf4, gptq, awq

--dtype

auto

float16, bfloat16

--trust-remote-code

false

Разрешить пользовательский код модели

--port

Порт сервера

Использование локальной модели

Если у вас модель скачана локально:

docker run -d \
  --name tgi \
  --gpus all \
  --shm-size 1g \
  -p 8080:80 \
  -v /path/to/your/model:/model \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id /model

AWQ квантизация (быстрее, чем NF4)

docker run -d \
  --name tgi \
  --gpus all \
  --shm-size 1g \
  -p 8080:80 \
  -v /root/models:/data \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id casperhansen/mistral-7b-instruct-v0.2-awq \
  --quantize awq

Советы по производительности

1. Включите Flash Attention 2

Flash Attention 2 автоматически включается на GPU Ampere+ (RTX 3000+, A100, H100). Дополнительная настройка не требуется.

2. Настройте максимальный размер батча

Для сценариев с высокой пропускной способностью увеличьте размер батча:

--max-batch-total-tokens 32000 \
--max-waiting-tokens 20

3. Используйте bfloat16 на GPU Ampere+

--dtype bfloat16

Это более численно устойчиво, чем float16, и работает одинаково на современных GPU.

4. Предварительно скачайте модели на постоянное хранилище

# На сервере предварительно скачайте перед запуском TGI
pip install huggingface_hub
python -c "
from huggingface_hub import snapshot_download
snapshot_download('mistralai/Mistral-7B-Instruct-v0.3', local_dir='/root/models/mistral-7b')
"

Затем смонтируйте локальный путь, чтобы избежать повторного скачивания при перезапусках.

5. Управление памятью GPU

Для RTX 3090/4090 (24 ГБ VRAM):

# Модель 7B в float16 помещается идеально
--max-total-tokens 8192

# Модель 13B требует квантизации
--quantize bitsandbytes-nf4
--max-total-tokens 4096

6. Спекулятивная декодировка

Для более быстрой генерации с использованием меньших моделей в качестве черновика:

--speculate 4  # Количество спекулятивных токенов

Устранение неполадок

Проблема: "CUDA out of memory"

Ошибка: CUDA out of memory. Пытался выделить X GiB

Решение: Уменьшите --max-total-tokens или включите квантизацию:

--quantize bitsandbytes-nf4
--max-total-tokens 4096

Проблема: медленное скачивание модели

Решение: Используйте зеркало HuggingFace или скачайте заранее:

# Установить зеркало
-e HF_ENDPOINT=https://hf-mirror.com

Проблема: сервер недоступен через http_pub

Решение: Убедитесь, что порт 8080 правильно проброшен. TGI слушает порт 80 внутри контейнера, но вы пробрасываете его на 8080 снаружи:

-p 8080:80  # host:container

Проблема: требуется "trust_remote_code"

Некоторые модели (например, Falcon, Phi) требуют пользовательского кода:

--trust-remote-code

Проблема: медленный первый ответ

Первый запрос инициирует загрузку модели в VRAM. Это нормально. Последующие запросы будут быстрыми.

# Проверить прогресс загрузки
docker logs -f tgi | grep -E "Connected|Error|Loading"

Проблема: контейнер завершается сразу

# Проверить наличие ошибок
docker logs tgi

# Частое решение: увеличить общую память
--shm-size 2g

TGI (Text Generation Inference)

Требования к серверу

Быстрое развертывание на CLORE.AI

Пошаговая настройка

1. Арендуйте GPU-сервер на CLORE.AI

2. Подключитесь по SSH

3. Скачайте Docker-образ TGI

4. Запустите TGI с моделью

5. Проверьте, что сервер запущен

6. Доступ через HTTP-прокси CLORE.AI

Примеры использования

Пример 1: Базовая генерация текста

Пример 2: Chat Completions (совместимо с OpenAI)

Пример 3: Потоковый ответ

Пример 4: Клиент на Python

Пример 5: Пакетные запросы

Конфигурация

Ключевые параметры CLI

Использование локальной модели

AWQ квантизация (быстрее, чем NF4)

Советы по производительности

1. Включите Flash Attention 2

2. Настройте максимальный размер батча

3. Используйте bfloat16 на GPU Ampere+

4. Предварительно скачайте модели на постоянное хранилище

5. Управление памятью GPU

6. Спекулятивная декодировка

Устранение неполадок

Проблема: "CUDA out of memory"

Проблема: медленное скачивание модели

Проблема: сервер недоступен через http_pub

Проблема: требуется "trust_remote_code"

Проблема: медленный первый ответ

Проблема: контейнер завершается сразу

Ссылки

Рекомендации Clore.ai по GPU

hashtagТребования к серверу

hashtagБыстрое развертывание на CLORE.AI

hashtagПошаговая настройка

hashtag1. Арендуйте GPU-сервер на CLORE.AI

hashtag2. Подключитесь по SSH

hashtag3. Скачайте Docker-образ TGI

hashtag4. Запустите TGI с моделью

hashtag5. Проверьте, что сервер запущен

hashtag6. Доступ через HTTP-прокси CLORE.AI

hashtagПримеры использования

hashtagПример 1: Базовая генерация текста

hashtagПример 2: Chat Completions (совместимо с OpenAI)

hashtagПример 3: Потоковый ответ

hashtagПример 4: Клиент на Python

hashtagПример 5: Пакетные запросы

hashtagКонфигурация

hashtagКлючевые параметры CLI

hashtagИспользование локальной модели

hashtagAWQ квантизация (быстрее, чем NF4)

hashtagСоветы по производительности

hashtag1. Включите Flash Attention 2

hashtag2. Настройте максимальный размер батча

hashtag3. Используйте bfloat16 на GPU Ampere+

hashtag4. Предварительно скачайте модели на постоянное хранилище

hashtag5. Управление памятью GPU

hashtag6. Спекулятивная декодировка

hashtagУстранение неполадок

hashtagПроблема: "CUDA out of memory"

hashtagПроблема: медленное скачивание модели

hashtagПроблема: сервер недоступен через http_pub

hashtagПроблема: требуется "trust_remote_code"

hashtagПроблема: медленный первый ответ

hashtagПроблема: контейнер завершается сразу

hashtagСсылки

hashtagРекомендации Clore.ai по GPU

Требования к серверу

Быстрое развертывание на CLORE.AI

Пошаговая настройка

1. Арендуйте GPU-сервер на CLORE.AI

2. Подключитесь по SSH

3. Скачайте Docker-образ TGI

4. Запустите TGI с моделью

5. Проверьте, что сервер запущен

6. Доступ через HTTP-прокси CLORE.AI

Примеры использования

Пример 1: Базовая генерация текста

Пример 2: Chat Completions (совместимо с OpenAI)

Пример 3: Потоковый ответ

Пример 4: Клиент на Python

Пример 5: Пакетные запросы

Конфигурация

Ключевые параметры CLI

Использование локальной модели

AWQ квантизация (быстрее, чем NF4)

Советы по производительности

1. Включите Flash Attention 2

2. Настройте максимальный размер батча

3. Используйте bfloat16 на GPU Ampere+

4. Предварительно скачайте модели на постоянное хранилище

5. Управление памятью GPU

6. Спекулятивная декодировка

Устранение неполадок

Проблема: "CUDA out of memory"

Проблема: медленное скачивание модели

Проблема: сервер недоступен через http_pub

Проблема: требуется "trust_remote_code"

Проблема: медленный первый ответ

Проблема: контейнер завершается сразу

Ссылки

Рекомендации Clore.ai по GPU