> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/tgi.md).

# TGI (Text Generation Inference)

Text Generation Inference (TGI) — это промышленный фреймворк обслуживания LLM от HuggingFace, разработанный для высокопроизводительного и низкозадержечного вывода. Он из коробки поддерживает Flash Attention 2, непрерывную пакетную обработку, PagedAttention и тензорный параллелизм — что делает его основным решением для развертывания больших языковых моделей в масштабе на GPU-серверах CLORE.AI.

{% hint style="success" %}
Все примеры можно запускать на GPU-серверах, арендуемых через [CLORE.AI Маркетплейс](https://clore.ai/marketplace).
{% endhint %}

## Требования к серверу

| Параметр | Минимум                                    | Рекомендуется        |
| -------- | ------------------------------------------ | -------------------- |
| ОЗУ      | 16 ГБ                                      | 32 ГБ+               |
| VRAM     | 8 ГБ                                       | 24 ГБ+               |
| Диск     | 50 ГБ                                      | 200 ГБ+              |
| GPU      | Любая NVIDIA (Ampere+ для Flash Attention) | A100, H100, RTX 4090 |

{% hint style="info" %}
Flash Attention 2 требует архитектуры Ampere или новее (RTX 3000+, A100, H100). Для старых GPU TGI автоматически перейдет на стандартный механизм внимания.
{% endhint %}

## Быстрое развертывание на CLORE.AI

**Docker-образ:** `ghcr.io/huggingface/text-generation-inference:latest`

**Порты:** `22/tcp`, `8080/http`

**Переменные окружения:**

| Переменная         | Пример                               | Описание                                   |
| ------------------ | ------------------------------------ | ------------------------------------------ |
| `MODEL_ID`         | `mistralai/Mistral-7B-Instruct-v0.3` | ID модели на HuggingFace                   |
| `HF_TOKEN`         | `hf_xxx...`                          | Токен HuggingFace (для закрытых моделей)   |
| `NUM_SHARD`        | `2`                                  | Количество GPU для тензорного параллелизма |
| `MAX_INPUT_LENGTH` | `4096`                               | Максимум входных токенов                   |
| `MAX_TOTAL_TOKENS` | `8192`                               | Максимум входных + выходных токенов        |
| `QUANTIZE`         | `bitsandbytes-nf4`                   | Метод квантизации                          |

## Пошаговая настройка

### 1. Арендуйте GPU-сервер на CLORE.AI

Перейдите на [CLORE.AI Маркетплейс](https://clore.ai/marketplace) и отфильтруйте серверы по:

* VRAM ≥ 24 ГБ для моделей 7B (полная точность)
* VRAM ≥ 12 ГБ для моделей 7B (квантизация 4 бита)
* VRAM ≥ 80 ГБ для моделей 70B (полная точность, один GPU)

### 2. Подключитесь по SSH

После подтверждения вашего заказа подключитесь к серверу, используя данные SSH из панели управления CLORE.AI:

```bash
ssh -p <PORT> root@<SERVER_IP>
```

Или используйте веб-терминал из панели заказа CLORE.AI.

### 3. Скачайте Docker-образ TGI

```bash
docker pull ghcr.io/huggingface/text-generation-inference:latest
```

### 4. Запустите TGI с моделью

**Базовый запуск (Mistral 7B):**

```bash
docker run -d \
  --name tgi \
  --gpus all \
  --shm-size 1g \
  -p 8080:80 \
  -v /root/models:/data \
  -e MODEL_ID=mistralai/Mistral-7B-Instruct-v0.3 \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id mistralai/Mistral-7B-Instruct-v0.3 \
  --max-input-length 4096 \
  --max-total-tokens 8192
```

**С токеном HuggingFace (для закрытых моделей, например Llama 3):**

```bash
docker run -d \
  --name tgi \
  --gpus all \
  --shm-size 1g \
  -p 8080:80 \
  -v /root/models:/data \
  -e HUGGING_FACE_HUB_TOKEN=hf_your_token_here \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id meta-llama/Meta-Llama-3-8B-Instruct \
  --max-input-length 8192 \
  --max-total-tokens 16384
```

**С квантизацией 4 бита (для меньшего объема VRAM):**

```bash
docker run -d \
  --name tgi \
  --gpus all \
  --shm-size 1g \
  -p 8080:80 \
  -v /root/models:/data \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id mistralai/Mixtral-8x7B-Instruct-v0.1 \
  --quantize bitsandbytes-nf4 \
  --max-input-length 4096 \
  --max-total-tokens 8192
```

**Тензорный параллелизм на нескольких GPU (для моделей 70B):**

```bash
docker run -d \
  --name tgi \
  --gpus all \
  --shm-size 2g \
  -p 8080:80 \
  -v /root/models:/data \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id meta-llama/Meta-Llama-3-70B-Instruct \
  --num-shard 2 \
  --max-input-length 8192 \
  --max-total-tokens 16384
```

### 5. Проверьте, что сервер запущен

```bash
# Просмотр логов
docker logs -f tgi

# Дождитесь сообщения "Connected", затем протестируйте:
curl http://localhost:8080/health
```

Ожидаемый ответ: `{"status":"ok"}`

### 6. Доступ через HTTP-прокси CLORE.AI

В панели заказа CLORE.AI вы увидите ваш `http_pub` URL для порта 8080. Это позволяет получить доступ из браузера/через API без SSH-туннелирования:

```
https://<order-id>.clore.ai/
```

***

## Примеры использования

### Пример 1: Базовая генерация текста

```bash
curl http://localhost:8080/generate \
  -X POST \
  -H 'Content-Type: application/json' \
  -d '{
    "inputs": "What is the capital of France?",
    "parameters": {
      "max_new_tokens": 100,
      "temperature": 0.7
    }
  }'
```

### Пример 2: Chat Completions (совместимо с OpenAI)

TGI поддерживает формат API chat completions от OpenAI:

```bash
curl http://localhost:8080/v1/chat/completions \
  -X POST \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "tgi",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "Explain quantum entanglement in simple terms."}
    ],
    "max_tokens": 512,
    "temperature": 0.8,
    "stream": false
  }'
```

### Пример 3: Потоковый ответ

```bash
curl http://localhost:8080/generate_stream \
  -X POST \
  -H 'Content-Type: application/json' \
  -d '{
    "inputs": "Write a Python function to calculate Fibonacci numbers:",
    "parameters": {
      "max_new_tokens": 300,
      "temperature": 0.2
    }
  }' \
  --no-buffer
```

### Пример 4: Клиент на Python

```python
from huggingface_hub import InferenceClient

# Замените на ваш CLORE.AI http_pub URL
client = InferenceClient(model="http://localhost:8080")

# Простая генерация
response = client.text_generation(
    "Translate to French: Hello, how are you?",
    max_new_tokens=100,
    temperature=0.7,
)
print(response)

# Чат
for token in client.chat_completion(
    messages=[{"role": "user", "content": "What is machine learning?"}],
    max_tokens=200,
    stream=True,
):
    print(token.choices[0].delta.content, end="", flush=True)
```

### Пример 5: Пакетные запросы

```python
import requests

BASE_URL = "http://localhost:8080"  # или ваш CLORE.AI http_pub URL

prompts = [
    "Summarize the French Revolution in 3 sentences.",
    "Write a haiku about GPU computing.",
    "What are the main benefits of Rust over C++?",
]

results = []
for prompt in prompts:
    response = requests.post(
        f"{BASE_URL}/generate",
        json={"inputs": prompt, "parameters": {"max_new_tokens": 150}},
    )
    results.append(response.json()["generated_text"])

for prompt, result in zip(prompts, results):
    print(f"Prompt: {prompt}\nAnswer: {result}\n{'-'*50}")
```

***

## Конфигурация

### Ключевые параметры CLI

| Параметр                    | По умолчанию | Описание                                       |
| --------------------------- | ------------ | ---------------------------------------------- |
| `--model-id`                | обязательно  | ID модели HuggingFace или локальный путь       |
| `--num-shard`               | 1            | Количество шардов GPU (тензорный параллелизм)  |
| `--max-concurrent-requests` | 128          | Максимум одновременных запросов                |
| `--max-input-length`        | 1024         | Максимальная длина входных токенов             |
| `--max-total-tokens`        | 2048         | Максимум входных + выходных токенов            |
| `--max-batch-total-tokens`  | auto         | Максимум токенов в пакете                      |
| `--quantize`                | none         | Квантизация: `bitsandbytes-nf4`, `gptq`, `awq` |
| `--dtype`                   | auto         | `float16`, `bfloat16`                          |
| `--trust-remote-code`       | false        | Разрешить пользовательский код модели          |
| `--port`                    | 80           | Порт сервера                                   |

### Использование локальной модели

Если у вас модель скачана локально:

```bash
docker run -d \
  --name tgi \
  --gpus all \
  --shm-size 1g \
  -p 8080:80 \
  -v /path/to/your/model:/model \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id /model
```

### AWQ квантизация (быстрее, чем NF4)

```bash
docker run -d \
  --name tgi \
  --gpus all \
  --shm-size 1g \
  -p 8080:80 \
  -v /root/models:/data \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id casperhansen/mistral-7b-instruct-v0.2-awq \
  --quantize awq
```

***

## Советы по производительности

### 1. Включите Flash Attention 2

Flash Attention 2 автоматически включается на GPU Ampere+ (RTX 3000+, A100, H100). Дополнительная настройка не требуется.

### 2. Настройте максимальный размер батча

Для сценариев с высокой пропускной способностью увеличьте размер батча:

```bash
--max-batch-total-tokens 32000 \
--max-waiting-tokens 20
```

### 3. Используйте bfloat16 на GPU Ampere+

```bash
--dtype bfloat16
```

Это более численно устойчиво, чем float16, и работает одинаково на современных GPU.

### 4. Предварительно скачайте модели на постоянное хранилище

```bash
# На сервере предварительно скачайте перед запуском TGI
pip install huggingface_hub
python -c "
from huggingface_hub import snapshot_download
snapshot_download('mistralai/Mistral-7B-Instruct-v0.3', local_dir='/root/models/mistral-7b')
"
```

Затем смонтируйте локальный путь, чтобы избежать повторного скачивания при перезапусках.

### 5. Управление памятью GPU

Для RTX 3090/4090 (24 ГБ VRAM):

```bash
# Модель 7B в float16 помещается идеально
--max-total-tokens 8192

# Модель 13B требует квантизации
--quantize bitsandbytes-nf4
--max-total-tokens 4096
```

### 6. Спекулятивная декодировка

Для более быстрой генерации с использованием меньших моделей в качестве черновика:

```bash
--speculate 4  # Количество спекулятивных токенов
```

***

## Устранение неполадок

### Проблема: "CUDA out of memory"

```
Ошибка: CUDA out of memory. Пытался выделить X GiB
```

**Решение:** Уменьшите `--max-total-tokens` или включите квантизацию:

```bash
--quantize bitsandbytes-nf4
--max-total-tokens 4096
```

### Проблема: медленное скачивание модели

**Решение:** Используйте зеркало HuggingFace или скачайте заранее:

```bash
# Установить зеркало
-e HF_ENDPOINT=https://hf-mirror.com
```

### Проблема: сервер недоступен через http\_pub

**Решение:** Убедитесь, что порт 8080 правильно проброшен. TGI слушает порт 80 внутри контейнера, но вы пробрасываете его на 8080 снаружи:

```bash
-p 8080:80  # host:container
```

### Проблема: требуется "trust\_remote\_code"

Некоторые модели (например, Falcon, Phi) требуют пользовательского кода:

```bash
--trust-remote-code
```

### Проблема: медленный первый ответ

Первый запрос инициирует загрузку модели в VRAM. Это нормально. Последующие запросы будут быстрыми.

```bash
# Проверить прогресс загрузки
docker logs -f tgi | grep -E "Connected|Error|Loading"
```

### Проблема: контейнер завершается сразу

```bash
# Проверить наличие ошибок
docker logs tgi

# Частое решение: увеличить общую память
--shm-size 2g
```

***

## Ссылки

* [GitHub](https://github.com/huggingface/text-generation-inference)
* [Документация](https://huggingface.co/docs/text-generation-inference)
* [Docker Hub / GHCR](https://github.com/huggingface/text-generation-inference/pkgs/container/text-generation-inference)
* [Поддерживаемые модели](https://huggingface.co/docs/text-generation-inference/supported_models)
* [CLORE.AI Маркетплейс](https://clore.ai/marketplace)

***

## Рекомендации Clore.ai по GPU

| Сценарий использования  | Рекомендуемый GPU | Примерная стоимость на Clore.ai |
| ----------------------- | ----------------- | ------------------------------- |
| Разработка/Тестирование | RTX 3090 (24GB)   | \~$0.12/gpu/hr                  |
| Продакшен (7B–13B)      | RTX 4090 (24GB)   | \~$0.70/gpu/hr                  |
| Крупные модели (70B+)   | A100 80GB / H100  | \~$1.20/gpu/hr                  |

> 💡 Все примеры в этом руководстве можно развернуть на [Clore.ai](https://clore.ai/marketplace) GPU-серверах. Просматривайте доступные GPU и арендуйте по часам — без обязательств, с полным root-доступом.


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-ru/yazykovye-modeli/tgi.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
