Ollama

Запускайте LLM локально с Ollama на GPU Clore.ai

Самый простой способ запускать LLM локально на GPU CLORE.AI.

circle-info

Текущая версия: v0.6+ — Это руководство охватывает Ollama v0.6 и выше. Ключевые новые функции включают структурированные выводы (принудительное соблюдение JSON-схемы), совместимую с OpenAI конечную точку для эмбеддингов (/api/embed), и параллельную загрузку моделей (запуск нескольких моделей одновременно без подмены). См. Новое в v0.6+ для подробностей.

circle-check

Требования к серверу

Параметр
Минимум
Рекомендуется

ОЗУ

8GB

16 ГБ+

VRAM

6 ГБ

8 ГБ+

Сеть

100 Мбит/с

500 Мбит/с+

Время запуска

~30 секунд

-

circle-info

Ollama легковесна и работает на большинстве GPU-серверов. Для больших моделей (13B+) выбирайте серверы с 16 ГБ+ ОЗУ и 12 ГБ+ VRAM.

Почему Ollama?

  • Настройка в одну команду - Без Python, без зависимостей

  • Библиотека моделей - Загружайте модели с помощью ollama pull

  • Совместимый с API OpenAI - Прямая замена

  • Ускорение на GPU - Автоматическое обнаружение CUDA

  • Много моделей - Запуск нескольких моделей одновременно (v0.6+)

Быстрое развертывание на CLORE.AI

Docker-образ:

Порты:

Команда:

Проверьте, что всё работает

После развертывания найдите ваш http_pub URL в Моих заказах и протестируйте:

circle-exclamation

Доступ к вашему сервису

При развертывании на CLORE.AI доступ к вашему экземпляру Ollama осуществляется через http_pub URL:

circle-info

Все localhost:11434 примеры ниже работают при подключении через SSH. Для внешнего доступа замените на ваш https://your-http-pub.clorecloud.net/ URL.

Установка

Использование Docker (рекомендуется)

Ручная установка

Эта единая команда устанавливает последнюю версию Ollama, настраивает systemd-сервис и автоматически настраивает обнаружение GPU. Работает на Ubuntu, Debian, Fedora и большинстве современных дистрибутивов Linux.

Запуск моделей

Скачать и запустить

Популярные модели

Модель
Размер
Случай использования

llama3.2

3B

Быстрая, общего назначения

llama3.1

8B

Лучшее качество

llama3.1:70b

70B

Лучшее качество

mistral

7B

Быстро, хорошее качество

mixtral

47B

MoE, высокое качество

codellama

7-34B

Генерация кода

deepseek-coder-v2

16B

Лучше всего для кода

deepseek-r1

7B-671B

Модель для рассуждений

deepseek-r1:32b

32B

Сбалансированные рассуждения

qwen2.5

7B

Мультиязычность

qwen2.5:72b

72B

Лучшее качество Qwen

phi4

14B

Последняя от Microsoft

gemma2

9B

Модель Google

Варианты моделей

Новое в v0.6+

Ollama v0.6 представила несколько основных функций для производственных нагрузок:

Структурированные выводы (JSON Schema)

Принудительное соответствие ответов модели определённой JSON-схеме. Полезно при создании приложений, которым нужен надёжный, парсируемый вывод:

Пример на Python со структурированными выводами:

Совместимая с OpenAI конечная точка для эмбеддингов (/api/embed)

Новое в v0.6+: /api/embed конечная точка полностью совместима с OpenAI и поддерживает пакетные входы:

Клиент OpenAI работает напрямую с /v1/embeddings:

Популярные модели эмбеддингов:

Параллельная загрузка моделей

До v0.6 Ollama выгружала одну модель, чтобы загрузить другую. V0.6+ поддерживает запуск нескольких моделей одновременно, ограниченный только доступным VRAM:

Настройка параллелизма:

Это особенно полезно для:

  • A/B тестирования разных моделей

  • Специализированных моделей для разных задач (кодирование + чат)

  • Поддержания часто используемых моделей в VRAM

Использование API

Chat Completion

circle-info

Добавьте "stream": false чтобы получить полный ответ сразу вместо потоковой передачи.

Совместимая с OpenAI конечная точка

Потоковая передача (Streaming)

Эмбеддинги

Генерация текста (не-чат)

Полная справочная документация API

Все конечные точки работают как с http://localhost:11434 (через SSH), так и с https://your-http-pub.clorecloud.net (внешний).

Управление моделями

Эндпоинт
Метод
Описание

/api/tags

GET

Список всех загруженных моделей

/api/show

POST

Получить подробности модели

/api/pull

POST

Скачать модель

/api/delete

DELETE

Удалить модель

/api/ps

GET

Список текущих запущенных моделей

/api/version

GET

Получить версию Ollama

Список моделей

Ответ:

Показать детали модели

Загрузить модель через API

Ответ:

circle-exclamation

Удалить модель

Список запущенных моделей

Ответ:

Получить версию

Ответ:

Конечные точки инференса

Эндпоинт
Метод
Описание

/api/generate

POST

Завершение текста

/api/chat

POST

Чат-завершение

/api/embeddings

POST

Генерация эмбеддингов (устаревшее)

/api/embed

POST

Генерация эмбеддингов v0.6+ (пакетная, совместима с OpenAI)

/v1/chat/completions

POST

Чат, совместимый с OpenAI

/v1/embeddings

POST

Эмбеддинги, совместимые с OpenAI

Создание пользовательских моделей

Создавайте пользовательские модели с конкретными системными подсказками через API:

Конфигурация GPU

Проверить использование GPU

Мульти-GPU

Ollama автоматически использует доступные GPU. Для указания конкретного GPU:

Управление памятью

Пользовательские модели (Modelfile)

Создавайте пользовательские модели с системными подсказками:

Запуск как сервис

Systemd

Советы по производительности

  1. Используйте подходящую квантизацию

    • Q4_K_M для скорости

    • Q8_0 для качества

    • fp16 для максимального качества

  2. Подбирайте модель под VRAM

    • 8GB: модели 7B (Q4)

    • 16GB: модели 13B или 7B (Q8)

    • 24GB: модели 34B (Q4)

    • 48GB+: модели 70B

  3. Держать модель загруженной

  4. Быстрый SSD улучшает производительность

    • Загрузка моделей и KV-кэш выигрывают от быстрого хранилища

    • Серверы с NVMe SSD могут обеспечить в 2-3 раза лучшую производительность

Бенчмарки

Скорость генерации (токен/с)

Модель
RTX 3060
RTX 3090
RTX 4090
A100 40GB

Llama 3.2 3B (Q4)

120

160

200

220

Llama 3.1 8B (Q4)

60

100

130

150

Llama 3.1 8B (Q8)

45

80

110

130

Mistral 7B (Q4)

70

110

140

160

Mixtral 8x7B (Q4)

-

35

55

75

Llama 3.1 70B (Q4)

-

-

18

35

DeepSeek-R1 7B (Q4)

65

105

135

155

DeepSeek-R1 32B (Q4)

-

-

22

42

Qwen2.5 72B (Q4)

-

-

15

30

Phi-4 14B (Q4)

-

50

75

90

Бенчмарки обновлены в январе 2026. Фактическая скорость может варьироваться в зависимости от конфигурации сервера.

Время до первого токена (мс)

Модель
RTX 3090
RTX 4090
A100

3B

50

35

25

7-8B

120

80

60

13B

250

150

100

34B

600

350

200

70B

-

1200

500

Длина контекста vs VRAM (Q4)

Модель
2K контекст
4K контекст
8K контекст
16K контекст

7B

5 ГБ

6 ГБ

8GB

12GB

13B

8GB

10GB

14GB

22GB

34B

20GB

24 ГБ

32GB

48GB

70B

40GB

48GB

64GB

96GB

Требования к GPU

Модель
Q4 VRAM
Q8 VRAM

3B

3GB

5 ГБ

7-8B

5 ГБ

9 ГБ

13B

8GB

15GB

34B

20GB

38GB

70B

40GB

75GB

Оценка стоимости

Типичные расценки на маркетплейсе CLORE.AI:

GPU
VRAM
Цена/день
Подходит для

RTX 3060

12GB

$0.15–0.30

Модели 7B

RTX 3090

24 ГБ

$0.30–1.00

Модели 13B-34B

RTX 4090

24 ГБ

$0.50–2.00

Модели 34B, быстро

A100

40GB

$1.50–3.00

Модели 70B

Цены в USD/день. Тарифы зависят от провайдера — проверьте CLORE.AI Marketplacearrow-up-right для текущих тарифов.

Устранение неполадок

Модель не загружается

Медленная генерация

Соединение отклонено

HTTP 502 на http_pub URL

Это означает, что сервис всё ещё запускается. Подождите 30–60 секунд и повторите попытку:

Дальнейшие шаги

  • Открыть WebUI - Красивый интерфейс чата для Ollama

  • vLLM - Высокопроизводительное продакшн-обслуживание

  • DeepSeek-R1 - Модель для рассуждений

  • DeepSeek-V3 - Лучшая общая модель

  • Qwen2.5 - Многоязычная альтернатива

  • Text Generation WebUI - Расширенные функции

Последнее обновление

Это было полезно?