Ollama
Запускайте LLM локально с Ollama на GPU Clore.ai
Требования к серверу
Параметр
Минимум
Рекомендуется
Почему Ollama?
Быстрое развертывание на CLORE.AI
Проверьте, что всё работает
Доступ к вашему сервису
Установка
Использование Docker (рекомендуется)
Ручная установка
Запуск моделей
Скачать и запустить
Популярные модели
Модель
Размер
Случай использования
Варианты моделей
Новое в v0.6+
Структурированные выводы (JSON Schema)
Совместимая с OpenAI конечная точка для эмбеддингов (/api/embed)
/api/embed)Параллельная загрузка моделей
Использование API
Chat Completion
Совместимая с OpenAI конечная точка
Потоковая передача (Streaming)
Эмбеддинги
Генерация текста (не-чат)
Полная справочная документация API
Управление моделями
Эндпоинт
Метод
Описание
Список моделей
Показать детали модели
Загрузить модель через API
Удалить модель
Список запущенных моделей
Получить версию
Конечные точки инференса
Эндпоинт
Метод
Описание
Создание пользовательских моделей
Конфигурация GPU
Проверить использование GPU
Мульти-GPU
Управление памятью
Пользовательские модели (Modelfile)
Запуск как сервис
Systemd
Советы по производительности
Бенчмарки
Скорость генерации (токен/с)
Модель
RTX 3060
RTX 3090
RTX 4090
A100 40GB
Время до первого токена (мс)
Модель
RTX 3090
RTX 4090
A100
Длина контекста vs VRAM (Q4)
Модель
2K контекст
4K контекст
8K контекст
16K контекст
Требования к GPU
Модель
Q4 VRAM
Q8 VRAM
Оценка стоимости
GPU
VRAM
Цена/день
Подходит для
Устранение неполадок
Модель не загружается
Медленная генерация
Соединение отклонено
HTTP 502 на http_pub URL
Дальнейшие шаги
Последнее обновление
Это было полезно?