Mistral & Mixtral

Запускайте модели Mistral и Mixtral на GPU Clore.ai

circle-info

Доступны более новые версии! Посмотрите Mistral Small 3.1 (24B, Apache 2.0, помещается на RTX 4090) и Mistral Large 3 (675B MoE, класс фронтира).

Запускайте модели Mistral и Mixtral для высококачественной генерации текста.

circle-check

Аренда на CLORE.AI

  1. Отфильтруйте по типу GPU, объему VRAM и цене

  2. Выберите On-Demand (фиксированная ставка) или Spot (цена по ставке)

  3. Настройте ваш заказ:

    • Выберите Docker-образ

    • Установите порты (TCP для SSH, HTTP для веб-интерфейсов)

    • Добавьте переменные окружения при необходимости

    • Введите команду запуска

  4. Выберите способ оплаты: CLORE, BTC, или USDT/USDC

  5. Создайте заказ и дождитесь развертывания

Доступ к вашему серверу

  • Найдите данные для подключения в Моих заказах

  • Веб-интерфейсы: используйте URL HTTP-порта

  • SSH: ssh -p <port> root@<proxy-address>

Обзор моделей

Модель
Параметры
VRAM
Специализация

Mistral-7B

7B

8GB

Универсальное назначение

Mistral-7B-Instruct

7B

8GB

Чат/инструкция

Mixtral-8x7B

46.7B (12.9B активных)

24 ГБ

MoE, лучшее качество

Mixtral-8x22B

141B

80GB+

Крупнейший MoE

Быстрое развертывание

Docker-образ:

Порты:

Команда:

Доступ к вашему сервису

После развертывания найдите ваш http_pub URL в Моих заказах:

  1. Перейдите на Моих заказах страницу

  2. Нажмите на ваш заказ

  3. Найдите http_pub URL (например, abc123.clorecloud.net)

Используйте https://YOUR_HTTP_PUB_URL вместо localhost в примерах ниже.

Варианты установки

Использование Ollama (самый простой)

Использование vLLM

Использование Transformers

Mistral-7B с Transformers

Mixtral-8x7B

Квантизированные модели (меньше VRAM)

Квантование 4-бит

GGUF с llama.cpp

vLLM сервер (продакшн)

Совместимый с OpenAI API

Потоковая передача (Streaming)

Вызов функций

Mistral поддерживает вызов функций:

Интерфейс Gradio

Сравнение производительности

Пропускная способность (токенов/сек)

Модель
RTX 3060
RTX 3090
RTX 4090
A100 40GB

Mistral-7B FP16

45

80

120

150

Mistral-7B Q4

70

110

160

200

Mixtral-8x7B FP16

-

-

30

60

Mixtral-8x7B Q4

-

25

50

80

Mixtral-8x22B Q4

-

-

-

25

Время до первого токена (TTFT)

Модель
RTX 3090
RTX 4090
A100

Mistral-7B

80 мс

50 мс

35 мс

Mixtral-8x7B

-

150ms

90 мс

Mixtral-8x22B

-

-

200ms

Длина контекста vs VRAM (Mistral-7B)

Контекст
FP16
Q8
Q4

4K

15GB

9 ГБ

5 ГБ

8K

18GB

11 ГБ

7 ГБ

16K

24 ГБ

15GB

9 ГБ

32K

36 ГБ

22GB

14 ГБ

Требования к VRAM

Модель
FP16
8-бит
4-бит

Mistral-7B

14 ГБ

8GB

5 ГБ

Mixtral-8x7B

90 ГБ

45 ГБ

24 ГБ

Mixtral-8x22B

180 ГБ

90 ГБ

48GB

Сценарии использования

Генерация кода

Анализ данных

Творческое письмо

Устранение неполадок

Недостаточно памяти

  • Использовать 4-битную квантизацию

  • Использовать Mistral-7B вместо Mixtral

  • Уменьшить max_model_len

Медленная генерация

  • Использовать vLLM для продакшна

  • Включить flash attention

  • Использовать тензорный параллелизм для нескольких GPU

Плохое качество вывода

  • Отрегулируйте температуру (0.1-0.9)

  • Использовать вариант instruct

  • Лучшие системные подсказки

Оценка стоимости

Типичные ставки на маркетплейсе CLORE.AI (по состоянию на 2024):

GPU
Почасовая ставка
Дневная ставка
Сессия 4 часа

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Цены варьируются в зависимости от провайдера и спроса. Проверьте CLORE.AI Marketplacearrow-up-right для текущих тарифов.

Экономьте деньги:

  • Используйте Spot рынок для гибких рабочих нагрузок (часто на 30–50% дешевле)

  • Платите с помощью CLORE токенов

  • Сравнивайте цены у разных провайдеров

Дальнейшие шаги

  • vLLM - Продуктивный сервис

  • Ollama - Легкое развёртывание

  • DeepSeek-V3 - Лучшая модель для рассуждений

  • Qwen2.5 - Многоязычная альтернатива

Последнее обновление

Это было полезно?