Qwen2.5

Запускайте многоязычные LLM Qwen2.5 от Alibaba на GPU Clore.ai

Запустите семейство моделей Qwen2.5 от Alibaba — мощные многоязычные LLM с отличными возможностями в кодировании и математике на GPU CLORE.AI.

circle-check

Почему Qwen2.5?

  • Разнообразие размеров - От 0.5B до 72B параметров

  • Мультиязычность - 29 языков, включая китайский

  • Длинный контекст - До 128K токенов

  • Специализированные варианты - Выпуски Coder, Math

  • Открытый исходный код - Лицензия Apache 2.0

Быстрое развертывание на CLORE.AI

Docker-образ:

vllm/vllm-openai:latest

Порты:

22/tcp
8000/http

Команда:

python -m vllm.entrypoints.openai.api_server \
    --model Qwen/Qwen2.5-7B-Instruct \
    --host 0.0.0.0 \
    --port 8000

Доступ к вашему сервису

После развертывания найдите ваш http_pub URL в Моих заказах:

  1. Перейдите на Моих заказах страницу

  2. Нажмите на ваш заказ

  3. Найдите http_pub URL (например, abc123.clorecloud.net)

Используйте https://YOUR_HTTP_PUB_URL вместо localhost в примерах ниже.

Проверьте, что всё работает

circle-exclamation

Режим рассуждения Qwen3

circle-info

Новое в Qwen3: Некоторые модели Qwen3 поддерживают режим рассуждения, который показывает процесс мышления модели в <think> тегах перед окончательным ответом.

При использовании моделей Qwen3 через vLLM ответы могут включать рассуждения:

Чтобы использовать Qwen3 с рассуждением:

Варианты моделей

Базовые модели

Модель
Параметры
VRAM (FP16)
Контекст
Примечания

Qwen2.5-0.5B

0.5B

2GB

32K

Edge/тестирование

Qwen2.5-1.5B

1.5B

4 ГБ

32K

Очень лёгкая

Qwen2.5-3B

3B

8GB

32K

Бюджетная

Qwen2.5-7B

7B

16GB

128K

Сбалансировано

Qwen2.5-14B

14B

32GB

128K

Высокое качество

Qwen2.5-32B

32B

70GB

128K

Очень высокое качество

Qwen2.5-72B

72B

150GB

128K

Лучшее качество

Qwen2.5-72B-Instruct

72B

150GB

128K

Настроена для чата/инструкций

Специализированные варианты

Модель
Фокус
Лучше всего для
VRAM (FP16)

Qwen2.5-Coder-7B-Instruct

Код

Программирование, отладка

16GB

Qwen2.5-Coder-14B-Instruct

Код

Сложные задачи с кодом

32GB

Qwen2.5-Coder-32B-Instruct

Код

Лучшая модель для кода

70GB

Qwen2.5-Math-7B-Instruct

Математика

Вычисления, доказательства

16GB

Qwen2.5-Math-72B-Instruct

Математика

Математика уровня исследований

150GB

Qwen2.5-Instruct

Чат

Общий ассистент

различается

Требования к аппаратному обеспечению

Модель
Минимальная GPU
Рекомендуется
VRAM (Q4)

0.5B-3B

RTX 3060 12GB

RTX 3080

2-6GB

7B

RTX 3090 24GB

RTX 4090

6 ГБ

14B

A100 40GB

A100 80GB

12GB

32B

A100 80GB

2x A100 40GB

22GB

72B

2x A100 80GB

4x A100 80GB

48GB

Coder-32B

A100 80GB

2x A100 40GB

22GB

Установка

Использование vLLM (рекомендуется)

Использование Ollama

Использование Transformers

Использование API

Совместимый с OpenAI API

Потоковая передача (Streaming)

cURL

Qwen2.5-72B-Instruct

Флагманская модель Qwen2.5 — самая большая и способная в семействе. Она сопоставима с GPT-4 по многим бенчмаркам и полностью открыта под лицензией Apache 2.0.

Запуск через vLLM (мульти-GPU)

Запуск через Ollama

Пример на Python

Qwen2.5-Coder-32B-Instruct

Лучшая доступная открытая модель для кода. Qwen2.5-Coder-32B-Instruct сопоставима или превосходит GPT-4o по многим тестам на кодирование, поддерживая более 40 языков программирования.

Запуск через vLLM

Запуск через Ollama

Примеры генерации кода

Qwen2.5-Coder

Оптимизировано для генерации кода:

Qwen2.5-Math

Специализирована для математического рассуждения:

Многоязычная поддержка

Qwen2.5 поддерживает 29 языков:

Длинный контекст (128K)

Квантование

GGUF с Ollama

AWQ с vLLM

GGUF с llama.cpp

Настройка Multi-GPU

Тензорный параллелизм

Производительность

Пропускная способность (токенов/сек)

Модель
RTX 3090
RTX 4090
A100 40GB
A100 80GB

Qwen2.5-0.5B

250

320

380

400

Qwen2.5-3B

150

200

250

280

Qwen2.5-7B

75

100

130

150

Qwen2.5-7B Q4

110

140

180

200

Qwen2.5-14B

-

55

70

85

Qwen2.5-32B

-

-

35

50

Qwen2.5-72B

-

-

20 (2x)

40 (2x)

Qwen2.5-72B Q4

-

-

-

55 (2x)

Qwen2.5-Coder-32B

-

-

32

48

Время до первого токена (TTFT)

Модель
RTX 4090
A100 40GB
A100 80GB

7B

60ms

40ms

35мс

14B

120ms

80 мс

60ms

32B

-

200ms

140ms

72B

-

400ms (2x)

280ms (2x)

Длина контекста vs VRAM (7B)

Контекст
FP16
Q8
Q4

8K

16GB

10GB

6 ГБ

32K

24 ГБ

16GB

10GB

64K

40GB

26 ГБ

16GB

128K

72GB

48GB

28 ГБ

Бенчмарки

Модель
MMLU
HumanEval
GSM8K
MATH
LiveCodeBench

Qwen2.5-7B

74.2%

75.6%

85.4%

55.2%

42.1%

Qwen2.5-14B

79.7%

81.1%

89.5%

65.8%

51.3%

Qwen2.5-32B

83.3%

84.2%

91.2%

72.1%

60.7%

Qwen2.5-72B

86.1%

86.2%

93.2%

79.5%

67.4%

Qwen2.5-Coder-7B

72.8%

88.4%

86.1%

58.4%

64.2%

Qwen2.5-Coder-32B

83.1%

92.7%

92.3%

76.8%

78.5%

Docker Compose

Оценка стоимости

Типичные расценки на маркетплейсе CLORE.AI:

GPU
Почасовая ставка
Лучше всего для

RTX 3090 24GB

~$0.06

Модели 7B

RTX 4090 24GB

~$0.10

Модели 7B-14B

A100 40GB

~$0.17

Модели 14B-32B

A100 80GB

~$0.25

Модели 32B, Coder-32B

2x A100 80GB

~$0.50

Модели 72B

4x A100 80GB

~$1.00

72B максимальный контекст

Цены варьируются в зависимости от провайдера. Проверьте CLORE.AI Marketplacearrow-up-right для текущих тарифов.

Экономьте деньги:

  • Используйте Spot рынок для гибких рабочих нагрузок

  • Платите с помощью CLORE токенов

  • Начните с меньших моделей (7B) для тестирования

Устранение неполадок

Недостаточно памяти

Медленная генерация

Отображение китайских символов

Модель не найдена

Qwen2.5 против других

Функция
Qwen2.5-7B
Qwen2.5-72B
Llama 3.1 70B
GPT-4o

Контекст

128K

128K

128K

128K

Мультиязычность

Отлично

Отлично

Хорошо

Отлично

Код

Отлично

Отлично

Хорошо

Отлично

Математика

Отлично

Отлично

Хорошо

Отлично

Китайский

Отлично

Отлично

Плохо

Хорошо

Лицензия

Apache 2.0

Apache 2.0

Llama 3.1

Проприетарный

Стоимость

Бесплатно

Бесплатно

Бесплатно

Платное API

Используйте Qwen2.5 когда:

  • Требуется поддержка китайского языка

  • Приоритет — математические/кодовые задачи

  • Требуется длинный контекст

  • Хотите лицензию Apache 2.0

  • Нужна лучшая открытая модель для кода (Coder-32B)

Дальнейшие шаги

  • vLLM - Производственное развертывание

  • Ollama - Простая локальная настройка

  • DeepSeek-V3 - Более крупная модель для рассуждений

  • DeepSeek-R1 - Открытая модель для рассуждений

  • Донастройка LLM - Пользовательская дообучение

Последнее обновление

Это было полезно?