Qwen2.5
Запускайте многоязычные LLM Qwen2.5 от Alibaba на GPU Clore.ai
Почему Qwen2.5?
Быстрое развертывание на CLORE.AI
vllm/vllm-openai:latest22/tcp
8000/httppython -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen2.5-7B-Instruct \
--host 0.0.0.0 \
--port 8000Доступ к вашему сервису
Проверьте, что всё работает
Режим рассуждения Qwen3
Варианты моделей
Базовые модели
Модель
Параметры
VRAM (FP16)
Контекст
Примечания
Специализированные варианты
Модель
Фокус
Лучше всего для
VRAM (FP16)
Требования к аппаратному обеспечению
Модель
Минимальная GPU
Рекомендуется
VRAM (Q4)
Установка
Использование vLLM (рекомендуется)
Использование Ollama
Использование Transformers
Использование API
Совместимый с OpenAI API
Потоковая передача (Streaming)
cURL
Qwen2.5-72B-Instruct
Запуск через vLLM (мульти-GPU)
Запуск через Ollama
Пример на Python
Qwen2.5-Coder-32B-Instruct
Запуск через vLLM
Запуск через Ollama
Примеры генерации кода
Qwen2.5-Coder
Qwen2.5-Math
Многоязычная поддержка
Длинный контекст (128K)
Квантование
GGUF с Ollama
AWQ с vLLM
GGUF с llama.cpp
Настройка Multi-GPU
Тензорный параллелизм
Производительность
Пропускная способность (токенов/сек)
Модель
RTX 3090
RTX 4090
A100 40GB
A100 80GB
Время до первого токена (TTFT)
Модель
RTX 4090
A100 40GB
A100 80GB
Длина контекста vs VRAM (7B)
Контекст
FP16
Q8
Q4
Бенчмарки
Модель
MMLU
HumanEval
GSM8K
MATH
LiveCodeBench
Docker Compose
Оценка стоимости
GPU
Почасовая ставка
Лучше всего для
Устранение неполадок
Недостаточно памяти
Медленная генерация
Отображение китайских символов
Модель не найдена
Qwen2.5 против других
Функция
Qwen2.5-7B
Qwen2.5-72B
Llama 3.1 70B
GPT-4o
Дальнейшие шаги
Последнее обновление
Это было полезно?