Gemma 2

Эффективно запускайте модели Google Gemma 2 на GPU Clore.ai

circle-info

Доступна более новая версия! Google выпустил Gemma 3 в марте 2025 года — модель на 27B превосходит Llama 3.1 405B и добавляет встроенную мультимодальную поддержку. Рассмотрите возможность обновления.

Запускайте модели Gemma 2 от Google для эффективного инференса.

circle-check

Аренда на CLORE.AI

  1. Отфильтруйте по типу GPU, объему VRAM и цене

  2. Выберите On-Demand (фиксированная ставка) или Spot (цена по ставке)

  3. Настройте ваш заказ:

    • Выберите Docker-образ

    • Установите порты (TCP для SSH, HTTP для веб-интерфейсов)

    • Добавьте переменные окружения при необходимости

    • Введите команду запуска

  4. Выберите способ оплаты: CLORE, BTC, или USDT/USDC

  5. Создайте заказ и дождитесь развертывания

Доступ к вашему серверу

  • Найдите данные для подключения в Моих заказах

  • Веб-интерфейсы: используйте URL HTTP-порта

  • SSH: ssh -p <port> root@<proxy-address>

Что такое Gemma 2?

Gemma 2 от Google предлагает:

  • Модели от 2B до 27B параметров

  • Отличная производительность относительно размера

  • Сильное следование инструкциям

  • Эффективная архитектура

Варианты моделей

Модель
Параметры
VRAM
Контекст

Gemma-2-2B

2B

3GB

8K

Gemma-2-9B

9B

12GB

8K

Gemma-2-27B

27B

32GB

8K

Быстрое развертывание

Docker-образ:

Порты:

Команда:

Доступ к вашему сервису

После развертывания найдите ваш http_pub URL в Моих заказах:

  1. Перейдите на Моих заказах страницу

  2. Нажмите на ваш заказ

  3. Найдите http_pub URL (например, abc123.clorecloud.net)

Используйте https://YOUR_HTTP_PUB_URL вместо localhost в примерах ниже.

Использование Ollama

Установка

Базовое использование

Gemma 2 2B (Лёгкая)

Для развертывания на edge/мобильных устройствах:

Gemma 2 27B (Лучшее качество)

vLLM Сервер

Совместимый с OpenAI API

Потоковая передача (Streaming)

Интерфейс Gradio

Пакетная обработка

Производительность

Модель
GPU
Токенов/с

Gemma-2-2B

RTX 3060

~100

Gemma-2-9B

RTX 3090

~60

Gemma-2-9B

RTX 4090

~85

Gemma-2-27B

A100

~45

Gemma-2-27B (4-бит)

RTX 4090

~30

Сравнение

Модель
MMLU
Качество
Скорость

Gemma-2-9B

71.3%

Отлично

Быстро

Llama-3.1-8B

69.4%

Хорошо

Быстро

Mistral-7B

62.5%

Хорошо

Быстро

Устранение неполадок

triangle-exclamation

для 27B — используйте 4-битную квантование с BitsAndBytesConfig - уменьшите `max_new_tokens` - очистите кэш GPU: `torch.cuda.empty_cache()`

Медленная генерация

  • Используйте vLLM для продакшен-развёртывания

  • Включите Flash Attention

  • Попробуйте модель 9B для более быстрого инференса

Проблемы с качеством вывода

  • Используйте версию, настроенную под инструкции (-it суффикс)

  • Отрегулируйте температуру (рекомендуется 0.7–0.9)

  • Добавьте системный промпт для контекста

Предупреждения токенизатора

  • Обновите transformers до последней версии

  • Используйте padding_side="left" для пакетного инференса

Оценка стоимости

Типичные ставки на маркетплейсе CLORE.AI (по состоянию на 2024):

GPU
Почасовая ставка
Дневная ставка
Сессия 4 часа

RTX 3060

~$0.03

~$0.70

~$0.12

RTX 3090

~$0.06

~$1.50

~$0.25

RTX 4090

~$0.10

~$2.30

~$0.40

A100 40GB

~$0.17

~$4.00

~$0.70

A100 80GB

~$0.25

~$6.00

~$1.00

Цены варьируются в зависимости от провайдера и спроса. Проверьте CLORE.AI Marketplacearrow-up-right для текущих тарифов.

Экономьте деньги:

  • Используйте Spot рынок для гибких рабочих нагрузок (часто на 30–50% дешевле)

  • Платите с помощью CLORE токенов

  • Сравнивайте цены у разных провайдеров

Дальнейшие шаги

  • Llama 3.2 — модель от Meta

  • Qwen2.5 - модель Alibaba

  • vLLM Inference - Продакшен-сервинг

Последнее обновление

Это было полезно?