Gemma 3

Запускайте мультимодальные модели Google Gemma 3 на Clore.ai — превосходит Llama-405B при в 15 раз меньшем размере

Gemma 3, выпущенная в марте 2025 года Google DeepMind, построена на той же технологии, что и Gemini 2.0. Её выдающееся достижение: модель 27B обходит Llama 3.1 405B в бенчмарках LMArena — модель в 15 раз большего размера. Она изначально мультимодальна (текст + изображения + видео), поддерживает контекст 128K и запускается на одном RTX 4090 с квантованием.

Ключевые особенности

  • Намного мощнее своего веса: 27B опережает модели класса 405B в основных бенчмарках

  • Нативно мультимодальна: Встроенное понимание текста, изображений и видео

  • Окно контекста 128K: Обрабатывает длинные документы, кодовые базы, беседы

  • Четыре размера: 1B, 4B, 12B, 27B — на любой бюджет GPU

  • Версии QAT: Варианты с Quantization-Aware Training позволяют запускать 27B на потребительских GPU

  • Широкая поддержка фреймворков: Ollama, vLLM, Transformers, Keras, JAX, PyTorch

Варианты моделей

Модель
Параметры
VRAM (Q4)
VRAM (FP16)
Лучше всего для

Gemma 3 1B

1B

1.5ГБ

3GB

Edge, мобильные устройства, тестирование

Gemma 3 4B

4B

4 ГБ

9 ГБ

Бюджетные GPU, быстрые задачи

Gemma 3 12B

12B

10GB

25ГБ

Сбалансированное качество/скорость

Gemma 3 27B

27B

18GB

54ГБ

Лучшее качество, продакшен

Gemma 3 27B QAT

27B

14GB

Оптимизирована для потребительских GPU

Требования

Компонент
Gemma 3 4B
Gemma 3 27B (Q4)
Gemma 3 27B (FP16)

GPU

RTX 3060

RTX 4090

2× RTX 4090 / A100

VRAM

6 ГБ

24 ГБ

48ГБ+

ОЗУ

16GB

32GB

64GB

Диск

10GB

25ГБ

55ГБ

CUDA

11.8+

11.8+

12.0+

Рекомендуемый GPU на Clore.ai: RTX 4090 24ГБ (~$0.5–2/день) для 27B в квантизованном виде — идеальный вариант

Быстрый старт с Ollama

Ollama API Server

Визуальные возможности с Ollama

Настройка vLLM (Production)

HuggingFace Transformers

Генерация текста

Видение (понимание изображений)

Быстрый старт с Docker

Основные моменты бенчмарков

Бенчмарк
Gemma 3 27B
Llama 3.1 70B
Llama 3.1 405B

LMArena ELO

1354

1298

1337

MMLU

75.6

79.3

85.2

HumanEval

72.0

72.6

80.5

VRAM (Q4)

18GB

40GB

200ГБ+

Стоимость на Clore

$0.5–2/день

$3–6/день

$12–24/день

Модель 27B обеспечивает качество разговорного интеллекта класса 405B при 1/10 затрат VRAM.

Советы для пользователей Clore.ai

  • 27B QAT — оптимальный вариант: Quantization-Aware Training означает меньше потери качества по сравнению с пост-тренировочным квантованием — запускайте на одном RTX 4090

  • Визуальные возможности бесплатны: Дополнительная настройка не требуется — Gemma 3 изначально понимает изображения. Отлично подходит для разбора документов, анализа скриншотов, чтения графиков

  • Начните с короткого контекста: Используйте --max-model-len 8192 первоначально; увеличивайте только при необходимости, чтобы экономить VRAM

  • 4B для бюджетных запусков: Если у вас RTX 3060/3070 ($0.15–0.3/день), модель 4B все ещё превосходит прошлое поколение 27B-моделей

  • Аутентификация Google не требуется: В отличие от некоторых моделей, Gemma 3 скачивается без ограничений (просто примите лицензию на HuggingFace)

Устранение неполадок

Проблема
Решение

OutOfMemoryError на 27B

Используйте версию QAT или уменьшите --max-model-len до 4096

Визуальные возможности не работают в Ollama

Обновите Ollama до последней версии: curl -fsSL https://ollama.com/install.sh | sh

Медленная генерация

Проверьте, что вы используете bfloat16, а не float32. Используйте --dtype bfloat16

Модель генерирует мусор

Убедитесь, что вы используете -it (instruct-tuned) вариант, а не базовую модель

Ошибка 403 при загрузке

Примите лицензию Gemma по адресу https://huggingface.co/google/gemma-3-27b-it

Дополнительное чтение

Последнее обновление

Это было полезно?