Gemma 3

在 Clore.ai 上运行 Google Gemma 3 多模态模型——性能优于 Llama-405B,模型体积小 15 倍

Gemma 3,由 Google DeepMind 于 2025 年 3 月发布,构建在与 Gemini 2.0 相同的技术之上。其突出成就: 该 27B 模型在 LMArena 基准上击败了 Llama 3.1 405B ——一个体量是它 15 倍的模型。它原生支持多模态(文本 + 图像 + 视频),支持 128K 上下文,并通过量化在单张 RTX 4090 上运行。

主要特性

  • 以小博大:27B 在主要基准上胜过 405B 级别的模型

  • 原生多模态:内置文本、图像和视频理解能力

  • 128K 上下文窗口:可处理长文档、代码库、对话

  • 四个规模:1B、4B、12B、27B——适合各种 GPU 预算

  • QAT 版本:量化感知训练(Quantization-Aware Training)变体让 27B 能在消费级 GPU 上运行

  • 广泛的框架支持:Ollama、vLLM、Transformers、Keras、JAX、PyTorch

1024x1024

A100
参数量
显存(Q4)
显存(FP16)
最适合

Gemma 3 1B

1B

1.5GB

3GB

边缘、移动、测试

Gemma 3 4B

4B

4GB

9GB

预算型 GPU、快速任务

Gemma 3 12B

12B

10GB

25GB

质量/速度平衡

Gemma 3 27B

27B

18GB

54GB

最佳质量、生产环境

Gemma 3 27B QAT

27B

14GB

为消费级 GPU 优化

要求

组件
Gemma 3 4B
Gemma 3 27B(Q4)
Gemma 3 27B(FP16)

GPU

按小时费率

512x512

2× RTX 4090 / A100

显存

6GB

24GB

48GB+

内存

16GB

32GB

64GB

磁盘

10GB

25GB

55GB

CUDA

11.8+

11.8+

12.0+

推荐的 Clore.ai GPU:对 27B 量化模型来说,RTX 4090 24GB(约 $0.5–2/天)是性价比最佳点

使用 Ollama 快速入门

Ollama API 服务

使用 Ollama 的视觉能力

vLLM 设置(用于生产)

HuggingFace Transformers

文本生成

视觉(图像理解)

Docker 快速开始

基准要点

基准
Gemma 3 27B
Llama 3.1 70B
Llama 3.1 405B

LMArena ELO

1354

1298

1337

MMLU

75.6

79.3

85.2

HumanEval

72.0

72.6

80.5

显存(Q4)

18GB

40GB

200GB+

在 Clore 上的成本

$0.5–2/天

$3–6/天

$12–24/天

该 27B 在显存成本上以十分之一的代价提供了与 405B 级别相当的会话质量。

给 Clore.ai 用户的提示

  • 27B QAT 是最佳选择:量化感知训练相比训练后量化导致的质量损失更小——可在单张 RTX 4090 上运行

  • 视觉功能是免费的:无需额外设置——Gemma 3 原生理解图像。非常适合文档解析、截图分析、图表读取

  • 从短上下文开始:使用 --max-model-len 8192 最初如此;仅在需要时增加以节省显存

  • 预算运行选 4B:如果你使用 RTX 3060/3070($0.15–0.3/天),4B 模型仍然优于上一代的 27B 模型

  • 无需 Google 认证:与某些模型不同,Gemma 3 无需门槛即可下载(只需在 HuggingFace 上接受许可)

# 使用固定种子以获得一致结果

问题
解决方案

OutOfMemoryError 在 27B 上

使用 QAT 版本或将其减小 --max-model-len 到 4096

Ollama 中视觉无法工作

将 Ollama 更新到最新: curl -fsSL https://ollama.com/install.sh | sh

生成速度慢

检查你是否使用 bfloat16 而不是 float32。使用 --dtype bfloat16

模型输出垃圾内容

确保你使用的是 -it (经过指令微调的)变体,而不是基础模型

下载 403 错误

在 https://huggingface.co/google/gemma-3-27b-it 接受 Gemma 许可

延伸阅读

最后更新于

这有帮助吗?