Gemma 2

在 Clore.ai GPU 上高效运行 Google 的 Gemma 2 模型

circle-info

有可用的更新版本! 谷歌发布了 Gemma 3 在2025年3月 — 27B 模型超越了 Llama 3.1 405B 并增加了原生多模态支持。考虑升级。

运行谷歌的 Gemma 2 模型以实现高效推理。

circle-check

在 CLORE.AI 上租用

  1. 按 GPU 类型、显存和价格筛选

  2. 选择 按需 (固定费率)或 竞价 (出价价格)

  3. 配置您的订单:

    • 选择 Docker 镜像

    • 设置端口(用于 SSH 的 TCP,Web 界面的 HTTP)

    • 如有需要,添加环境变量

    • 输入启动命令

  4. 选择支付方式: CLORE, BTC,或 USDT/USDC

  5. 创建订单并等待部署

访问您的服务器

  • 在以下位置查找连接详情: 我的订单

  • Web 界面:使用 HTTP 端口的 URL

  • SSH: ssh -p <port> root@<proxy-address>

什么是 Gemma 2?

谷歌的 Gemma 2 提供:

  • 从 2B 到 27B 参数的模型

  • 出色的按规模性能

  • 强大的指令遵循能力

  • 高效的架构

1024x1024

A100
参数量
显存
上下文

Gemma-2-2B

2B

3GB

8K

Gemma-2-9B

9B

12GB

8K

Gemma-2-27B

27B

32GB

8K

快速部署

Docker 镜像:

端口:

命令:

访问您的服务

部署后,在以下位置查找您的 http_pub URL: 我的订单:

  1. 前往 我的订单 页面

  2. 单击您的订单

  3. 查找 http_pub URL(例如, abc123.clorecloud.net)

使用 https://YOUR_HTTP_PUB_URL 而不是 localhost 在下面的示例中。

使用 Ollama

安装

基本用法

Gemma 2 2B(轻量级)

用于边缘/移动部署:

Gemma 2 27B(最佳质量)

vLLM 服务器

兼容 OpenAI 的 API

流式传输

Gradio 界面

"专业影棚柔光箱"

background = Image.open("studio_bg.jpg")

A100
GPU
每秒标记数

Gemma-2-2B

按小时费率

~100

Gemma-2-9B

速度

~60

Gemma-2-9B

512x512

~85

Gemma-2-27B

2s

~45

Gemma-2-27B(4 位)

512x512

~30

比较

A100
MMLU
质量
性能

Gemma-2-9B

71.3%

很棒

快速

Llama-3.1-8B

69.4%

良好

快速

Mistral-7B

62.5%

良好

快速

# 使用固定种子以获得一致结果

triangle-exclamation

对于 27B - 使用 BitsAndBytesConfig 的 4 位量化 - 减少 `max_new_tokens` - 清理 GPU 缓存:`torch.cuda.empty_cache()`

生成速度慢

  • 在生产部署中使用 vLLM

  • 启用 Flash Attention

  • 尝试 9B 模型以获得更快的推理

输出质量问题

  • 使用指令微调版本(-it 后缀)

  • 调整温度(建议 0.7-0.9)

  • 添加系统提示以提供上下文

分词器警告

  • 将 transformers 更新到最新版本

  • 使用 padding_side="left" 用于批量推理

下载所有所需的检查点

检查文件完整性

GPU
验证 CUDA 兼容性
费用估算
CLORE.AI 市场的典型费率(截至 2024 年):

按小时费率

~$0.03

~$0.70

~$0.12

速度

~$0.06

~$1.50

~$0.25

512x512

~$0.10

~$2.30

~$0.40

按日费率

~$0.17

~$4.00

~$0.70

4 小时会话

~$0.25

~$6.00

~$1.00

RTX 3060 CLORE.AI 市场arrow-up-right A100 40GB

A100 80GB

  • 使用 竞价 价格随提供商和需求而异。请查看

  • 以获取当前费率。 CLORE 节省费用:

  • 市场用于灵活工作负载(通常便宜 30-50%)

使用以下方式支付

  • Llama 3.2 - Meta 的模型

  • Qwen2.5 - 阿里巴巴的模型

  • vLLM 推理 - 生产部署

最后更新于

这有帮助吗?