Llama 3.3 70B

在 Clore.ai GPU 上运行 Meta 的 Llama 3.3 70B 模型

circle-info

有可用的更新版本! Meta 发布了 Llama 4 于 2025 年 4 月采用 MoE 架构发布 — Scout(17B 活跃,可在 RTX 4090 上运行)以极小的显存提供类似质量。考虑升级。

Meta 最新且最高效的 70B 模型,运行在 CLORE.AI GPU 上。

circle-check

为什么选择 Llama 3.3?

  • 最佳 70B 模型 - 以极低成本匹配 Llama 3.1 405B 的性能

  • 多语言 - 原生支持 8 种语言

  • 128K 上下文 - 长文档处理

  • 开放权重 - 商业使用免费

模型概览

规格
数值

参数量

70B

上下文长度

128K 标记

训练数据

15T+ 标记

语言

EN、DE、FR、IT、PT、HI、ES、TH

许可

Llama 3.3 社区许可

与其他模型的性能比较

基准
Llama 3.3 70B
Llama 3.1 405B
GPT-4o

MMLU

86.0

87.3

88.7

HumanEval

88.4

89.0

90.2

数学

77.0

73.8

76.6

多语言

91.1

91.6

-

GPU 要求

设置
显存
background = Image.open("studio_bg.jpg")
成本

Q4 量化

40GB

良好

A100 40GB(约 $0.17/小时)

Q8 量化

70GB

更好

A100 80GB(约 $0.25/小时)

FP16 全精度

140GB

最佳

2x A100 80GB(约 $0.50/小时)

推荐: 使用 Q4 量化的 A100 40GB 以获得最佳性价比。

在 CLORE.AI 上快速部署

使用 Ollama(最简单)

Docker 镜像:

端口:

部署后:

使用 vLLM(生产环境)

Docker 镜像:

端口:

命令:

访问您的服务

部署后,在以下位置查找您的 http_pub URL: 我的订单:

  1. 前往 我的订单 页面

  2. 单击您的订单

  3. 查找 http_pub URL(例如, abc123.clorecloud.net)

使用 https://YOUR_HTTP_PUB_URL 而不是 localhost 在下面的示例中。

安装方法

方法 1:Ollama(推荐用于测试)

API 用法:

方法 2:vLLM(生产)

API 使用(兼容 OpenAI):

方法 3:Transformers + bitsandbytes

方法 4:llama.cpp(CPU+GPU 混合)

基准测试

吞吐量(标记/秒)

GPU
Q4
Q8
FP16

按日费率

25-30

-

-

4 小时会话

35-40

25-30

-

2x A100 80GB

50-60

40-45

30-35

H100 80GB

60-70

45-50

35-40

首个标记时间(TTFT)

GPU
Q4
FP16

按日费率

0.8-1.2 秒

-

4 小时会话

0.6-0.9 秒

-

2x A100 80GB

0.4-0.6 秒

0.8-1.0 秒

上下文长度与显存

上下文
Q4 显存
Q8 显存

4K

38GB

72GB

8K

40GB

75GB

16K

44GB

80GB

32K

52GB

90GB

64K

68GB

110GB

128K

100GB

150GB

使用场景

代码生成

文档分析(长上下文)

多语种任务

推理与分析

优化建议

内存优化

速度优化

"专业影棚柔光箱"

与其他模型的比较

特性
Llama 3.3 70B
Llama 3.1 70B
Qwen 2.5 72B
Mixtral 8x22B

MMLU

86.0

83.6

85.3

77.8

编码

88.4

80.5

85.4

75.5

数学

77.0

68.0

80.0

60.0

上下文

128K

128K

128K

64K

语言

8

8

29

8

许可

打开

打开

打开

打开

结论: Llama 3.3 70B 在同类中提供最佳的整体性能,尤其在编码和推理任务上表现出色。

# 使用固定种子以获得一致结果

内存不足

首次响应较慢

  • 首次请求将模型加载到 GPU — 需等待 30-60 秒

  • 使用 --enable-prefix-caching 以加快随后的请求

  • 使用虚拟请求进行预热

Hugging Face 访问

下载所有所需的检查点

设置
GPU
$/小时
标记/$

预算型

A100 40GB(Q4)

~$0.17

~530K

平衡

A100 80GB(Q4)

~$0.25

~500K

background = Image.open("studio_bg.jpg")

2x A100 80GB

~$0.50

~360K

最大值

H100 80GB

~$0.50

~500K

使用以下方式支付

最后更新于

这有帮助吗?