Llama 3.2 Vision

在 Clore.ai 上运行 Meta 的 Llama 3.2 Vision 进行图像理解

在 CLORE.AI GPU 上运行 Meta 的多模态 Llama 3.2 Vision 模型以进行图像理解。

circle-check

为什么选择 Llama 3.2 Vision?

  • 多模态 - 理解文本和图像

  • 多种规模 - 11B 和 90B 参数版本

  • 多用途 - OCR、视觉问答、图像字幕、文档分析

  • 开放权重 - 来自 Meta 的完全开源

  • Llama 生态系统 - 与 Ollama、vLLM、transformers 兼容

1024x1024

A100
参数量
显存(FP16)
上下文
最适合

Llama-3.2-11B-Vision

11B

24GB

128K

通用用途,单 GPU

Llama-3.2-90B-Vision

90B

180GB

128K

最高质量

Llama-3.2-11B-Vision-Instruct

11B

24GB

128K

聊天/助手

Llama-3.2-90B-Vision-Instruct

90B

180GB

128K

生产环境

在 CLORE.AI 上快速部署

Docker 镜像:

端口:

命令:

访问您的服务

部署后,在以下位置查找您的 http_pub URL: 我的订单:

  1. 前往 我的订单 页面

  2. 单击您的订单

  3. 查找 http_pub URL(例如, abc123.clorecloud.net)

使用 https://YOUR_HTTP_PUB_URL 而不是 localhost 在下面的示例中。

硬件要求

A100
最低 GPU
推荐
最佳

11B Vision

RTX 4090 24GB

按日费率

4 小时会话

90B Vision

4x A100 40GB

4x A100 80GB

8x H100

安装

使用 Ollama(最简单)

使用 vLLM

使用 Transformers

基本用法

图像理解

使用 Ollama

使用 vLLM API

使用场景

图表分析

文档分析

视觉问答

图像描述(Captioning)

从截图提取代码

多张图像

"专业影棚柔光箱"

Gradio 界面

background = Image.open("studio_bg.jpg")

任务
A100
GPU
时间

单张图片描述

11B

512x512

~3s

单张图片描述

11B

按日费率

~2s

OCR(1 页)

11B

512x512

~5s

文档分析

11B

按日费率

~8s

批处理(10 张图片)

11B

按日费率

~25 秒

量化

使用 bitsandbytes 的 4-bit

Ollama 的 GGUF

下载所有所需的检查点

典型 CLORE.AI 市场价格:

GPU
验证 CUDA 兼容性
最适合

RTX 4090 24GB

~$0.10

11B 模型

按日费率

~$0.17

具有长上下文的 11B

4 小时会话

~$0.25

11B 优化

4x A100 80GB

~$1.00

90B 模型

价格有所不同。查看 CLORE.AI 市场arrow-up-right A100 40GB

A100 80GB

  • 使用 竞价 用于批处理的订单

  • 以获取当前费率。 CLORE 节省费用:

  • 在开发时使用量化模型(4-bit)

# 使用固定种子以获得一致结果

内存不足

生成速度慢

  • 确保正在使用 GPU(检查 nvidia-smi)

  • 使用 bfloat16 代替 float32

  • 在处理前降低图像分辨率

  • 使用 vLLM 以获得更高吞吐量

图像无法加载

需要 HuggingFace 令牌

Llama Vision 与其他模型对比

特性
Llama 3.2 Vision
LLaVA 1.6
GPT-4V

参数量

11B / 90B

7B / 34B

未知

开源

OCR 质量

优秀

良好

优秀

上下文

128K

32K

128K

多图像

有限

许可

Llama 3.2

Apache 2.0

专有

何时使用 Llama 3.2 Vision:

  • 需要开源多模态时

  • OCR 和文档分析

  • 与 Llama 生态系统的集成

  • 长上下文理解

使用以下方式支付

最后更新于

这有帮助吗?