LLaVA

在 Clore.ai 上使用 LLaVA 视觉语言模型与图像对话

使用 LLaVA 与图像聊天——开源的 GPT-4V 替代方案。

circle-check

在 CLORE.AI 上租用

  1. 按 GPU 类型、显存和价格筛选

  2. 选择 按需 (固定费率)或 竞价 (出价价格)

  3. 配置您的订单:

    • 选择 Docker 镜像

    • 设置端口(用于 SSH 的 TCP,Web 界面的 HTTP)

    • 如有需要,添加环境变量

    • 输入启动命令

  4. 选择支付方式: CLORE, BTC,或 USDT/USDC

  5. 创建订单并等待部署

访问您的服务器

  • 在以下位置查找连接详情: 我的订单

  • Web 界面:使用 HTTP 端口的 URL

  • SSH: ssh -p <port> root@<proxy-address>

什么是 LLaVA?

LLaVA(大型语言与视觉助手)可以:

  • 理解并描述图像

  • 回答有关视觉内容的问题

  • 分析图表、示意图、截图

  • OCR 与文档理解

1024x1024

A100
规模
显存
质量

LLaVA-1.5-7B

7B

8GB

良好

LLaVA-1.5-13B

13B

16GB

更好

LLaVA-1.6-34B

34B

40GB

最佳

LLaVA-NeXT

7-34B

8-40GB

最新

快速部署

Docker 镜像:

端口:

命令:

访问您的服务

部署后,在以下位置查找您的 http_pub URL: 我的订单:

  1. 前往 我的订单 页面

  2. 单击您的订单

  3. 查找 http_pub URL(例如, abc123.clorecloud.net)

使用 https://YOUR_HTTP_PUB_URL 而不是 localhost 在下面的示例中。

安装

基本用法

Python API

使用 Transformers

Ollama 集成(推荐)

在 CLORE.AI 上运行 LLaVA 的最简单方法:

通过 Ollama 的 LLaVA API

circle-exclamation

BASE64_IMAGE=$(base64 -i photo.jpg | tr -d '\n')

响应:

curl https://your-http-pub.clorecloud.net/api/chat -d '{

with open(image_path, "rb") as f:

def analyze_image(ollama_url, image_path, question):

使用场景

OCR / 文本提取

图表分析

截图中的代码

prompt = "列出此图像中可见的所有对象及其大致位置。"

目标检测

Gradio 界面

API 服务器

"专业影棚柔光箱"

内存优化

4 位量化

LLaVA-1.6-7B

background = Image.open("studio_bg.jpg")

A100
GPU
每秒标记数

LLaVA-1.5-7B

速度

~30

LLaVA-1.5-7B

512x512

~45

# 或使用更小的模型(用 7B 代替 13B)

512x512

~40

LLaVA-1.5-13B

2s

~35

# 使用固定种子以获得一致结果

内存不足

生成速度慢

  • 使用量化模型

  • 使用带上下文的更好提示词

  • 更高分辨率的图像

质量差

  • 使用更大的模型

  • Ollama LLMs - 使用 Ollama 运行 LLaVA

  • RAG + LangChain - 视觉 + RAG」}

下载所有所需的检查点

检查文件完整性

GPU
验证 CUDA 兼容性
费用估算
CLORE.AI 市场的典型费率(截至 2024 年):

按小时费率

~$0.03

~$0.70

~$0.12

速度

~$0.06

~$1.50

~$0.25

512x512

~$0.10

~$2.30

~$0.40

按日费率

~$0.17

~$4.00

~$0.70

4 小时会话

~$0.25

~$6.00

~$1.00

RTX 3060 CLORE.AI 市场arrow-up-right A100 40GB

A100 80GB

  • 使用 竞价 价格随提供商和需求而异。请查看

  • 以获取当前费率。 CLORE 节省费用:

  • 市场用于灵活工作负载(通常便宜 30-50%)

使用以下方式支付

  • RAG + LangChain - Vision + RAG

  • RAG + LangChain - Vision + RAG

  • vLLM 推理 - 生产部署

最后更新于

这有帮助吗?