Continue.dev AI 编码

在 Clore.ai GPU 上为 Continue.dev 提供算力 —— 在廉价 GPU 租赁上本地运行 CodeLlama 34B、DeepSeek Coder 和 Qwen2.5-Coder,为私有 AI 编码提供支持。

Continue.dev 是一个面向 VS Code 和 JetBrains 的开源 AI 编码助手,在 GitHub 上拥有 25K+ 星。该 扩展在你的本地机器上运行 (或在你的 IDE 中),但它会连接到后端模型服务器以进行推理。通过将 Continue.dev 指向从 Clore.ai 租用的强大 GPU,你将获得:

  • 顶级的编码模型 (34B+ 参数)无法放入你的笔记本电脑

  • 完全隐私 — 代码保留在你控制的基础设施上

  • 灵活的费用 — 仅在编码时付费(约 $0.20–0.50/小时 vs. Copilot $19/月)

  • 兼容 OpenAI 的 API — Continue.dev 无缝连接 Ollama、vLLM 或 TabbyML

本指南侧重于设置 Clore.ai GPU 后端 (Ollama 或 vLLM),你的本地 Continue.dev 扩展将连接到该后端。

circle-check
circle-info

架构:你的 IDE(带 Continue.dev 扩展)→ 互联网 → Clore.ai GPU 服务器(运行 Ollama / vLLM / TabbyML)→ 本地模型推理。代码永远不会接触第三方 API。

概览

属性
详细信息

许可

Apache 2.0

GitHub 星标

2.5 万+

IDE 支持

VS Code、JetBrains(IntelliJ、PyCharm、WebStorm、GoLand 等)

配置文件

~/.continue/config.json

后端选项

Ollama、vLLM、TabbyML、LM Studio、llama.cpp、兼容 OpenAI 的 API

难度

简单(安装扩展)/ 中等(自托管后端)

是否需要 GPU?

在 Clore.ai 服务器上(是);在你的笔记本上(否)

主要特性

自动补全、聊天、编辑模式、代码库上下文(RAG)、自定义斜杠命令

推荐的编码模型

A100
显存
优势
注意事项

codellama:7b

~6 GB

快速自动补全

良好的起点

codellama:13b

~10 GB

平衡

在自动补全方面质量/速度最佳

codellama:34b

~22 GB

CodeLlama 最佳质量

需要 RTX 3090 / A100

deepseek-coder:6.7b

~5 GB

Python/JS 专家型模型

非常适合 Web 开发

deepseek-coder:33b

~22 GB

顶级开源模型

在代码方面可与 GPT-4 匹敌

qwen2.5-coder:7b

~6 GB

多语言代码支持

对 40+ 语言表现强劲

qwen2.5-coder:32b

~22 GB

最先进

2024 年最佳开源编码模型

starcoder2:15b

~12 GB

代码补全专家

支持 FIM(fill-in-the-middle)

要求

Clore.ai 服务器要求

方案
GPU
显存
内存
磁盘
价格
模型

预算型

按小时费率

12 GB

16 GB

40 GB

约 $0.10/小时

CodeLlama 7B、DeepSeek 6.7B、Qwen2.5-Coder 7B

推荐

速度

24 GB

32 GB

80 GB

~$0.20/小时

CodeLlama 34B、DeepSeek 33B、Qwen2.5-Coder 32B

background = Image.open("studio_bg.jpg")

512x512

24 GB

32 GB

80 GB

~$0.35/小时

与上面相同的模型,但推理更快

算力

按日费率

40 GB

64 GB

120 GB

约 $0.60/小时

可同时运行多个 34B 模型

最大值

4 小时会话

80 GB

80 GB

200 GB

~$1.10/小时

70B 模型(CodeLlama 70B)

本地要求(你的机器)

  • VS Code 或任意 JetBrains IDE

  • 已安装 Continue.dev 扩展

  • 与 Clore.ai 服务器的稳定互联网连接

  • 不需要本地 GPU — 所有推理均在 Clore.ai 上进行

快速开始

第 1 部分:设置 Clore.ai 后端

选项 A — Ollama 后端(推荐大多数用户)

Ollama 是 Continue.dev 最简单的后端——设置简单、优秀的模型管理、兼容 OpenAI API。

要将 Ollama 暴露到外部(以便你的本地 IDE 可以连接):

circle-exclamation

选项 B — vLLM 后端(高吞吐 / 兼容 OpenAI)

vLLM 提供更快的推理和多用户支持。若多名开发者共享一台 Clore.ai 服务器,vLLM 非常理想。

选项 C — TabbyML 后端(FIM 自动补全专家)

TabbyML 在填充中间(FIM)自动补全方面表现更优——即行内的幽灵文本建议。参见 TabbyML 指南arrow-up-right 以获取完整的设置细节。

第 2 部分:安装 Continue.dev 扩展

VS Code:

  1. 打开扩展面板(Ctrl+Shift+X / Cmd+Shift+X)

  2. 搜索 "Continue" — 安装 Continue 官方扩展(continuedev)

  3. 点击侧边栏的 Continue 图标(或 Ctrl+Shift+I)

JetBrains(IntelliJ、PyCharm、WebStorm、GoLand):

  1. File → Settings → Plugins → Marketplace

  2. 搜索 "Continue" 并安装

  3. 重启 IDE;Continue 面板会出现在右侧边栏

第 3 部分:配置 Continue.dev 使用 Clore.ai

编辑 ~/.continue/config.json 在你的 本地机器上:

用于 使用 vLLM 后端 而不是 Ollama:

用于 TabbyML 后端 (仅自动补全):

配置

SSH 隧道设置(安全远程访问)

不要公开暴露端口,而是从本地机器使用 SSH 隧道:

使用 autossh 实现持久隧道

为不同任务加载多个模型

对于 RTX 3090(24 GB),你可以同时运行一个大型聊天模型和一个小型自动补全模型:

代码库索引(为你的仓库的 RAG)

Continue.dev 可以为上下文感知建议索引你的代码库。拉取一个嵌入模型:

GPU 加速

监控推理性能

按 GPU 预期性能

GPU
A100
上下文
每秒令牌(大约)

RTX 3060 12GB

CodeLlama 7B

8K

约 ~40–60 t/s

RTX 3060 12GB

DeepSeek-Coder 6.7B

8K

约 ~45–65 t/s

RTX 3090 24GB

Qwen2.5-Coder 32B(Q4)

16K

约 ~15–25 t/s

RTX 3090 24GB

DeepSeek-Coder 33B(Q4)

16K

约 ~15–22 t/s

RTX 4090 24GB

Qwen2.5-Coder 32B(Q4)

16K

约 ~25–40 t/s

按日费率

Qwen2.5-Coder 32B(FP16)

32K

约 ~35–50 t/s

4 小时会话

CodeLlama 70B(Q4)

32K

约 ~20–30 t/s

对于自动补全(填充中间), starcoder2:3bcodellama:7b 可达到 50–100 t/s —— 在 IDE 中足够快速,感觉是即时的。

为更好的性能调整 Ollama

提示与最佳实践

为不同任务使用不同模型

在 Continue.dev 中为每种任务类型配置专用模型——UI 允许你在对话中途切换模型:

成本对比

解决方案
每月费用(每天使用 8 小时)
隐私
模型质量

GitHub Copilot

$19/用户/月

❌ Microsoft 云

GPT-4o(闭源)

Cursor Pro

$20/用户/月

❌ Cursor 云

Claude 3.5(闭源)

Clore.ai 上的 RTX 3060

约 ~$24/月

✅ 你的服务器

CodeLlama 13B

Clore.ai 上的 RTX 3090

约 ~$48/月

✅ 你的服务器

Qwen2.5-Coder 32B

Clore.ai 上的 RTX 4090

约 ~$84/月

✅ 你的服务器

Qwen2.5-Coder 32B

Clore.ai 上的 A100 80GB

约 ~$264/月

✅ 你的服务器

CodeLlama 70B

对于 3 人以上共享一台 Clore.ai RTX 3090(约 $48/月 总费用)的团队,每用户成本比 Copilot 更低,同时提供更大且私有的模型。

不编码时关闭

Clore.ai 按小时计费。使用简单脚本启动/停止服务器:

使用 Continue.dev 自定义命令

将自定义斜杠命令添加到 config.json 以用于常见的编码工作流程:

# 使用固定种子以获得一致结果

问题
可能原因
解决方案

Continue.dev 显示 “Connection refused”

无法访问 Ollama

检查 SSH 隧道是否处于活动状态;验证 curl http://localhost:11434/ 工作正常

自动补全未触发

选项卡自动补全模型未设置

添加 tabAutocompleteModel 到 config.json;在 Continue 设置中启用

响应非常慢(首次令牌 >30s)

模型正在从磁盘加载

首次请求会将模型加载到 VRAM —— 后续请求会很快

“未找到模型” 错误

模型未拉取

运行 docker exec ollama ollama pull <model-name> 在 Clore.ai 服务器上

令牌间高延迟

网络延迟或模型过大

使用 SSH 隧道;切换到更小的模型;检查服务器 GPU 利用率

代码库上下文不起作用

缺少嵌入模型

拉取 nomic-embed-text 通过 Ollama;检查 embeddingsProvider 在 config.json 中

SSH 隧道经常断开

连接不稳定

使用 autossh 用于持久重连;添加 ServerAliveInterval 30

上下文窗口超出限制

长文件/对话

减少 contextLength 在 config.json 中;使用具有更长上下文的模型

JetBrains 插件未加载

IDE 版本不兼容

将 JetBrains IDE 更新到最新;检查 Continue.dev 插件兼容矩阵

vLLM 在加载时 OOM(内存不足)

显存不足

添加 --gpu-memory-utilization 0.85;使用更小的模型或量化版本

调试命令

Continue.dev 配置验证

延伸阅读

最后更新于

这有帮助吗?