Continue.dev AI 编码

使用 Clore.ai 的 GPU 强化 Continue.dev——在廉价 GPU 租用上本地运行 CodeLlama 34B、DeepSeek Coder 和 Qwen2.5-Coder,用于私有 AI 编码辅助。

Continue.dev 是一个用于 VS Code 和 JetBrains 的开源 AI 编码助手,拥有 25K+ GitHub 星标。该 扩展在你的本地机器上运行 (或在你的 IDE 中),但它会连接到后端模型服务器进行推理。通过将 Continue.dev 指向从 Clore.ai 租用的强大 GPU,你将获得:

  • 顶级编码模型 (34B+ 参数)无法放在你的笔记本上

  • 完全隐私 — 代码保留在你控制的基础设施上

  • 灵活费用 — 仅在你编码时付费(约 $0.20–0.50/小时 vs. Copilot 每月 $19)

  • 兼容 OpenAI 的 API — Continue.dev 可无缝连接到 Ollama、vLLM 或 TabbyML

本指南侧重于设置 Clore.ai GPU 后端 (Ollama 或 vLLM),你的本地 Continue.dev 扩展将连接到该后端。

circle-check
circle-info

架构:你的 IDE(带 Continue.dev 扩展)→ 互联网 → Clore.ai GPU 服务器(运行 Ollama / vLLM / TabbyML)→ 本地模型推理。代码绝不会触及第三方 API。

概览

属性
详情

许可证

Apache 2.0

GitHub 星标

25K+

IDE 支持

VS Code、JetBrains(IntelliJ、PyCharm、WebStorm、GoLand 等)

配置文件

~/.continue/config.json

后端选项

Ollama、vLLM、TabbyML、LM Studio、llama.cpp、兼容 OpenAI 的 API

难度

简单(扩展安装)/ 中等(自托管后端)

是否需要 GPU?

在 Clore.ai 服务器上(是);在你的笔记本上(否)

主要功能

自动补全、聊天、编辑模式、代码库上下文(RAG)、自定义斜杠命令

推荐的编码模型

模型
显存
特点
说明

codellama:7b

~6 GB

快速自动补全

良好的起点

codellama:13b

~10 GB

均衡

自动补全的最佳质量/速度平衡

codellama:34b

~22 GB

最佳 CodeLlama 质量

需要 RTX 3090 / A100

deepseek-coder:6.7b

~5 GB

Python/JS 专家型

非常适合 Web 开发

deepseek-coder:33b

~22 GB

顶级开源

在代码方面可与 GPT-4 媲美

qwen2.5-coder:7b

~6 GB

多语言代码

在 40+ 语言上表现出色

qwen2.5-coder:32b

~22 GB

最先进

2024 年最佳开源编码模型

starcoder2:15b

~12 GB

代码补全专家

支持 FIM(填中间)

要求

Clore.ai 服务器要求

级别
GPU
显存
内存(RAM)
磁盘
价格
模型

预算

RTX 3060

12 GB

16 GB

40 GB

~$0.10/小时

CodeLlama 7B、DeepSeek 6.7B、Qwen2.5-Coder 7B

推荐

RTX 3090

24 GB

32 GB

80 GB

~$0.20/小时

CodeLlama 34B、DeepSeek 33B、Qwen2.5-Coder 32B

性能

RTX 4090

24 GB

32 GB

80 GB

~$0.35/小时

与上述相同的模型,更快的推理速度

算力

A100 40GB

40 GB

64 GB

120 GB

~$0.60/小时

可同时运行多个 34B 模型

最大

A100 80GB

80 GB

80 GB

200 GB

~$1.10/小时

70B 模型(CodeLlama 70B)

本地要求(你的机器)

  • VS Code 或任意 JetBrains IDE

  • 安装 Continue.dev 扩展

  • 与 Clore.ai 服务器的稳定网络连接

  • 不需要本地 GPU — 所有推理均在 Clore.ai 上进行

快速开始

第 1 部分:设置 Clore.ai 后端

选项 A — Ollama 后端(大多数用户推荐)

Ollama 是 Continue.dev 最简单的后端 — 设置简单、出色的模型管理、兼容 OpenAI 的 API。

若要将 Ollama 对外暴露(以便你的本地 IDE 可以连接):

circle-exclamation

选项 B — vLLM 后端(高吞吐 / 兼容 OpenAI)

vLLM 提供更快的推理和多用户支持。如果多个开发者共享一台 Clore.ai 服务器,这是理想选择。

选项 C — TabbyML 后端(FIM 自动补全专家)

TabbyML 在填中间(FIM)自动补全方面表现优越——即内联的幽灵文本建议。参见 TabbyML 文档arrow-up-right 以获取完整的设置细节。

第 2 部分:安装 Continue.dev 扩展

VS Code:

  1. 打开扩展面板(Ctrl+Shift+X / Cmd+Shift+X)

  2. 搜索 "Continue" — 安装 Continue(continuedev)提供的官方扩展

  3. 点击侧边栏的 Continue 图标(或 Ctrl+Shift+I)

JetBrains(IntelliJ、PyCharm、WebStorm、GoLand):

  1. 文件 → 设置 → 插件 → 市场

  2. 搜索 "Continue" 然后安装

  3. 重启 IDE;Continue 面板将出现在右侧边栏

第 3 部分:配置 Continue.dev 使用 Clore.ai

编辑 ~/.continue/config.json 在你的 本地机器上:

对于 vLLM 后端 而不是 Ollama:

对于 TabbyML 后端 (仅限自动补全):

配置

SSH 隧道设置(安全远程访问)

与公开暴露端口相比,请从本地机器使用 SSH 隧道:

使用 autossh 的持久隧道

为不同任务加载多个模型

对于 RTX 3090(24 GB),你可以同时运行大型聊天模型和小型自动补全模型:

代码库索引(针对你的仓库的 RAG)

Continue.dev 可以为你的代码库建立索引以提供上下文感知的建议。拉取一个嵌入模型:

GPU 加速

监控推理性能

按 GPU 预期的性能

GPU
模型
上下文
每秒令牌(大约)

RTX 3060 12GB

CodeLlama 7B

8K

~40–60 t/s

RTX 3060 12GB

DeepSeek-Coder 6.7B

8K

~45–65 t/s

RTX 3090 24GB

Qwen2.5-Coder 32B(Q4)

16K

~15–25 t/s

RTX 3090 24GB

DeepSeek-Coder 33B(Q4)

16K

~15–22 t/s

RTX 4090 24GB

Qwen2.5-Coder 32B(Q4)

16K

~25–40 t/s

A100 40GB

Qwen2.5-Coder 32B(FP16)

32K

~35–50 t/s

A100 80GB

CodeLlama 70B(Q4)

32K

~20–30 t/s

对于自动补全(填中间), starcoder2:3bcodellama:7b 可达到 50–100 t/s — 在 IDE 中感觉几乎是即时的。

调优 Ollama 以获得更好性能

提示与最佳实践

针对不同任务使用不同模型

为不同任务类型在 Continue.dev 中配置专用模型 — UI 允许你在对话中途切换模型:

费用比较

解决方案
每月费用(每日使用 8 小时)
隐私
模型质量

GitHub Copilot

$19/用户/月

❌ Microsoft 云

GPT-4o(封闭)

Cursor Pro

$20/用户/月

❌ Cursor 云

Claude 3.5(封闭)

Clore.ai 上的 RTX 3060

~$24/月

✅ 你的服务器

CodeLlama 13B

Clore.ai 上的 RTX 3090

≈$48/月

✅ 你的服务器

Qwen2.5-Coder 32B

Clore.ai 上的 RTX 4090

≈$84/月

✅ 你的服务器

Qwen2.5-Coder 32B

Clore.ai 上的 A100 80GB

≈$264/月

✅ 你的服务器

CodeLlama 70B

对于一支由 3 名以上开发者共享一台 Clore.ai RTX 3090(总计约 $48/月)的团队,按用户成本优于 Copilot,同时提供更大且私有的模型。

不编码时关闭

Clore.ai 按小时计费。使用一个简单脚本来启动/停止服务器:

使用 Continue.dev 自定义命令

config.json 添加常用编码工作流程的自定义斜杠命令:

故障排除

问题
可能原因
解决方案

Continue.dev 显示“Connection refused(连接被拒绝)”

Ollama 无法访问

检查 SSH 隧道是否处于活动状态;验证 curl http://localhost:11434/ 是否工作

自动完成未触发

Tab 自动完成模型未设置

添加 tabAutocompleteModel 到 config.json;在 Continue 设置中启用

响应非常慢(首个 token 超过 30 秒)

模型正在从磁盘加载

首次请求会将模型加载到显存——后续请求会很快

出现“Model not found(未找到模型)”错误

模型未被拉取

运行 docker exec ollama ollama pull <model-name> 在 Clore.ai 服务器上

tokens 之间延迟高

网络延迟或模型过大

使用 SSH 隧道;切换到更小的模型;检查服务器 GPU 利用率

代码库上下文不起作用

缺少 Embeddings 模型

拉取 nomic-embed-text 通过 Ollama;检查 embeddingsProvider 在 config.json 中

SSH 隧道经常断开

连接不稳定

使用 autossh 以实现持久重连;添加 ServerAliveInterval 30

上下文窗口超出

文件/对话过长

减少 contextLength 在 config.json 中;使用具有更长上下文的模型

JetBrains 插件未加载

IDE 版本不兼容

将 JetBrains IDE 更新到最新;检查 Continue.dev 插件兼容性矩阵

vLLM 在加载时 OOM(内存不足)

显存不足

添加 --gpu-memory-utilization 0.85;使用更小的模型或量化版本

调试命令

Continue.dev 配置验证

延伸阅读

最后更新于

这有帮助吗?