Continue.dev AI 编码
在 Clore.ai GPU 上为 Continue.dev 提供算力 —— 在廉价 GPU 租赁上本地运行 CodeLlama 34B、DeepSeek Coder 和 Qwen2.5-Coder,为私有 AI 编码提供支持。
Continue.dev 是一个面向 VS Code 和 JetBrains 的开源 AI 编码助手,在 GitHub 上拥有 25K+ 星。该 扩展在你的本地机器上运行 (或在你的 IDE 中),但它会连接到后端模型服务器以进行推理。通过将 Continue.dev 指向从 Clore.ai 租用的强大 GPU,你将获得:
顶级的编码模型 (34B+ 参数)无法放入你的笔记本电脑
完全隐私 — 代码保留在你控制的基础设施上
灵活的费用 — 仅在编码时付费(约 $0.20–0.50/小时 vs. Copilot $19/月)
兼容 OpenAI 的 API — Continue.dev 无缝连接 Ollama、vLLM 或 TabbyML
本指南侧重于设置 Clore.ai GPU 后端 (Ollama 或 vLLM),你的本地 Continue.dev 扩展将连接到该后端。
所有 GPU 服务器示例均使用通过 CLORE.AI 市场.
架构:你的 IDE(带 Continue.dev 扩展)→ 互联网 → Clore.ai GPU 服务器(运行 Ollama / vLLM / TabbyML)→ 本地模型推理。代码永远不会接触第三方 API。
概览
许可
Apache 2.0
GitHub 星标
2.5 万+
IDE 支持
VS Code、JetBrains(IntelliJ、PyCharm、WebStorm、GoLand 等)
配置文件
~/.continue/config.json
后端选项
Ollama、vLLM、TabbyML、LM Studio、llama.cpp、兼容 OpenAI 的 API
难度
简单(安装扩展)/ 中等(自托管后端)
是否需要 GPU?
在 Clore.ai 服务器上(是);在你的笔记本上(否)
主要特性
自动补全、聊天、编辑模式、代码库上下文(RAG)、自定义斜杠命令
推荐的编码模型
codellama:7b
~6 GB
快速自动补全
良好的起点
codellama:13b
~10 GB
平衡
在自动补全方面质量/速度最佳
codellama:34b
~22 GB
CodeLlama 最佳质量
需要 RTX 3090 / A100
deepseek-coder:6.7b
~5 GB
Python/JS 专家型模型
非常适合 Web 开发
deepseek-coder:33b
~22 GB
顶级开源模型
在代码方面可与 GPT-4 匹敌
qwen2.5-coder:7b
~6 GB
多语言代码支持
对 40+ 语言表现强劲
qwen2.5-coder:32b
~22 GB
最先进
2024 年最佳开源编码模型
starcoder2:15b
~12 GB
代码补全专家
支持 FIM(fill-in-the-middle)
要求
Clore.ai 服务器要求
预算型
按小时费率
12 GB
16 GB
40 GB
约 $0.10/小时
CodeLlama 7B、DeepSeek 6.7B、Qwen2.5-Coder 7B
推荐
速度
24 GB
32 GB
80 GB
~$0.20/小时
CodeLlama 34B、DeepSeek 33B、Qwen2.5-Coder 32B
background = Image.open("studio_bg.jpg")
512x512
24 GB
32 GB
80 GB
~$0.35/小时
与上面相同的模型,但推理更快
算力
按日费率
40 GB
64 GB
120 GB
约 $0.60/小时
可同时运行多个 34B 模型
最大值
4 小时会话
80 GB
80 GB
200 GB
~$1.10/小时
70B 模型(CodeLlama 70B)
本地要求(你的机器)
VS Code 或任意 JetBrains IDE
已安装 Continue.dev 扩展
与 Clore.ai 服务器的稳定互联网连接
不需要本地 GPU — 所有推理均在 Clore.ai 上进行
快速开始
第 1 部分:设置 Clore.ai 后端
选项 A — Ollama 后端(推荐大多数用户)
Ollama 是 Continue.dev 最简单的后端——设置简单、优秀的模型管理、兼容 OpenAI API。
要将 Ollama 暴露到外部(以便你的本地 IDE 可以连接):
公开暴露 11434 端口默认没有认证。用于生产时,请改用 SSH 隧道(参见 提示与最佳实践).
选项 B — vLLM 后端(高吞吐 / 兼容 OpenAI)
vLLM 提供更快的推理和多用户支持。若多名开发者共享一台 Clore.ai 服务器,vLLM 非常理想。
选项 C — TabbyML 后端(FIM 自动补全专家)
TabbyML 在填充中间(FIM)自动补全方面表现更优——即行内的幽灵文本建议。参见 TabbyML 指南 以获取完整的设置细节。
第 2 部分:安装 Continue.dev 扩展
VS Code:
打开扩展面板(
Ctrl+Shift+X/Cmd+Shift+X)搜索 "Continue" — 安装 Continue 官方扩展(continuedev)
点击侧边栏的 Continue 图标(或
Ctrl+Shift+I)
JetBrains(IntelliJ、PyCharm、WebStorm、GoLand):
File → Settings → Plugins → Marketplace搜索 "Continue" 并安装
重启 IDE;Continue 面板会出现在右侧边栏
第 3 部分:配置 Continue.dev 使用 Clore.ai
编辑 ~/.continue/config.json 在你的 本地机器上:
用于 使用 vLLM 后端 而不是 Ollama:
用于 TabbyML 后端 (仅自动补全):
配置
SSH 隧道设置(安全远程访问)
不要公开暴露端口,而是从本地机器使用 SSH 隧道:
使用 autossh 实现持久隧道
为不同任务加载多个模型
对于 RTX 3090(24 GB),你可以同时运行一个大型聊天模型和一个小型自动补全模型:
代码库索引(为你的仓库的 RAG)
Continue.dev 可以为上下文感知建议索引你的代码库。拉取一个嵌入模型:
GPU 加速
监控推理性能
按 GPU 预期性能
RTX 3060 12GB
CodeLlama 7B
8K
约 ~40–60 t/s
RTX 3060 12GB
DeepSeek-Coder 6.7B
8K
约 ~45–65 t/s
RTX 3090 24GB
Qwen2.5-Coder 32B(Q4)
16K
约 ~15–25 t/s
RTX 3090 24GB
DeepSeek-Coder 33B(Q4)
16K
约 ~15–22 t/s
RTX 4090 24GB
Qwen2.5-Coder 32B(Q4)
16K
约 ~25–40 t/s
按日费率
Qwen2.5-Coder 32B(FP16)
32K
约 ~35–50 t/s
4 小时会话
CodeLlama 70B(Q4)
32K
约 ~20–30 t/s
对于自动补全(填充中间), starcoder2:3b 或 codellama:7b 可达到 50–100 t/s —— 在 IDE 中足够快速,感觉是即时的。
为更好的性能调整 Ollama
提示与最佳实践
为不同任务使用不同模型
在 Continue.dev 中为每种任务类型配置专用模型——UI 允许你在对话中途切换模型:
成本对比
GitHub Copilot
$19/用户/月
❌ Microsoft 云
GPT-4o(闭源)
Cursor Pro
$20/用户/月
❌ Cursor 云
Claude 3.5(闭源)
Clore.ai 上的 RTX 3060
约 ~$24/月
✅ 你的服务器
CodeLlama 13B
Clore.ai 上的 RTX 3090
约 ~$48/月
✅ 你的服务器
Qwen2.5-Coder 32B
Clore.ai 上的 RTX 4090
约 ~$84/月
✅ 你的服务器
Qwen2.5-Coder 32B
Clore.ai 上的 A100 80GB
约 ~$264/月
✅ 你的服务器
CodeLlama 70B
对于 3 人以上共享一台 Clore.ai RTX 3090(约 $48/月 总费用)的团队,每用户成本比 Copilot 更低,同时提供更大且私有的模型。
不编码时关闭
Clore.ai 按小时计费。使用简单脚本启动/停止服务器:
使用 Continue.dev 自定义命令
将自定义斜杠命令添加到 config.json 以用于常见的编码工作流程:
# 使用固定种子以获得一致结果
Continue.dev 显示 “Connection refused”
无法访问 Ollama
检查 SSH 隧道是否处于活动状态;验证 curl http://localhost:11434/ 工作正常
自动补全未触发
选项卡自动补全模型未设置
添加 tabAutocompleteModel 到 config.json;在 Continue 设置中启用
响应非常慢(首次令牌 >30s)
模型正在从磁盘加载
首次请求会将模型加载到 VRAM —— 后续请求会很快
“未找到模型” 错误
模型未拉取
运行 docker exec ollama ollama pull <model-name> 在 Clore.ai 服务器上
令牌间高延迟
网络延迟或模型过大
使用 SSH 隧道;切换到更小的模型;检查服务器 GPU 利用率
代码库上下文不起作用
缺少嵌入模型
拉取 nomic-embed-text 通过 Ollama;检查 embeddingsProvider 在 config.json 中
SSH 隧道经常断开
连接不稳定
使用 autossh 用于持久重连;添加 ServerAliveInterval 30
上下文窗口超出限制
长文件/对话
减少 contextLength 在 config.json 中;使用具有更长上下文的模型
JetBrains 插件未加载
IDE 版本不兼容
将 JetBrains IDE 更新到最新;检查 Continue.dev 插件兼容矩阵
vLLM 在加载时 OOM(内存不足)
显存不足
添加 --gpu-memory-utilization 0.85;使用更小的模型或量化版本
调试命令
Continue.dev 配置验证
延伸阅读
Continue.dev 文档 — 所有 IDE 集成和配置选项的官方文档
Continue.dev GitHub — 源代码、问题、模型兼容性
Continue.dev 配置参考 — 完整
config.jsonschemaClore.ai 上的 Ollama — 详细的 Ollama 安装指南(推荐后端)
Clore.ai 上的 vLLM — 面向团队的高性能替代后端
TabbyML 在 Clore.ai 上 — 具有 FIM 优化的专业自动完成功能后端
GPU 比较指南 — 为你的编码工作负载选择合适的 GPU
模型兼容性 — 哪些模型适合哪些显存大小
Qwen2.5-Coder — 目前最好的开源编码模型
DeepSeek-Coder-V2 — 具有长上下文的强力替代方案
CLORE.AI 市场 — 租用 GPU 服务器
最后更新于
这有帮助吗?