Continue.dev AI 编码
使用 Clore.ai 的 GPU 强化 Continue.dev——在廉价 GPU 租用上本地运行 CodeLlama 34B、DeepSeek Coder 和 Qwen2.5-Coder,用于私有 AI 编码辅助。
Continue.dev 是一个用于 VS Code 和 JetBrains 的开源 AI 编码助手,拥有 25K+ GitHub 星标。该 扩展在你的本地机器上运行 (或在你的 IDE 中),但它会连接到后端模型服务器进行推理。通过将 Continue.dev 指向从 Clore.ai 租用的强大 GPU,你将获得:
顶级编码模型 (34B+ 参数)无法放在你的笔记本上
完全隐私 — 代码保留在你控制的基础设施上
灵活费用 — 仅在你编码时付费(约 $0.20–0.50/小时 vs. Copilot 每月 $19)
兼容 OpenAI 的 API — Continue.dev 可无缝连接到 Ollama、vLLM 或 TabbyML
本指南侧重于设置 Clore.ai GPU 后端 (Ollama 或 vLLM),你的本地 Continue.dev 扩展将连接到该后端。
所有 GPU 服务器示例均使用通过 CLORE.AI 市场.
架构:你的 IDE(带 Continue.dev 扩展)→ 互联网 → Clore.ai GPU 服务器(运行 Ollama / vLLM / TabbyML)→ 本地模型推理。代码绝不会触及第三方 API。
概览
许可证
Apache 2.0
GitHub 星标
25K+
IDE 支持
VS Code、JetBrains(IntelliJ、PyCharm、WebStorm、GoLand 等)
配置文件
~/.continue/config.json
后端选项
Ollama、vLLM、TabbyML、LM Studio、llama.cpp、兼容 OpenAI 的 API
难度
简单(扩展安装)/ 中等(自托管后端)
是否需要 GPU?
在 Clore.ai 服务器上(是);在你的笔记本上(否)
主要功能
自动补全、聊天、编辑模式、代码库上下文(RAG)、自定义斜杠命令
推荐的编码模型
codellama:7b
~6 GB
快速自动补全
良好的起点
codellama:13b
~10 GB
均衡
自动补全的最佳质量/速度平衡
codellama:34b
~22 GB
最佳 CodeLlama 质量
需要 RTX 3090 / A100
deepseek-coder:6.7b
~5 GB
Python/JS 专家型
非常适合 Web 开发
deepseek-coder:33b
~22 GB
顶级开源
在代码方面可与 GPT-4 媲美
qwen2.5-coder:7b
~6 GB
多语言代码
在 40+ 语言上表现出色
qwen2.5-coder:32b
~22 GB
最先进
2024 年最佳开源编码模型
starcoder2:15b
~12 GB
代码补全专家
支持 FIM(填中间)
要求
Clore.ai 服务器要求
预算
RTX 3060
12 GB
16 GB
40 GB
~$0.10/小时
CodeLlama 7B、DeepSeek 6.7B、Qwen2.5-Coder 7B
推荐
RTX 3090
24 GB
32 GB
80 GB
~$0.20/小时
CodeLlama 34B、DeepSeek 33B、Qwen2.5-Coder 32B
性能
RTX 4090
24 GB
32 GB
80 GB
~$0.35/小时
与上述相同的模型,更快的推理速度
算力
A100 40GB
40 GB
64 GB
120 GB
~$0.60/小时
可同时运行多个 34B 模型
最大
A100 80GB
80 GB
80 GB
200 GB
~$1.10/小时
70B 模型(CodeLlama 70B)
本地要求(你的机器)
VS Code 或任意 JetBrains IDE
安装 Continue.dev 扩展
与 Clore.ai 服务器的稳定网络连接
不需要本地 GPU — 所有推理均在 Clore.ai 上进行
快速开始
第 1 部分:设置 Clore.ai 后端
选项 A — Ollama 后端(大多数用户推荐)
Ollama 是 Continue.dev 最简单的后端 — 设置简单、出色的模型管理、兼容 OpenAI 的 API。
若要将 Ollama 对外暴露(以便你的本地 IDE 可以连接):
公开暴露 11434 端口默认没有认证。用于生产环境时,请改为设置 SSH 隧道(参见 提示与最佳实践).
选项 B — vLLM 后端(高吞吐 / 兼容 OpenAI)
vLLM 提供更快的推理和多用户支持。如果多个开发者共享一台 Clore.ai 服务器,这是理想选择。
选项 C — TabbyML 后端(FIM 自动补全专家)
TabbyML 在填中间(FIM)自动补全方面表现优越——即内联的幽灵文本建议。参见 TabbyML 文档 以获取完整的设置细节。
第 2 部分:安装 Continue.dev 扩展
VS Code:
打开扩展面板(
Ctrl+Shift+X/Cmd+Shift+X)搜索 "Continue" — 安装 Continue(continuedev)提供的官方扩展
点击侧边栏的 Continue 图标(或
Ctrl+Shift+I)
JetBrains(IntelliJ、PyCharm、WebStorm、GoLand):
文件 → 设置 → 插件 → 市场搜索 "Continue" 然后安装
重启 IDE;Continue 面板将出现在右侧边栏
第 3 部分:配置 Continue.dev 使用 Clore.ai
编辑 ~/.continue/config.json 在你的 本地机器上:
对于 vLLM 后端 而不是 Ollama:
对于 TabbyML 后端 (仅限自动补全):
配置
SSH 隧道设置(安全远程访问)
与公开暴露端口相比,请从本地机器使用 SSH 隧道:
使用 autossh 的持久隧道
为不同任务加载多个模型
对于 RTX 3090(24 GB),你可以同时运行大型聊天模型和小型自动补全模型:
代码库索引(针对你的仓库的 RAG)
Continue.dev 可以为你的代码库建立索引以提供上下文感知的建议。拉取一个嵌入模型:
GPU 加速
监控推理性能
按 GPU 预期的性能
RTX 3060 12GB
CodeLlama 7B
8K
~40–60 t/s
RTX 3060 12GB
DeepSeek-Coder 6.7B
8K
~45–65 t/s
RTX 3090 24GB
Qwen2.5-Coder 32B(Q4)
16K
~15–25 t/s
RTX 3090 24GB
DeepSeek-Coder 33B(Q4)
16K
~15–22 t/s
RTX 4090 24GB
Qwen2.5-Coder 32B(Q4)
16K
~25–40 t/s
A100 40GB
Qwen2.5-Coder 32B(FP16)
32K
~35–50 t/s
A100 80GB
CodeLlama 70B(Q4)
32K
~20–30 t/s
对于自动补全(填中间), starcoder2:3b 或 codellama:7b 可达到 50–100 t/s — 在 IDE 中感觉几乎是即时的。
调优 Ollama 以获得更好性能
提示与最佳实践
针对不同任务使用不同模型
为不同任务类型在 Continue.dev 中配置专用模型 — UI 允许你在对话中途切换模型:
费用比较
GitHub Copilot
$19/用户/月
❌ Microsoft 云
GPT-4o(封闭)
Cursor Pro
$20/用户/月
❌ Cursor 云
Claude 3.5(封闭)
Clore.ai 上的 RTX 3060
~$24/月
✅ 你的服务器
CodeLlama 13B
Clore.ai 上的 RTX 3090
≈$48/月
✅ 你的服务器
Qwen2.5-Coder 32B
Clore.ai 上的 RTX 4090
≈$84/月
✅ 你的服务器
Qwen2.5-Coder 32B
Clore.ai 上的 A100 80GB
≈$264/月
✅ 你的服务器
CodeLlama 70B
对于一支由 3 名以上开发者共享一台 Clore.ai RTX 3090(总计约 $48/月)的团队,按用户成本优于 Copilot,同时提供更大且私有的模型。
不编码时关闭
Clore.ai 按小时计费。使用一个简单脚本来启动/停止服务器:
使用 Continue.dev 自定义命令
向 config.json 添加常用编码工作流程的自定义斜杠命令:
故障排除
Continue.dev 显示“Connection refused(连接被拒绝)”
Ollama 无法访问
检查 SSH 隧道是否处于活动状态;验证 curl http://localhost:11434/ 是否工作
自动完成未触发
Tab 自动完成模型未设置
添加 tabAutocompleteModel 到 config.json;在 Continue 设置中启用
响应非常慢(首个 token 超过 30 秒)
模型正在从磁盘加载
首次请求会将模型加载到显存——后续请求会很快
出现“Model not found(未找到模型)”错误
模型未被拉取
运行 docker exec ollama ollama pull <model-name> 在 Clore.ai 服务器上
tokens 之间延迟高
网络延迟或模型过大
使用 SSH 隧道;切换到更小的模型;检查服务器 GPU 利用率
代码库上下文不起作用
缺少 Embeddings 模型
拉取 nomic-embed-text 通过 Ollama;检查 embeddingsProvider 在 config.json 中
SSH 隧道经常断开
连接不稳定
使用 autossh 以实现持久重连;添加 ServerAliveInterval 30
上下文窗口超出
文件/对话过长
减少 contextLength 在 config.json 中;使用具有更长上下文的模型
JetBrains 插件未加载
IDE 版本不兼容
将 JetBrains IDE 更新到最新;检查 Continue.dev 插件兼容性矩阵
vLLM 在加载时 OOM(内存不足)
显存不足
添加 --gpu-memory-utilization 0.85;使用更小的模型或量化版本
调试命令
Continue.dev 配置验证
延伸阅读
Continue.dev 文档 — 官方文档,涵盖所有 IDE 集成和配置选项
Continue.dev GitHub — 源代码、问题、模型兼容性
Continue.dev 配置参考 — 完整的
config.json模式Clore.ai 上的 Ollama — 详细的 Ollama 设置指南(推荐的后端)
Clore.ai 上的 vLLM — 面向团队的高性能替代后端
TabbyML — 具有 FIM 优化的专用自动完成后端
GPU 对比指南 — 为你的编码工作负载选择合适的 GPU
模型兼容性 — 哪些模型适合哪些显存大小
Qwen2.5-Coder — 目前最佳的开源编码模型
DeepSeek-Coder-V2 — 具有长上下文的强力替代方案
CLORE.AI 市场 — 租用 GPU 服务器
最后更新于
这有帮助吗?