Continue.dev AI кодирование

Обеспечьте Continue.dev мощью GPU Clore.ai — запускайте CodeLlama 34B, DeepSeek Coder и Qwen2.5-Coder локально на дешёвой аренде GPU для приватной AI-помощи при кодировании.

Continue.dev — это инструмент с открытым исходным кодом для помощи при программировании на базе ИИ для VS Code и сред JetBrains с более чем 25K звёзд на GitHub. The расширение работает на вашем локальном компьютере (или в вашей IDE), но оно подключается к серверу моделей для вывода. Направляя Continue.dev на мощный GPU, арендованный через Clore.ai, вы получаете:

  • Модели высшего класса для кодирования (34B+ параметров), которые не поместятся на вашем ноутбуке

  • Полная приватность — код остаётся в инфраструктуре, которой вы управляете

  • Гибкие расходы — платите только пока кодируете (~$0.20–0.50/ч против $19/мес за Copilot)

  • API совместимый с OpenAI — Continue.dev бесшовно подключается к Ollama, vLLM или TabbyML

Это руководство сосредоточено на настройке GPU-бэкенда Clore.ai (Ollama или vLLM), к которому подключается ваше локальное расширение Continue.dev.

circle-check
circle-info

Архитектура: Ваша IDE (с расширением Continue.dev) → Интернет → сервер Clore.ai с GPU (запущен Ollama / vLLM / TabbyML) → локальный вывод модели. Никакой код никогда не касается стороннего API.

Обзор

Свойство
Детали

Лицензия

Apache 2.0

Звезды на GitHub

25K+

Поддержка IDE

VS Code, JetBrains (IntelliJ, PyCharm, WebStorm, GoLand и т.д.)

Файл конфигурации

~/.continue/config.json

Варианты бэкенда

Ollama, vLLM, TabbyML, LM Studio, llama.cpp, API совместимые с OpenAI

Сложность

Легко (установка расширения) / Средне (самостоятельный бэкенд)

Требуется GPU?

На сервере Clore.ai (да); на вашем ноутбуке (нет)

Ключевые возможности

Автодополнение, чат, режим редактирования, контекст кодовой базы (RAG), пользовательские slash-команды

Рекомендуемые модели для кодирования

Модель
VRAM
Сильная сторона
Примечания

codellama:7b

~6 GB

Быстрое автодополнение

Хорошая отправная точка

codellama:13b

~10 GB

Сбалансированная

Лучшее соотношение качества/скорости для автодополнения

codellama:34b

~22 GB

Лучшее качество CodeLlama

Требует RTX 3090 / A100

deepseek-coder:6.7b

~5 GB

Специалист по Python/JS

Отлично для веб-разработки

deepseek-coder:33b

~22 GB

Проведёт в топе среди open source

Соперничает с GPT-4 по коду

qwen2.5-coder:7b

~6 GB

Мультилингвальный код

Силен в 40+ языках

qwen2.5-coder:32b

~22 GB

Современное состояние искусства

Лучшая открытая модель для кодирования 2024

starcoder2:15b

~12 GB

Специалист по дополнению кода

Поддержка FIM (fill-in-the-middle)

Требования

Требования к серверу Clore.ai

Уровень
GPU
VRAM
ОЗУ
Диск
Цена
Модели

Бюджет

RTX 3060

12 GB

16 GB

40 GB

~$0.10/ч

CodeLlama 7B, DeepSeek 6.7B, Qwen2.5-Coder 7B

Рекомендуется

RTX 3090

24 GB

32 GB

80 GB

~$0.20/ч

CodeLlama 34B, DeepSeek 33B, Qwen2.5-Coder 32B

Производительность

RTX 4090

24 GB

32 GB

80 GB

~$0.35/ч

Те же модели, что и выше, более быстрая инференция

Мощность

A100 40GB

40 GB

64 GB

120 GB

~$0.60/ч

Несколько моделей 34B одновременно

Максимум

A100 80GB

80 GB

80 GB

200 GB

~$1.10/ч

70B модели (CodeLlama 70B)

Локальные требования (ваша машина)

  • VS Code или любая IDE JetBrains

  • Установлено расширение Continue.dev

  • Стабильное интернет-соединение с вашим сервером Clore.ai

  • Локальный GPU не требуется — весь вывод происходит на Clore.ai

Быстрый старт

Часть 1: Настройка бэкенда Clore.ai

Вариант A — бэкенд Ollama (рекомендуется для большинства пользователей)

Ollama — самый простой бэкенд для Continue.dev: простая настройка, отличное управление моделями, API совместимое с OpenAI.

Чтобы открыть Ollama для внешнего доступа (чтобы ваша локальная IDE могла подключиться):

circle-exclamation

Вариант B — бэкенд vLLM (высокая пропускная способность / совместимый с OpenAI)

vLLM обеспечивает более быструю инференцию и поддержку многопользовательского режима. Идеален, если несколько разработчиков используют один сервер Clore.ai.

Вариант C — бэкенд TabbyML (специалист по FIM-автодополнению)

TabbyML обеспечивает превосходное fill-in-the-middle (FIM) автодополнение — встроенные подсказки-«ghost-text». См. документацию TabbyMLarrow-up-right для полной информации по настройке.

Часть 2: Установите расширение Continue.dev

VS Code:

  1. Откройте панель расширений (Ctrl+Shift+X / Cmd+Shift+X)

  2. Поиск "Continue" — установите официальное расширение от Continue (continuedev)

  3. Кликните по иконке Continue в боковой панели (или Ctrl+Shift+I)

JetBrains (IntelliJ, PyCharm, WebStorm, GoLand):

  1. File → Settings → Plugins → Marketplace

  2. Поиск "Continue" и установите

  3. Перезапустите IDE; панель Continue появится в правой боковой панели

Часть 3: Настройте Continue.dev для использования Clore.ai

Отредактируйте ~/.continue/config.json на вашей локальной машине:

Для бэкенда vLLM вместо Ollama:

Для Бэкенд TabbyML (только автодополнение):

Конфигурация

Настройка SSH-туннеля (безопасный удалённый доступ)

Вместо того чтобы открывать порты публично, используйте SSH-туннель с вашей локальной машины:

Постоянный туннель с autossh

Загрузка нескольких моделей для разных задач

Для RTX 3090 (24 GB) вы можете запускать большую чат-модель и маленькую модель для автодополнения одновременно:

Индексация кодовой базы (RAG для вашего репозитория)

Continue.dev может индексировать вашу кодовую базу для контекстно-зависимых подсказок. Загрузите модель эмбеддингов:

Ускорение с помощью GPU

Отслеживание производительности инференции

Ожидаемая производительность по GPU

GPU
Модель
Контекст
Токенов/сек (прибл.)

RTX 3060 12GB

CodeLlama 7B

8K

~40–60 т/с

RTX 3060 12GB

DeepSeek-Coder 6.7B

8K

~45–65 т/с

RTX 3090 24GB

Qwen2.5-Coder 32B (Q4)

16K

~15–25 т/с

RTX 3090 24GB

DeepSeek-Coder 33B (Q4)

16K

~15–22 т/с

RTX 4090 24GB

Qwen2.5-Coder 32B (Q4)

16K

~25–40 т/с

A100 40GB

Qwen2.5-Coder 32B (FP16)

32K

~35–50 т/с

A100 80GB

CodeLlama 70B (Q4)

32K

~20–30 т/с

Для автодополнения (fill-in-the-middle), starcoder2:3b или codellama:7b достигайте 50–100 т/с — достаточно быстро, чтобы казаться мгновенным в IDE.

Настройка Ollama для лучшей производительности

Советы и лучшие практики

Используйте разные модели для разных задач

Настройте Continue.dev с специализированными моделями для каждого типа задачи — UI позволяет переключать модели в процессе разговора:

Сравнение стоимости

Решение
Ежемесячная стоимость (использование 8ч/день)
Приватность
Качество модели

GitHub Copilot

$19/пользователь/мес

❌ Облако Microsoft

GPT-4o (закрытая)

Cursor Pro

$20/пользователь/мес

❌ Облако Cursor

Claude 3.5 (закрытая)

RTX 3060 на Clore.ai

~$24/мес

✅ Ваш сервер

CodeLlama 13B

RTX 3090 на Clore.ai

~48$/мес

✅ Ваш сервер

Qwen2.5-Coder 32B

RTX 4090 на Clore.ai

~84$/мес

✅ Ваш сервер

Qwen2.5-Coder 32B

A100 80GB на Clore.ai

~264$/мес

✅ Ваш сервер

CodeLlama 70B

Для команды из 3+ разработчиков, разделяющих один RTX 3090 на Clore.ai (~48$/мес всего), стоимость на пользователя лучше, чем у Copilot, при этом предоставляется более крупная приватная модель.

Отключайте, когда не кодируете

Clore.ai взимает плату посуточно по часам. Используйте простой скрипт для запуска/остановки сервера:

Используйте пользовательские команды Continue.dev

Добавьте пользовательские команды со слэшом в config.json для распространённых рабочих процессов разработки:

Устранение неполадок

Проблема
Возможная причина
Решение

Continue.dev показывает «Connection refused»

Ollama недоступна

Проверьте, что SSH-туннель активен; проверьте curl http://localhost:11434/ работает

Автозаполнение не срабатывает

Модель автозаполнения по Tab не задана

Добавьте tabAutocompleteModel в config.json; включите в настройках Continue

Очень медленные ответы (>30 с до первого токена)

Модель загружается с диска

Первый запрос загружает модель в VRAM — последующие запросы быстрые

Ошибка «Model not found»

Модель не загружена

Запустите docker exec ollama ollama pull <model-name> на сервере Clore.ai

Высокая задержка между токенами

Сетевая задержка или модель слишком большая

Используйте SSH-туннель; переключитесь на меньшую модель; проверьте загрузку GPU сервера

Контекст кодовой базы не работает

Отсутствует модель эмбеддингов

Загрузите nomic-embed-text через Ollama; проверьте embeddingsProvider в config.json

SSH-туннель часто рвётся

Нестабильное соединение

Используйте autossh для постоянного переподключения; добавьте ServerAliveInterval 30

Превышено окно контекста

Длинные файлы/разговоры

Уменьшите contextLength в config.json; используйте модель с большим контекстом

Плагин JetBrains не загружается

Несовместимость версии IDE

Обновите JetBrains IDE до последней версии; проверьте матрицу совместимости плагина Continue.dev

vLLM OOM при загрузке

Недостаточно VRAM

Добавьте --gpu-memory-utilization 0.85; используйте меньшую модель или квантизованную версию

Команды отладки

Проверка конфигурации Continue.dev

Дополнительные материалы

Последнее обновление

Это было полезно?