AI-кодирование Continue.dev

Запустите Continue.dev на GPU Clore.ai — запускайте CodeLlama 34B, DeepSeek Coder и Qwen2.5-Coder локально на дешёвых арендуемых GPU для приватной помощи в кодировании.

Continue.dev — это открытый помощник по программированию с ИИ для VS Code и JetBrains с более чем 25 000 звёзд на GitHub. расширение запускается на вашем локальном компьютере (или в вашей IDE), но оно подключается к серверу модели на бекенде для вывода. Указывая Continue.dev на мощный GPU, арендуемый через Clore.ai, вы получаете:

  • Модели для кодирования высшего уровня (34B+ параметров), которые не поместятся на вашем ноутбуке

  • Полная конфиденциальность — код остаётся на инфраструктуре, которую вы контролируете

  • Гибкая стоимость — платите только пока кодируете (~$0.20–0.50/ч против $19/мес за Copilot)

  • Совместимый с API OpenAI — Continue.dev безшовно подключается к Ollama, vLLM или TabbyML

Это руководство сосредоточено на настройке бекенда Clore.ai с GPU (Ollama или vLLM), к которому подключается ваше локальное расширение Continue.dev.

circle-check
circle-info

Архитектура: Ваша IDE (с расширением Continue.dev) → Интернет → сервер Clore.ai с GPU (запущен Ollama / vLLM / TabbyML) → локальный вывод модели. Ни один код никогда не передаётся третьей стороне.

Обзор

Свойство
Детали

Лицензия

Apache 2.0

Звёзды на GitHub

25K+

Поддержка IDE

VS Code, JetBrains (IntelliJ, PyCharm, WebStorm, GoLand и т.д.)

Файл конфигурации

~/.continue/config.json

Опции бекенда

Ollama, vLLM, TabbyML, LM Studio, llama.cpp, совместимые с OpenAI API

Сложность

Просто (установка расширения) / Средне (самостоятельно хостируемый бекенд)

Нужен ли GPU?

На сервере Clore.ai (да); на вашем ноутбуке (нет)

Ключевые особенности

Автодополнение, чат, режим редактирования, контекст кодовой базы (RAG), пользовательские слеш-команды

Рекомендуемые модели для кодирования

Модель
VRAM
Сильная сторона
Примечания

codellama:7b

~6 ГБ

Быстрое автодополнение

Хорошая отправная точка

codellama:13b

~10 ГБ

Сбалансировано

Лучшее качество/скорость для автодополнения

codellama:34b

≈22 ГБ

Лучшее качество CodeLlama

Требуется RTX 3090 / A100

deepseek-coder:6.7b

~5 ГБ

Специалист по Python/JS

Отлично для веб-разработки

deepseek-coder:33b

≈22 ГБ

Топовое открытое решение

Соперничает с GPT-4 по коду

qwen2.5-coder:7b

~6 ГБ

Многоязычный код

Хорош в более чем 40 языках

qwen2.5-coder:32b

≈22 ГБ

Передовой уровень

Лучшая открытая модель для кодирования 2024 года

starcoder2:15b

≈12 ГБ

Специалист по автозаполнению кода

Поддержка FIM (fill-in-the-middle)

Требования

Требования к серверу Clore.ai

Тариф
GPU
VRAM
ОЗУ
Диск
Цена
Модели

Бюджетная

RTX 3060

12 ГБ

16 ГБ

40 ГБ

~$0.10/час

CodeLlama 7B, DeepSeek 6.7B, Qwen2.5-Coder 7B

Рекомендуется

RTX 3090

24 ГБ

32 ГБ

80 ГБ

≈ $0.20/ч

CodeLlama 34B, DeepSeek 33B, Qwen2.5-Coder 32B

Производительность

RTX 4090

24 ГБ

32 ГБ

80 ГБ

≈ $0.35/ч

Те же модели, что выше, но более быстрая инференция

Мощность

A100 40GB

40 ГБ

64 ГБ

120 ГБ

~$0.60/ч

Несколько моделей 34B одновременно

Максимум

A100 80GB

80 ГБ

80 ГБ

200 ГБ

≈ $1.10/ч

Модели 70B (CodeLlama 70B)

Локальные требования (ваша машина)

  • VS Code или любая IDE JetBrains

  • Установлено расширение Continue.dev

  • Стабильное интернет-соединение с вашим сервером Clore.ai

  • Локальный GPU не нужен — весь вывод происходит на Clore.ai

Быстрый старт

Часть 1: Настройка бекенда Clore.ai

Вариант A — бекенд Ollama (рекомендуется для большинства пользователей)

Ollama — самый простой бекенд для Continue.dev — простая настройка, отличное управление моделями, API совместимый с OpenAI.

Чтобы открыть Ollama внешне (чтобы ваша локальная IDE могла подключиться):

circle-exclamation

Вариант B — бекенд vLLM (высокая пропускная способность / совместимый с OpenAI)

vLLM предлагает более быстрый вывод и поддержку нескольких пользователей. Идеален, если несколько разработчиков делят один сервер Clore.ai.

Вариант C — бекенд TabbyML (специалист по FIM автодополнению)

TabbyML обеспечивает превосходное fill-in-the-middle (FIM) автодополнение — встроенные предложения-«призраки». См. руководство TabbyMLarrow-up-right для полной информации по настройке.

Часть 2: Установка расширения Continue.dev

VS Code:

  1. Откройте панель расширений (Ctrl+Shift+X / Cmd+Shift+X)

  2. Поиск "Continue" — установите официальное расширение от Continue (continuedev)

  3. Нажмите значок Continue в боковой панели (или Ctrl+Shift+I)

JetBrains (IntelliJ, PyCharm, WebStorm, GoLand):

  1. File → Settings → Plugins → Marketplace

  2. Поиск "Continue" и установите

  3. Перезапустите IDE; панель Continue появится в правой боковой панели

Часть 3: Настройка Continue.dev для использования Clore.ai

Редактировать ~/.continue/config.json на вашем локальном компьютере:

Для бекенд vLLM вместо Ollama:

Для бекенд TabbyML (только автодополнение):

Конфигурация

Настройка SSH-туннеля (безопасный удалённый доступ)

Вместо того чтобы открывать порты публично, используйте SSH-туннель с вашей локальной машины:

Постоянный туннель с autossh

Загрузка нескольких моделей для разных задач

Для RTX 3090 (24 ГБ) вы можете одновременно запустить большую чат-модель и маленькую модель для автодополнения:

Индексирование кодовой базы (RAG для вашего репозитория)

Continue.dev может индексировать вашу кодовую базу для контекстно-зависимых подсказок. Загрузите модель эмбеддингов:

Ускорение с помощью GPU

Мониторинг производительности инференса

Ожидаемая производительность по GPU

GPU
Модель
Контекст
Токенов/сек (примерно)

RTX 3060 12GB

CodeLlama 7B

8K

~40–60 т/с

RTX 3060 12GB

DeepSeek-Coder 6.7B

8K

~45–65 т/с

RTX 3090 24GB

Qwen2.5-Coder 32B (Q4)

16K

~15–25 т/с

RTX 3090 24GB

DeepSeek-Coder 33B (Q4)

16K

~15–22 т/с

RTX 4090 24GB

Qwen2.5-Coder 32B (Q4)

16K

~25–40 т/с

A100 40GB

Qwen2.5-Coder 32B (FP16)

32K

~35–50 т/с

A100 80GB

CodeLlama 70B (Q4)

32K

~20–30 т/с

Для автодополнения (fill-in-the-middle), starcoder2:3b или codellama:7b достигайте 50–100 т/с — достаточно быстро, чтобы казаться мгновенным в IDE.

Настройка Ollama для лучшей производительности

Подсказки и лучшие практики

Используйте разные модели для разных задач

Настройте Continue.dev со специализированными моделями для разных типов задач — UI позволяет переключать модели прямо в разговоре:

Сравнение стоимости

Решение
Ежемесячная стоимость (использование 8 ч/день)
Конфиденциальность
Качество модели

GitHub Copilot

$19/пользователь/мес

❌ Облако Microsoft

GPT-4o (закрытая)

Cursor Pro

$20/пользователь/мес

❌ Облако Cursor

Claude 3.5 (закрытая)

RTX 3060 на Clore.ai

~$24/мес

✅ Ваш сервер

CodeLlama 13B

RTX 3090 на Clore.ai

~$48/мес

✅ Ваш сервер

Qwen2.5-Coder 32B

RTX 4090 на Clore.ai

~$84/мес

✅ Ваш сервер

Qwen2.5-Coder 32B

A100 80GB на Clore.ai

~$264/мес

✅ Ваш сервер

CodeLlama 70B

Для команды из 3+ разработчиков, разделяющих один Clore.ai RTX 3090 (~$48/мес всего), стоимость на пользователя выгоднее Copilot, при этом вы получаете более крупную приватную модель.

Выключайте, когда не кодируете

Clore.ai выставляет плату почасово. Используйте простой скрипт для запуска/остановки сервера:

Используйте пользовательские команды Continue.dev

Добавьте пользовательские слеш-команды в config.json для обычных рабочих потоков разработки:

Устранение неполадок

Проблема
Вероятная причина
Решение

Continue.dev показывает «Connection refused»

Ollama недоступен

Проверьте, активен ли SSH-туннель; убедитесь, что curl http://localhost:11434/ работает

Автодополнение не срабатывает

Модель таб-автодополнения не установлена

Добавьте tabAutocompleteModel в config.json; включите в настройках Continue

Очень медленные ответы (>30 с до первого токена)

Загрузка модели с диска

Первый запрос загружает модель в VRAM — последующие запросы быстрые

Ошибка «Model not found»

Модель не загружена

Запустите docker exec ollama ollama pull <model-name> на сервере Clore.ai

Большая задержка между токенами

Задержка сети или модель слишком большая

Используйте SSH-туннель; переключитесь на меньшую модель; проверьте загрузку GPU сервера

Контекст кодовой базы не работает

Отсутствует модель эмбеддингов

Загрузите nomic-embed-text через Ollama; проверьте embeddingsProvider в config.json

SSH-туннель часто падает

Нестабильное соединение

Используйте autossh для постоянного переподключения; добавьте ServerAliveInterval 30

Превышено окно контекста

Длинные файлы/разговоры

Уменьшите contextLength в config.json; используйте модель с большей длиной контекста

Плагин JetBrains не загружается

Несовместимость версии IDE

Обновите JetBrains IDE до последней версии; проверьте матрицу совместимости плагина Continue.dev

vLLM OOM при загрузке

Недостаточно VRAM

Добавьте --gpu-memory-utilization 0.85; используйте меньшую модель или квантизированную версию

Команды для отладки

Валидация конфигурации Continue.dev

Дополнительное чтение

Последнее обновление

Это было полезно?