AI-кодирование Continue.dev

Запустите Continue.dev на GPU Clore.ai — запускайте CodeLlama 34B, DeepSeek Coder и Qwen2.5-Coder локально на дешёвых арендуемых GPU для приватной помощи в кодировании.

Continue.dev — это открытый помощник по программированию с ИИ для VS Code и JetBrains с более чем 25 000 звёзд на GitHub. расширение запускается на вашем локальном компьютере (или в вашей IDE), но оно подключается к серверу модели на бекенде для вывода. Указывая Continue.dev на мощный GPU, арендуемый через Clore.ai, вы получаете:

Модели для кодирования высшего уровня (34B+ параметров), которые не поместятся на вашем ноутбуке
Полная конфиденциальность — код остаётся на инфраструктуре, которую вы контролируете
Гибкая стоимость — платите только пока кодируете (~$0.20–0.50/ч против $19/мес за Copilot)
Совместимый с API OpenAI — Continue.dev безшовно подключается к Ollama, vLLM или TabbyML

Это руководство сосредоточено на настройке бекенда Clore.ai с GPU (Ollama или vLLM), к которому подключается ваше локальное расширение Continue.dev.

Все примеры серверов с GPU используют сервера, арендованные через CLORE.AI Marketplace.

Архитектура: Ваша IDE (с расширением Continue.dev) → Интернет → сервер Clore.ai с GPU (запущен Ollama / vLLM / TabbyML) → локальный вывод модели. Ни один код никогда не передаётся третьей стороне.

Обзор

Свойство

Детали

Проект

continuedev/continue

Лицензия

Apache 2.0

Звёзды на GitHub

25K+

Поддержка IDE

VS Code, JetBrains (IntelliJ, PyCharm, WebStorm, GoLand и т.д.)

Файл конфигурации

~/.continue/config.json

Опции бекенда

Ollama, vLLM, TabbyML, LM Studio, llama.cpp, совместимые с OpenAI API

Сложность

Просто (установка расширения) / Средне (самостоятельно хостируемый бекенд)

Нужен ли GPU?

На сервере Clore.ai (да); на вашем ноутбуке (нет)

Ключевые особенности

Автодополнение, чат, режим редактирования, контекст кодовой базы (RAG), пользовательские слеш-команды

Требования

Требования к серверу Clore.ai

Тариф

GPU

VRAM

ОЗУ

Диск

Цена

Модели

Бюджетная

RTX 3060

12 ГБ

16 ГБ

40 ГБ

~$0.10/час

CodeLlama 7B, DeepSeek 6.7B, Qwen2.5-Coder 7B

Рекомендуется

RTX 3090

24 ГБ

32 ГБ

80 ГБ

≈ $0.20/ч

CodeLlama 34B, DeepSeek 33B, Qwen2.5-Coder 32B

Производительность

RTX 4090

24 ГБ

32 ГБ

80 ГБ

≈ $0.35/ч

Те же модели, что выше, но более быстрая инференция

Мощность

A100 40GB

40 ГБ

64 ГБ

120 ГБ

~$0.60/ч

Несколько моделей 34B одновременно

Максимум

A100 80GB

80 ГБ

200 ГБ

≈ $1.10/ч

Модели 70B (CodeLlama 70B)

Локальные требования (ваша машина)

VS Code или любая IDE JetBrains
Установлено расширение Continue.dev
Стабильное интернет-соединение с вашим сервером Clore.ai
Локальный GPU не нужен — весь вывод происходит на Clore.ai

Быстрый старт

Часть 1: Настройка бекенда Clore.ai

Вариант A — бекенд Ollama (рекомендуется для большинства пользователей)

Ollama — самый простой бекенд для Continue.dev — простая настройка, отличное управление моделями, API совместимый с OpenAI.

# 1. Подключитесь по SSH к вашему серверу Clore.ai
ssh root@<clore-server-ip> -p <port>

# 2. Запустите Ollama с поддержкой GPU
docker run -d \
  --name ollama \
  --gpus all \
  -p 11434:11434 \
  -v /workspace/ollama:/root/.ollama \
  --restart unless-stopped \
  ollama/ollama

# 3. Убедитесь, что Ollama запущен
curl http://localhost:11434/

# 4. Загрузите вашу модель для кодирования (выбирайте в соответствии с VRAM)
# Для 12GB VRAM (RTX 3060):
docker exec ollama ollama pull codellama:13b

# Для 24GB VRAM (RTX 3090 / RTX 4090):
docker exec ollama ollama pull qwen2.5-coder:32b
# или:
docker exec ollama ollama pull deepseek-coder:33b

# 5. Загрузите быструю модель для автодополнения (отдельно от чат-модели)
docker exec ollama ollama pull starcoder2:3b   # Очень быстро, отлично для FIM автодополнения

# 6. Убедитесь, что модели доступны
docker exec ollama ollama list

# 7. Протестируйте инференцию
docker exec ollama ollama run qwen2.5-coder:32b "Write a Python function to binary search a sorted list"

Чтобы открыть Ollama внешне (чтобы ваша локальная IDE могла подключиться):

# Перезапустите Ollama с включённым внешним доступом
docker stop ollama && docker rm ollama

docker run -d \
  --name ollama \
  --gpus all \
  -p 11434:11434 \
  -v /workspace/ollama:/root/.ollama \
  -e OLLAMA_HOST=0.0.0.0 \
  --restart unless-stopped \
  ollama/ollama

# Тест с вашей ЛОКАЛЬНОЙ машины:
curl http://<clore-server-ip>:11434/api/tags

Открытие порта 11434 публично по умолчанию не имеет аутентификации. Для продакшна вместо этого настройте SSH-туннель (см. Подсказки и лучшие практики).

Вариант B — бекенд vLLM (высокая пропускная способность / совместимый с OpenAI)

vLLM предлагает более быстрый вывод и поддержку нескольких пользователей. Идеален, если несколько разработчиков делят один сервер Clore.ai.

# Запустите vLLM с API, совместимым с OpenAI
docker run -d \
  --name vllm \
  --gpus all \
  -p 8000:8000 \
  -v /workspace/hf-models:/root/.cache/huggingface \
  -e HF_TOKEN="your-huggingface-token" \
  --restart unless-stopped \
  vllm/vllm-openai:latest \
  --model Qwen/Qwen2.5-Coder-32B-Instruct \
  --dtype auto \
  --max-model-len 32768 \
  --tensor-parallel-size 1 \
  --gpu-memory-utilization 0.90 \
  --served-model-name qwen2.5-coder-32b

# Для multi-GPU (например, двух RTX 3090):
docker run -d \
  --name vllm \
  --gpus all \
  -p 8000:8000 \
  -v /workspace/hf-models:/root/.cache/huggingface \
  -e HF_TOKEN="your-huggingface-token" \
  vllm/vllm-openai:latest \
  --model deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct \
  --tensor-parallel-size 2 \
  --dtype auto \
  --max-model-len 65536 \
  --served-model-name deepseek-coder-v2

# Протестируйте API
curl http://localhost:8000/v1/models
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen2.5-coder-32b",
    "messages": [{"role": "user", "content": "Write a hello world in Rust"}],
    "max_tokens": 200
  }'

Вариант C — бекенд TabbyML (специалист по FIM автодополнению)

TabbyML обеспечивает превосходное fill-in-the-middle (FIM) автодополнение — встроенные предложения-«призраки». См. руководство TabbyML для полной информации по настройке.

# Быстрая настройка TabbyML для автодополнения Continue.dev
docker run -d \
  --name tabby \
  --gpus all \
  -p 8080:8080 \
  -v /workspace/tabby-data:/data \
  --restart unless-stopped \
  tabbyml/tabby serve \
  --model StarCoder2-7B \
  --chat-model Mistral-7B \
  --device cuda

# Проверка
curl http://localhost:8080/v1/health

Часть 2: Установка расширения Continue.dev

VS Code:

Откройте панель расширений (Ctrl+Shift+X / Cmd+Shift+X)
Поиск "Continue" — установите официальное расширение от Continue (continuedev)
Нажмите значок Continue в боковой панели (или Ctrl+Shift+I)

JetBrains (IntelliJ, PyCharm, WebStorm, GoLand):

File → Settings → Plugins → Marketplace
Поиск "Continue" и установите
Перезапустите IDE; панель Continue появится в правой боковой панели

Часть 3: Настройка Continue.dev для использования Clore.ai

Редактировать ~/.continue/config.json на вашем локальном компьютере:

{
  "models": [
    {
      "title": "Clore.ai — Qwen2.5-Coder 32B",
      "provider": "ollama",
      "model": "qwen2.5-coder:32b",
      "apiBase": "http://<clore-server-ip>:11434",
      "contextLength": 32768,
      "completionOptions": {
        "temperature": 0.1,
        "topP": 0.95,
        "maxTokens": 4096
      }
    },
    {
      "title": "Clore.ai — CodeLlama 13B (fast)",
      "provider": "ollama",
      "model": "codellama:13b",
      "apiBase": "http://<clore-server-ip>:11434",
      "contextLength": 16384
    }
  ],
  "tabAutocompleteModel": {
    "title": "StarCoder2 3B (autocomplete)",
    "provider": "ollama",
    "model": "starcoder2:3b",
    "apiBase": "http://<clore-server-ip>:11434"
  },
  "embeddingsProvider": {
    "provider": "ollama",
    "model": "nomic-embed-text",
    "apiBase": "http://<clore-server-ip>:11434"
  },
  "contextProviders": [
    { "name": "code" },
    { "name": "docs" },
    { "name": "diff" },
    { "name": "terminal" },
    { "name": "problems" },
    { "name": "folder" },
    { "name": "codebase" }
  ],
  "slashCommands": [
    { "name": "edit", "description": "Edit selected code" },
    { "name": "comment", "description": "Add comments to code" },
    { "name": "share", "description": "Export conversation as markdown" },
    { "name": "cmd", "description": "Generate terminal command" },
    { "name": "commit", "description": "Generate git commit message" }
  ]
}

Для бекенд vLLM вместо Ollama:

{
  "models": [
    {
      "title": "Clore.ai — DeepSeek Coder 33B (vLLM)",
      "provider": "openai",
      "model": "deepseek-coder-v2",
      "apiBase": "http://<clore-server-ip>:8000/v1",
      "apiKey": "not-required",
      "contextLength": 65536,
      "completionOptions": {
        "temperature": 0.0,
        "maxTokens": 8192
      }
    }
  ]
}

Для бекенд TabbyML (только автодополнение):

{
  "tabAutocompleteModel": {
    "title": "Clore.ai — TabbyML StarCoder2",
    "provider": "openai",
    "model": "StarCoder2-7B",
    "apiBase": "http://<clore-server-ip>:8080/v1",
    "apiKey": "auth-token-if-set"
  }
}

Конфигурация

Настройка SSH-туннеля (безопасный удалённый доступ)

Вместо того чтобы открывать порты публично, используйте SSH-туннель с вашей локальной машины:

# Откройте SSH-туннель: локальный порт 11434 → порт 11434 сервера Clore.ai
ssh -N -L 11434:localhost:11434 root@<clore-server-ip> -p <clore-ssh-port>

# Поддерживать туннель активным (добавьте в ~/.ssh/config):
Host clore-coding
  HostName <clore-server-ip>
  Port <clore-ssh-port>
  User root
  LocalForward 11434 localhost:11434
  LocalForward 8000 localhost:8000
  ServerAliveInterval 60
  ServerAliveCountMax 3

# Подключитесь с помощью:
ssh -N clore-coding

# Затем в config.json используйте localhost:
# "apiBase": "http://localhost:11434"

Постоянный туннель с autossh

# Установите autossh на вашей локальной машине (Linux/macOS)
sudo apt install autossh   # Ubuntu/Debian
brew install autossh       # macOS

# Запустите постоянный туннель с автопереподключением
autossh -M 0 -N \
  -o "ServerAliveInterval 30" \
  -o "ServerAliveCountMax 3" \
  -L 11434:localhost:11434 \
  root@<clore-server-ip> -p <clore-ssh-port>

# Добавить в systemd для автоматического старта при загрузке (Linux)
cat > ~/.config/systemd/user/clore-tunnel.service << 'EOF'
[Unit]
Description=SSH tunnel to Clore.ai coding server
After=network.target

[Service]
ExecStart=autossh -M 0 -N \
  -o StrictHostKeyChecking=accept-new \
  -o ServerAliveInterval=30 \
  -o ServerAliveCountMax=3 \
  -L 11434:localhost:11434 \
  root@CLORE_IP -p CLORE_PORT
Restart=always
RestartSec=10

[Install]
WantedBy=default.target
EOF

systemctl --user enable clore-tunnel
systemctl --user start clore-tunnel

Загрузка нескольких моделей для разных задач

Для RTX 3090 (24 ГБ) вы можете одновременно запустить большую чат-модель и маленькую модель для автодополнения:

# На сервере Clore.ai:

# Загрузите модели
docker exec ollama ollama pull qwen2.5-coder:32b      # Чат (22 ГБ)
docker exec ollama ollama pull starcoder2:3b           # Автодополнение (2 ГБ)
docker exec ollama ollama pull nomic-embed-text        # Эмбеддинги (0.5 ГБ)

# Ollama автоматически управляет переключением моделей
# Все три помещаются в 24 ГБ VRAM при умном кэшировании

# Следите за использованием VRAM
nvidia-smi --query-gpu=memory.used,memory.free --format=csv -l 5

Индексирование кодовой базы (RAG для вашего репозитория)

Continue.dev может индексировать вашу кодовую базу для контекстно-зависимых подсказок. Загрузите модель эмбеддингов:

# На сервере Clore.ai — добавьте модель эмбеддингов в Ollama
docker exec ollama ollama pull nomic-embed-text

# В local config.json эмбеддинги уже настроены выше.
# Continue.dev автоматически проиндексирует ваш открытый рабочий каталог.
# Запуск ручного переиндекса: Ctrl+Shift+P → "Continue: Index Codebase"

Ускорение с помощью GPU

Мониторинг производительности инференса

# На вашем сервере Clore.ai — наблюдайте за GPU во время сессий кодирования
watch -n 1 nvidia-smi

# Проверьте токены в секунду (логи Ollama)
docker logs ollama --tail 20 -f

# Подробная статистика GPU
nvidia-smi dmon -s u -d 2

# Разбивка по памяти
nvidia-smi --query-gpu=name,memory.used,memory.free,utilization.gpu \
  --format=csv,noheader -l 5

Ожидаемая производительность по GPU

GPU

Модель

Контекст

Токенов/сек (примерно)

RTX 3060 12GB

CodeLlama 7B

~40–60 т/с

RTX 3060 12GB

DeepSeek-Coder 6.7B

~45–65 т/с

RTX 3090 24GB

Qwen2.5-Coder 32B (Q4)

16K

~15–25 т/с

RTX 3090 24GB

DeepSeek-Coder 33B (Q4)

16K

~15–22 т/с

RTX 4090 24GB

Qwen2.5-Coder 32B (Q4)

16K

~25–40 т/с

A100 40GB

Qwen2.5-Coder 32B (FP16)

32K

~35–50 т/с

A100 80GB

CodeLlama 70B (Q4)

32K

~20–30 т/с

Для автодополнения (fill-in-the-middle), starcoder2:3b или codellama:7b достигайте 50–100 т/с — достаточно быстро, чтобы казаться мгновенным в IDE.

Настройка Ollama для лучшей производительности

# На сервере Clore.ai — оптимизируйте настройки Ollama
docker stop ollama && docker rm ollama

docker run -d \
  --name ollama \
  --gpus all \
  -p 11434:11434 \
  -v /workspace/ollama:/root/.ollama \
  -e OLLAMA_HOST=0.0.0.0 \
  -e OLLAMA_NUM_PARALLEL=2 \
  -e OLLAMA_MAX_LOADED_MODELS=2 \
  -e OLLAMA_FLASH_ATTENTION=1 \
  --restart unless-stopped \
  ollama/ollama

# OLLAMA_NUM_PARALLEL=2: обслуживать 2 запроса одновременно
# OLLAMA_MAX_LOADED_MODELS=2: держать 2 модели в памяти GPU
# OLLAMA_FLASH_ATTENTION=1: включить flash attention (быстрее, меньше памяти)

Подсказки и лучшие практики

Используйте разные модели для разных задач

Настройте Continue.dev со специализированными моделями для разных типов задач — UI позволяет переключать модели прямо в разговоре:

{
  "models": [
    {
      "title": "Chat — Qwen2.5-Coder 32B",
      "provider": "ollama",
      "model": "qwen2.5-coder:32b",
      "apiBase": "http://localhost:11434",
      "contextLength": 32768,
      "description": "Лучше для сложных вопросов, ревью кода, архитектурных решений"
    },
    {
      "title": "Fast — CodeLlama 7B",
      "provider": "ollama",
      "model": "codellama:7b",
      "apiBase": "http://localhost:11434",
      "contextLength": 8192,
      "description": "Быстрые ответы, простые завершения, низкая задержка"
    },
    {
      "title": "Autocomplete — StarCoder2 3B",
      "provider": "ollama",
      "model": "starcoder2:3b",
      "apiBase": "http://localhost:11434",
      "contextLength": 4096,
      "description": "Встроенные подсказки-«призраки"
    }
  ]
}

Сравнение стоимости

Решение

Ежемесячная стоимость (использование 8 ч/день)

Конфиденциальность

Качество модели

GitHub Copilot

$19/пользователь/мес

❌ Облако Microsoft

GPT-4o (закрытая)

Cursor Pro

$20/пользователь/мес

❌ Облако Cursor

Claude 3.5 (закрытая)

RTX 3060 на Clore.ai

~$24/мес

✅ Ваш сервер

CodeLlama 13B

RTX 3090 на Clore.ai

~$48/мес

✅ Ваш сервер

Qwen2.5-Coder 32B

RTX 4090 на Clore.ai

~$84/мес

✅ Ваш сервер

Qwen2.5-Coder 32B

A100 80GB на Clore.ai

~$264/мес

✅ Ваш сервер

CodeLlama 70B

Для команды из 3+ разработчиков, разделяющих один Clore.ai RTX 3090 (~$48/мес всего), стоимость на пользователя выгоднее Copilot, при этом вы получаете более крупную приватную модель.

Выключайте, когда не кодируете

Clore.ai выставляет плату почасово. Используйте простой скрипт для запуска/остановки сервера:

# Сохраните эти команды как локальные скрипты

# start-coding-server.sh
#!/bin/bash
echo "Открываю SSH-туннель к Clore.ai..."
ssh -N -f -L 11434:localhost:11434 clore-coding
echo "Туннель открыт. Continue.dev готов."

# stop-coding-server.sh
#!/bin/bash
echo "Закрываю SSH-туннель..."
pkill -f "ssh.*clore-coding"
echo "Туннель закрыт. Не забудьте остановить ваш заказ в Clore.ai, чтобы прекратить списания!"

Используйте пользовательские команды Continue.dev

Добавьте пользовательские слеш-команды в config.json для обычных рабочих потоков разработки:

{
  "customCommands": [
    {
      "name": "review",
      "prompt": "Review this code for bugs, security issues, and performance problems. Be specific and actionable.",
      "description": "Code review"
    },
    {
      "name": "test",
      "prompt": "Write comprehensive unit tests for this code. Include edge cases. Use the same language/framework as the code.",
      "description": "Generate tests"
    },
    {
      "name": "docstring",
      "prompt": "Add clear, comprehensive docstrings/comments to this code following best practices for the language.",
      "description": "Add documentation"
    },
    {
      "name": "optimize",
      "prompt": "Optimize this code for performance. Explain what you changed and why.",
      "description": "Optimize code"
    }
  ]
}

Устранение неполадок

Проблема

Вероятная причина

Решение

Continue.dev показывает «Connection refused»

Ollama недоступен

Проверьте, активен ли SSH-туннель; убедитесь, что curl http://localhost:11434/ работает

Автодополнение не срабатывает

Модель таб-автодополнения не установлена

Добавьте tabAutocompleteModel в config.json; включите в настройках Continue

Очень медленные ответы (>30 с до первого токена)

Загрузка модели с диска

Первый запрос загружает модель в VRAM — последующие запросы быстрые

Ошибка «Model not found»

Модель не загружена

Запустите docker exec ollama ollama pull <model-name> на сервере Clore.ai

Большая задержка между токенами

Задержка сети или модель слишком большая

Используйте SSH-туннель; переключитесь на меньшую модель; проверьте загрузку GPU сервера

Контекст кодовой базы не работает

Отсутствует модель эмбеддингов

Загрузите nomic-embed-text через Ollama; проверьте embeddingsProvider в config.json

SSH-туннель часто падает

Нестабильное соединение

Используйте autossh для постоянного переподключения; добавьте ServerAliveInterval 30

Превышено окно контекста

Длинные файлы/разговоры

Уменьшите contextLength в config.json; используйте модель с большей длиной контекста

Плагин JetBrains не загружается

Несовместимость версии IDE

Обновите JetBrains IDE до последней версии; проверьте матрицу совместимости плагина Continue.dev

vLLM OOM при загрузке

Недостаточно VRAM

Добавьте --gpu-memory-utilization 0.85; используйте меньшую модель или квантизированную версию

Команды для отладки

# На вашей ЛОКАЛЬНОЙ машине — проверьте соединение
curl http://localhost:11434/api/tags          # если используете SSH-туннель
curl http://<clore-ip>:11434/api/tags        # если порт открыт напрямую

# На сервере CLORE.AI — проверьте Ollama
docker logs ollama --tail 30 -f
docker exec ollama ollama list
docker exec ollama ollama ps                  # показать загруженные в данный момент модели

# Протестируйте время отклика модели
time curl http://localhost:11434/api/generate \
  -d '{"model": "codellama:7b", "prompt": "def hello():", "stream": false}'

# Проверьте память GPU
nvidia-smi --query-gpu=memory.used,memory.free --format=csv

# Проверьте логи vLLM
docker logs vllm --tail 50 -f

# Перезапустите Ollama, не теряя моделей
docker restart ollama

Валидация конфигурации Continue.dev

# Проверьте синтаксис config.json на вашей локальной машине
python3 -c "
import json, sys
try:
    config = json.load(open(sys.argv[1]))
    print('✅ Config is valid JSON')
    print(f'Models: {[m[\"title\"] for m in config.get(\"models\", [])]}')
except Exception as e:
    print(f'❌ Error: {e}')
" ~/.continue/config.json

Дополнительное чтение

Документация Continue.dev — официальная документация по всем интеграциям IDE и опциям конфигурации
GitHub Continue.dev — исходный код, проблемы, совместимость моделей
Справочник конфигурации Continue.dev — полный config.json schema
Ollama на Clore.ai — подробное руководство по настройке Ollama (рекомендуемый бэкенд)
vLLM на Clore.ai — высокопроизводительная альтернативная серверная часть для команд
TabbyML на Clore.ai — специализированный автозаполняющий бэкенд с оптимизацией FIM
Руководство по сравнению GPU — как выбрать подходящий GPU для вашей рабочей нагрузки по кодированию
Совместимость моделей — какие модели помещаются в какие размеры VRAM
Qwen2.5-Coder — в настоящее время лучшая открытая модель для кодирования
DeepSeek-Coder-V2 — серьёзная альтернатива с длинным контекстом
CLORE.AI Marketplace — арендуйте GPU-серверы

ПредыдущаяФреймворк Haystack AI СледующаяОбзор

Последнее обновление 23 часа назад

Это было полезно?

hashtagОбзор

hashtagРекомендуемые модели для кодирования

hashtagТребования

hashtagТребования к серверу Clore.ai

hashtagЛокальные требования (ваша машина)

hashtagБыстрый старт

hashtagЧасть 1: Настройка бекенда Clore.ai

hashtagВариант A — бекенд Ollama (рекомендуется для большинства пользователей)

hashtagВариант B — бекенд vLLM (высокая пропускная способность / совместимый с OpenAI)

hashtagВариант C — бекенд TabbyML (специалист по FIM автодополнению)

hashtagЧасть 2: Установка расширения Continue.dev

hashtagЧасть 3: Настройка Continue.dev для использования Clore.ai

hashtagКонфигурация

hashtagНастройка SSH-туннеля (безопасный удалённый доступ)

hashtagПостоянный туннель с autossh

hashtagЗагрузка нескольких моделей для разных задач

hashtagИндексирование кодовой базы (RAG для вашего репозитория)

hashtagУскорение с помощью GPU

hashtagМониторинг производительности инференса

hashtagОжидаемая производительность по GPU

hashtagНастройка Ollama для лучшей производительности

hashtagПодсказки и лучшие практики

hashtagИспользуйте разные модели для разных задач

hashtagСравнение стоимости

hashtagВыключайте, когда не кодируете

hashtagИспользуйте пользовательские команды Continue.dev

hashtagУстранение неполадок

hashtagКоманды для отладки

hashtagВалидация конфигурации Continue.dev

hashtagДополнительное чтение

Обзор

Рекомендуемые модели для кодирования

Требования

Требования к серверу Clore.ai

Локальные требования (ваша машина)

Быстрый старт

Часть 1: Настройка бекенда Clore.ai

Вариант A — бекенд Ollama (рекомендуется для большинства пользователей)

Вариант B — бекенд vLLM (высокая пропускная способность / совместимый с OpenAI)

Вариант C — бекенд TabbyML (специалист по FIM автодополнению)

Часть 2: Установка расширения Continue.dev

Часть 3: Настройка Continue.dev для использования Clore.ai

Конфигурация

Настройка SSH-туннеля (безопасный удалённый доступ)

Постоянный туннель с autossh

Загрузка нескольких моделей для разных задач

Индексирование кодовой базы (RAG для вашего репозитория)

Ускорение с помощью GPU

Мониторинг производительности инференса

Ожидаемая производительность по GPU

Настройка Ollama для лучшей производительности

Подсказки и лучшие практики

Используйте разные модели для разных задач

Сравнение стоимости

Выключайте, когда не кодируете

Используйте пользовательские команды Continue.dev

Устранение неполадок

Команды для отладки

Валидация конфигурации Continue.dev

Дополнительное чтение