Continue.dev KI-Codierung

Betreiben Sie Continue.dev mit Clore.ai GPUs — führen Sie CodeLlama 34B, DeepSeek Coder und Qwen2.5-Coder lokal auf günstigen GPU-Mietgeräten für private KI-Coding-Unterstützung aus.

Continue.dev ist ein Open-Source-AI-Coding-Assistent für VS Code und JetBrains mit über 25.000 GitHub-Sternen. Das Extension läuft auf Ihrem lokalen Rechner (oder in Ihrer IDE), verbindet sich jedoch für Inferenz mit einem Backend-Model-Server. Indem Sie Continue.dev auf eine leistungsfähige GPU von Clore.ai zeigen, erhalten Sie:

  • Erstklassige Codierungsmodelle (34B+ Parameter), die nicht auf Ihren Laptop passen

  • Volle Privatsphäre — Code verbleibt auf einer Infrastruktur, die Sie kontrollieren

  • Flexible Kosten — zahlen Sie nur, während Sie coden (~0,20–0,50 $/Std. vs. 19 $/Monat für Copilot)

  • OpenAI-kompatible API — Continue.dev verbindet sich nahtlos mit Ollama, vLLM oder TabbyML

Diese Anleitung konzentriert sich auf das Einrichten des Clore.ai GPU-Backends (Ollama oder vLLM), mit dem Ihre lokale Continue.dev-Erweiterung sich verbindet.

circle-check
circle-info

Architektur: Ihre IDE (mit Continue.dev-Erweiterung) → Internet → Clore.ai GPU-Server (führt Ollama / vLLM / TabbyML aus) → lokale Modellausführung. Kein Code berührt jemals eine Drittanbieter-API.

Überblick

Eigenschaft
Details

Lizenz

Apache 2.0

GitHub-Sterne

25K+

IDE-Unterstützung

VS Code, JetBrains (IntelliJ, PyCharm, WebStorm, GoLand usw.)

Konfigurationsdatei

~/.continue/config.json

Backend-Optionen

Ollama, vLLM, TabbyML, LM Studio, llama.cpp, OpenAI-kompatible APIs

Schwierigkeitsgrad

Einfach (Erweiterung installieren) / Mittel (selbstgehostetes Backend)

GPU erforderlich?

Auf dem Clore.ai-Server (ja); auf Ihrem Laptop (nein)

Hauptmerkmale

Autocomplete, Chat, Bearbeitungsmodus, Codebase-Kontext (RAG), benutzerdefinierte Slash-Befehle

Empfohlene Modelle zum Programmieren

Modell
VRAM
Stärke
Hinweise

codellama:7b

~6 GB

Schnelles Autocomplete

Guter Ausgangspunkt

codellama:13b

~10 GB

Ausgeglichen

Beste Qualität/Geschwindigkeit für Autocomplete

codellama:34b

~22 GB

Beste CodeLlama-Qualität

Benötigt RTX 3090 / A100

deepseek-coder:6.7b

~5 GB

Python/JS-Spezialist

Ausgezeichnet für Web-Entwicklung

deepseek-coder:33b

~22 GB

Top-Qualität Open Source

Rivalisiert mit GPT-4 beim Code

qwen2.5-coder:7b

~6 GB

Mehrsprachiger Code

Stark in über 40 Sprachen

qwen2.5-coder:32b

~22 GB

State-of-the-art

Bestes offenes Codiermodell 2024

starcoder2:15b

~12 GB

Spezialist für Codevervollständigung

FIM-Unterstützung (Fill-in-the-middle)

Anforderungen

Clore.ai Serveranforderungen

Tier
GPU
VRAM
RAM
Festplatte
Preis
Modelle

Budget

RTX 3060

12 GB

16 GB

40 GB

~0,10 $/Std.

CodeLlama 7B, DeepSeek 6.7B, Qwen2.5-Coder 7B

Empfohlen

RTX 3090

24 GB

32 GB

80 GB

~$0.20/Stunde

CodeLlama 34B, DeepSeek 33B, Qwen2.5-Coder 32B

Leistung

RTX 4090

24 GB

32 GB

80 GB

~$0.35/Stunde

Gleiche Modelle wie oben, schnellere Inferenz

Leistung

A100 40GB

40 GB

64 GB

120 GB

~0,60 $/Std.

Mehrere 34B-Modelle gleichzeitig

Maximal

A100 80GB

80 GB

80 GB

200 GB

~$1.10/Stunde

70B-Modelle (CodeLlama 70B)

Lokale Anforderungen (Ihr Gerät)

  • VS Code oder eine beliebige JetBrains-IDE

  • Continue.dev-Erweiterung installiert

  • Stabile Internetverbindung zu Ihrem Clore.ai-Server

  • Keine lokale GPU erforderlich — alle Inferenzvorgänge erfolgen auf Clore.ai

Schnellstart

Teil 1: Einrichten des Clore.ai-Backends

Option A — Ollama-Backend (Für die meisten Nutzer empfohlen)

Ollama ist das einfachste Backend für Continue.dev — einfache Einrichtung, ausgezeichnetes Modellmanagement, OpenAI-kompatible API.

Um Ollama extern freizugeben (so dass Ihre lokale IDE sich verbinden kann):

circle-exclamation

Option B — vLLM-Backend (Hoher Durchsatz / OpenAI-kompatibel)

vLLM bietet schnellere Inferenz und Mehrbenutzer-Unterstützung. Ideal, wenn mehrere Entwickler einen Clore.ai-Server teilen.

Option C — TabbyML-Backend (FIM-Autocomplete-Spezialist)

TabbyML bietet überlegene Fill-in-the-middle-(FIM)-Autocomplete — die Inline-Geistertext-Vorschläge. Siehe die TabbyML-Anleitungarrow-up-right für vollständige Einrichtungsdetails.

Teil 2: Continue.dev-Erweiterung installieren

VS Code:

  1. Öffnen Sie das Erweiterungen-Panel (Ctrl+Shift+X / Cmd+Shift+X)

  2. Suchen "Continue" — installieren Sie die offizielle Erweiterung von Continue (continuedev)

  3. Klicken Sie auf das Continue-Symbol in der Seitenleiste (oder Ctrl+Shift+I)

JetBrains (IntelliJ, PyCharm, WebStorm, GoLand):

  1. Datei → Einstellungen → Plugins → Marketplace

  2. Suchen "Continue" und installieren Sie

  3. Starten Sie die IDE neu; das Continue-Panel erscheint in der rechten Seitenleiste

Teil 3: Continue.dev konfigurieren, um Clore.ai zu verwenden

Bearbeiten ~/.continue/config.json auf Ihrem lokalen Rechner:

Für vLLM-Backend anstelle von Ollama:

Für TabbyML-Backend (nur Autocomplete):

Konfiguration

SSH-Tunnel-Einrichtung (sicherer Fernzugriff)

Anstatt Ports öffentlich freizugeben, verwenden Sie einen SSH-Tunnel von Ihrem lokalen Rechner:

Persistenter Tunnel mit autossh

Mehrere Modelle für verschiedene Aufgaben laden

Für eine RTX 3090 (24 GB) können Sie ein großes Chat-Modell und ein kleines Autocomplete-Modell gleichzeitig ausführen:

Codebase-Indizierung (RAG für Ihr Repo)

Continue.dev kann Ihre Codebasis für kontextbewusste Vorschläge indizieren. Ziehen Sie ein Embedding-Modell:

GPU-Beschleunigung

Inference-Leistung überwachen

Erwartete Leistung nach GPU

GPU
Modell
Kontext
Tokens/Sek (ca.)

RTX 3060 12GB

CodeLlama 7B

8K

~40–60 t/s

RTX 3060 12GB

DeepSeek-Coder 6.7B

8K

~45–65 t/s

RTX 3090 24GB

Qwen2.5-Coder 32B (Q4)

16K

~15–25 t/s

RTX 3090 24GB

DeepSeek-Coder 33B (Q4)

16K

~15–22 t/s

RTX 4090 24GB

Qwen2.5-Coder 32B (Q4)

16K

~25–40 t/s

A100 40GB

Qwen2.5-Coder 32B (FP16)

32K

~35–50 t/s

A100 80GB

CodeLlama 70B (Q4)

32K

~20–30 t/s

Für Autocomplete (Fill-in-the-middle), starcoder2:3b oder codellama:7b erzielen 50–100 t/s — schnell genug, um sich im IDE sofort anzufühlen.

Ollama für bessere Leistung optimieren

Tipps & bewährte Methoden

Verschiedene Modelle für verschiedene Aufgaben verwenden

Konfigurieren Sie Continue.dev mit spezialisierten Modellen pro Aufgabentyp — die UI erlaubt, Modelle mitten in einer Konversation zu wechseln:

Kostenvergleich

Lösung
Monatliche Kosten (8 Std./Tag Nutzung)
Privatsphäre
Modellqualität

GitHub Copilot

19 $/Nutzer/Monat

❌ Microsoft-Cloud

GPT-4o (geschlossen)

Cursor Pro

20 $/Nutzer/Monat

❌ Cursor-Cloud

Claude 3.5 (geschlossen)

RTX 3060 auf Clore.ai

~24 $/Monat

✅ Ihr Server

CodeLlama 13B

RTX 3090 auf Clore.ai

~48 $/Monat

✅ Ihr Server

Qwen2.5-Coder 32B

RTX 4090 auf Clore.ai

~84 $/Monat

✅ Ihr Server

Qwen2.5-Coder 32B

A100 80GB auf Clore.ai

~264 $/Monat

✅ Ihr Server

CodeLlama 70B

Für ein Team von 3+ Entwicklern, die eine Clore.ai RTX 3090 (~48 $/Monat insgesamt) teilen, ist der Preis pro Nutzer besser als bei Copilot, während ein größeres, privates Modell bereitgestellt wird.

Herunterfahren, wenn nicht programmiert wird

Clore.ai berechnet stündlich. Verwenden Sie ein einfaches Skript, um den Server zu starten/stoppen:

Verwenden Sie Continue.dev-Benutzerbefehle

Fügen Sie benutzerdefinierte Slash-Befehle zu config.json für gängige Codierungs-Workflows hinzu:

Fehlerbehebung

Problem
Wahrscheinliche Ursache
Lösung

Continue.dev zeigt "Connection refused"

Ollama nicht erreichbar

Überprüfen Sie, dass der SSH-Tunnel aktiv ist; verifizieren Sie curl http://localhost:11434/ funktioniert

Autocomplete löst nicht aus

Tab-Autocomplete-Modell nicht gesetzt

Hinzufügen tabAutocompleteModel in config.json; aktivieren Sie es in den Continue-Einstellungen

Sehr langsame Antworten (>30s erstes Token)

Modell lädt von der Festplatte

Die erste Anfrage lädt das Modell in den VRAM — nachfolgende Anfragen sind schnell

"Modell nicht gefunden" Fehler

Modell nicht gezogen

Ausführen docker exec ollama ollama pull <model-name> auf dem Clore.ai-Server

Hohe Latenz zwischen Tokens

Netzwerkverzögerung oder Modell zu groß

Verwenden Sie SSH-Tunnel; wechseln Sie zu einem kleineren Modell; prüfen Sie GPU-Auslastung des Servers

Codebase-Kontext funktioniert nicht

Embeddings-Modell fehlt

Ziehen Sie nomic-embed-text via Ollama; prüfen Sie embeddingsProvider in config.json

SSH-Tunnel bricht häufig ab

Unstabile Verbindung

Verwenden Sie autossh für persistente Wiederverbindung; fügen Sie hinzu ServerAliveInterval 30

Kontextfenster überschritten

Lange Dateien/Konversationen

Reduziere contextLength in config.json; verwenden Sie ein Modell mit längerem Kontext

JetBrains-Plugin wird nicht geladen

Inkompatible IDE-Version

Aktualisieren Sie die JetBrains-IDE auf die neueste Version; prüfen Sie die Kompatibilitätsmatrix des Continue.dev-Plugins

vLLM OOM beim Laden

Nicht genug VRAM

Hinzufügen --gpu-memory-utilization 0.85; verwenden Sie ein kleineres Modell oder eine quantisierte Version

Debug-Befehle

Continue.dev Konfigurationsvalidierung

Weiterführende Lektüre

Zuletzt aktualisiert

War das hilfreich?