Continue.dev AI Coding

Continue.dev mit Clore.ai‑GPUs betreiben — CodeLlama 34B, DeepSeek Coder und Qwen2.5‑Coder lokal auf günstigen GPU‑Mieten für private AI‑Coding‑Unterstützung ausführen.

Continue.dev ist ein Open-Source-AI-Coding-Assistent für VS Code und JetBrains mit über 25.000 GitHub-Sternen. Das Erweiterung läuft auf Ihrem lokalen Rechner (oder in Ihrer IDE), verbindet sich jedoch für Inferenz mit einem Backend-Modelserver. Wenn Sie Continue.dev auf eine leistungsstarke GPU zeigen, die Sie von Clore.ai mieten, erhalten Sie:

  • Erstklassige Coding-Modelle (34B+ Parameter), die nicht auf Ihren Laptop passen

  • Volle Privatsphäre — Code bleibt auf Infrastruktur, die Sie kontrollieren

  • Flexible Kosten — zahlen Sie nur während Sie programmieren (~0,20–0,50$/Std. vs. 19$/Monat für Copilot)

  • OpenAI-kompatible API — Continue.dev verbindet sich nahtlos mit Ollama, vLLM oder TabbyML

Diese Anleitung konzentriert sich auf das Einrichten des Clore.ai GPU-Backends (Ollama oder vLLM), mit dem sich Ihre lokale Continue.dev-Erweiterung verbindet.

circle-check
circle-info

Architektur: Ihre IDE (mit Continue.dev-Erweiterung) → Internet → Clore.ai GPU-Server (mit Ollama / vLLM / TabbyML) → lokale Modellinferenz. Kein Code gelangt jemals an eine Drittanbieter-API.

Übersicht

Eigenschaft
Details

Lizenz

Apache 2.0

GitHub-Stars

25K+

IDE-Unterstützung

VS Code, JetBrains (IntelliJ, PyCharm, WebStorm, GoLand usw.)

Konfigurationsdatei

~/.continue/config.json

Backend-Optionen

Ollama, vLLM, TabbyML, LM Studio, llama.cpp, OpenAI-kompatible APIs

Schwierigkeitsgrad

Einfach (Erweiterungsinstallation) / Mittel (self-hosted Backend)

GPU erforderlich?

Auf dem Clore.ai-Server (ja); auf Ihrem Laptop (nein)

Hauptfunktionen

Autocomplete, Chat, Edit-Modus, Codebase-Kontext (RAG), benutzerdefinierte Slash-Befehle

Empfohlene Modelle zum Programmieren

Modell
VRAM
Stärke
Anmerkungen

codellama:7b

~6 GB

Schnelles Autocomplete

Guter Ausgangspunkt

codellama:13b

~10 GB

Ausgewogen

Bestes Qualität/Geschwindigkeit-Verhältnis für Autocomplete

codellama:34b

~22 GB

Beste CodeLlama-Qualität

Benötigt RTX 3090 / A100

deepseek-coder:6.7b

~5 GB

Python/JS-Spezialist

Ausgezeichnet für Web-Entwicklung

deepseek-coder:33b

~22 GB

Erstklassig Open Source

Gleicht GPT-4 beim Code aus

qwen2.5-coder:7b

~6 GB

Mehrsprachiger Code

Stark in über 40 Sprachen

qwen2.5-coder:32b

~22 GB

State-of-the-art

Bestes offenes Coding-Modell 2024

starcoder2:15b

~12 GB

Spezialist für Codevervollständigung

FIM (fill-in-the-middle)-Unterstützung

Anforderungen

Clore.ai Serveranforderungen

Tier
GPU
VRAM
RAM
Festplatte
Preis
Modelle

Budget

RTX 3060

12 GB

16 GB

40 GB

~0,10$/Std.

CodeLlama 7B, DeepSeek 6.7B, Qwen2.5-Coder 7B

Empfohlen

RTX 3090

24 GB

32 GB

80 GB

~0,20$/Std.

CodeLlama 34B, DeepSeek 33B, Qwen2.5-Coder 32B

Performance

RTX 4090

24 GB

32 GB

80 GB

~0,35$/Std.

Gleiche Modelle wie oben, schnellere Inferenz

Power

A100 40GB

40 GB

64 GB

120 GB

~0,60$/Std.

Mehrere 34B-Modelle gleichzeitig

Maximum

A100 80GB

80 GB

80 GB

200 GB

~1,10$/Std.

70B-Modelle (CodeLlama 70B)

Lokale Anforderungen (Ihr Rechner)

  • VS Code oder eine beliebige JetBrains-IDE

  • Continue.dev-Erweiterung installiert

  • Stabile Internetverbindung zu Ihrem Clore.ai-Server

  • Keine lokale GPU erforderlich — alle Inferenzvorgänge erfolgen auf Clore.ai

Schnellstart

Teil 1: Einrichten des Clore.ai-Backends

Option A — Ollama-Backend (für die meisten Nutzer empfohlen)

Ollama ist das einfachste Backend für Continue.dev — einfache Einrichtung, exzellentes Modellmanagement, OpenAI-kompatible API.

Um Ollama extern verfügbar zu machen (damit Ihre lokale IDE sich verbinden kann):

circle-exclamation

Option B — vLLM-Backend (High-Throughput / OpenAI-kompatibel)

vLLM bietet schnellere Inferenz und Multi-User-Unterstützung. Ideal, wenn mehrere Entwickler einen Clore.ai-Server teilen.

Option C — TabbyML-Backend (FIM-Autocomplete-Spezialist)

TabbyML bietet überlegene Fill-in-the-Middle (FIM) Autocomplete — die Inline-Ghost-Text-Vorschläge. Siehe die TabbyML-Dokumentationarrow-up-right für vollständige Einrichtungsdetails.

Teil 2: Continue.dev-Erweiterung installieren

VS Code:

  1. Öffnen Sie das Erweiterungsfeld (Ctrl+Shift+X / Cmd+Shift+X)

  2. Suchen "Continue" — installieren Sie die offizielle Erweiterung von Continue (continuedev)

  3. Klicken Sie auf das Continue-Symbol in der Seitenleiste (oder Ctrl+Shift+I)

JetBrains (IntelliJ, PyCharm, WebStorm, GoLand):

  1. Datei → Einstellungen → Plugins → Marketplace

  2. Suchen "Continue" und installieren Sie

  3. Starten Sie die IDE neu; das Continue-Panel erscheint in der rechten Seitenleiste

Teil 3: Continue.dev konfigurieren, um Clore.ai zu verwenden

Bearbeiten ~/.continue/config.json auf Ihrem lokalen Rechner:

Für vLLM-Backend anstelle von Ollama:

Für TabbyML-Backend (nur Autocomplete):

Konfiguration

SSH-Tunnel-Einrichtung (sicherer Fernzugriff)

Anstatt Ports öffentlich freizugeben, verwenden Sie einen SSH-Tunnel von Ihrer lokalen Maschine:

Persistenter Tunnel mit autossh

Mehrere Modelle für verschiedene Aufgaben laden

Für eine RTX 3090 (24 GB) können Sie ein großes Chat-Modell und ein kleines Autocomplete-Modell gleichzeitig betreiben:

Codebase-Indexierung (RAG für Ihr Repo)

Continue.dev kann Ihre Codebasis für kontextbezogene Vorschläge indexieren. Laden Sie ein Embedding-Modell herunter:

GPU-Beschleunigung

Inference-Performance überwachen

Erwartete Performance nach GPU

GPU
Modell
Kontext
Tokens/Sek. (ca.)

RTX 3060 12GB

CodeLlama 7B

8K

~40–60 t/s

RTX 3060 12GB

DeepSeek-Coder 6.7B

8K

~45–65 t/s

RTX 3090 24GB

Qwen2.5-Coder 32B (Q4)

16K

~15–25 t/s

RTX 3090 24GB

DeepSeek-Coder 33B (Q4)

16K

~15–22 t/s

RTX 4090 24GB

Qwen2.5-Coder 32B (Q4)

16K

~25–40 t/s

A100 40GB

Qwen2.5-Coder 32B (FP16)

32K

~35–50 t/s

A100 80GB

CodeLlama 70B (Q4)

32K

~20–30 t/s

Für Autocomplete (fill-in-the-middle), starcoder2:3b oder codellama:7b erzielen 50–100 t/s — schnell genug, um sich in der IDE sofort anzufühlen.

Ollama für bessere Performance optimieren

Tipps & Best Practices

Verschiedene Modelle für unterschiedliche Aufgaben verwenden

Konfigurieren Sie Continue.dev mit spezialisierten Modellen pro Aufgabentyp — die UI ermöglicht das Wechseln von Modellen mitten im Gespräch:

Kostenvergleich

Lösung
Monatliche Kosten (8 Std./Tag Nutzung)
Privatsphäre
Modellqualität

GitHub Copilot

19$/Benutzer/Monat

❌ Microsoft-Cloud

GPT-4o (geschlossen)

Cursor Pro

20$/Benutzer/Monat

❌ Cursor-Cloud

Claude 3.5 (geschlossen)

RTX 3060 auf Clore.ai

~24$/Monat

✅ Ihr Server

CodeLlama 13B

RTX 3090 auf Clore.ai

~48 $/Monat

✅ Ihr Server

Qwen2.5-Coder 32B

RTX 4090 auf Clore.ai

~84 $/Monat

✅ Ihr Server

Qwen2.5-Coder 32B

A100 80GB auf Clore.ai

~264 $/Monat

✅ Ihr Server

CodeLlama 70B

Für ein Team von 3+ Entwicklern, die sich eine Clore.ai RTX 3090 (~48 $/Monat insgesamt) teilen, ist der Preis pro Nutzer günstiger als Copilot und bietet gleichzeitig ein größeres, privates Modell.

Beim Nicht-Codieren Herunterfahren

Clore.ai berechnet nach Stunden. Verwende ein einfaches Skript, um den Server zu starten/stoppen:

Continue.dev benutzerdefinierte Befehle verwenden

Füge benutzerdefinierte Slash-Befehle zu config.json für gängige Coding-Workflows hinzu:

Fehlerbehebung

Problem
Wahrscheinliche Ursache
Lösung

Continue.dev zeigt "Connection refused" an

Ollama nicht erreichbar

Prüfe, ob der SSH-Tunnel aktiv ist; verifiziere curl http://localhost:11434/ funktioniert

Autocomplete löst nicht aus

Tab-Autocomplete-Modell nicht gesetzt

Füge tabAutocompleteModel zur config.json hinzu; aktiviere es in den Continue-Einstellungen

Sehr langsame Antworten (>30s erstes Token)

Modell wird von der Festplatte geladen

Die erste Anfrage lädt das Modell in den VRAM — nachfolgende Anfragen sind schnell

"Model not found" Fehler

Modell nicht heruntergeladen

Führe docker exec ollama ollama pull <model-name> auf dem Clore.ai-Server aus

Hohe Latenz zwischen Tokens

Netzwerkverzögerung oder Modell zu groß

Verwende SSH-Tunnel; wechsle zu kleinem Modell; prüfe GPU-Auslastung des Servers

Codebase-Kontext funktioniert nicht

Embeddings-Modell fehlt

Ziehe nomic-embed-text über Ollama; prüfe embeddingsProvider in der config.json

SSH-Tunnel bricht häufig ab

Instabile Verbindung

Verwende autossh für persistente Wiederverbindungen; füge hinzu ServerAliveInterval 30

Kontextfenster überschritten

Lange Dateien/Unterhaltungen

Reduziere contextLength in der config.json; verwende ein Modell mit größerem Kontext

JetBrains-Plugin wird nicht geladen

IDE-Versionsinkompatibilität

Aktualisiere die JetBrains-IDE auf die neueste Version; prüfe die Kompatibilitätsmatrix des Continue.dev-Plugins

vLLM OOM beim Laden

Nicht genug VRAM

Füge --gpu-memory-utilization 0.85; verwende ein kleineres Modell oder eine quantisierte Version

Debug-Befehle

Continue.dev Konfig-Validierung

Weiterführende Lektüre

Zuletzt aktualisiert

War das hilfreich?