TabbyML Code-Vervollständigung
TabbyML als private Alternative zu GitHub Copilot auf Clore.ai selbst hosten
TabbyML ist ein selbstgehosteter Server für KI-Codevervollständigung — ein Drop-in-Ersatz für GitHub Copilot, der deinen Code vollständig in deiner eigenen Infrastruktur hält. Lizenziert unter Apache 2.0, läuft er auf Clore.ai-GPUs und verbindet sich über offizielle Erweiterungen mit VS Code, JetBrains und Vim/Neovim. Modelle reichen von StarCoder2-1B (passt auf 4 GB VRAM) bis StarCoder2-15B und DeepSeek-Coder für maximale Qualität.
Alle Beispiele laufen auf GPU-Servern, die über die CLORE.AI Marketplace.
Hauptmerkmale
Selbstgehostete Copilot-Alternative — dein Code verlässt nie deinen Server
Apache-2.0-Lizenz — kostenlos für kommerzielle Nutzung, keine Einschränkungen
IDE-Erweiterungen — VS Code, JetBrains (IntelliJ, PyCharm, WebStorm), Vim/Neovim
Mehrere Modelle — StarCoder2 (1B/3B/7B/15B), DeepSeek-Coder, CodeLlama
Repository-Kontext — RAG-gestützte Code-Retrieval für projektbewusste Vervollständigungen
Docker-Bereitstellung — ein Befehl zum Starten mit GPU-Unterstützung
Admin-Dashboard — Nutzungsanalysen, Modellverwaltung, Benutzerverwaltung
Chat-Oberfläche — stelle Programmierfragen über Autovervollständigung hinaus
Anforderungen
GPU
RTX 3060 12 GB
RTX 3080 10 GB+
VRAM
4 GB
10 GB
RAM
8 GB
16 GB
Festplatte
20 GB
50 GB
CUDA
11.8
12.1+
Clore.ai-Preise: RTX 3080 ≈ $0,3–1/Tag · RTX 3060 ≈ $0,15–0,3/Tag
TabbyML ist ressourcenschonend — selbst eine RTX 3060 betreibt StarCoder2-7B mit schneller Inferenz.
Schnellstart
1. Mit Docker bereitstellen
2. Wähle ein Modell
StarCoder2-1B
~3 GB
Am schnellsten
Basic
RTX 3060, schnelle Entwürfe
StarCoder2-3B
~5 GB
Schnell
Gut
Allgemeine Entwicklung
StarCoder2-7B
~8 GB
Mittel
Hoch
Empfohlener Standard
StarCoder2-15B
~16 GB
Langsamer
Am besten
Komplexe Codebasen
DeepSeek-Coder-6.7B
~8 GB
Mittel
Hoch
Python, JS, TypeScript
CodeLlama-7B
~8 GB
Mittel
Gut
Allzweck
Modelle wechseln, indem du das --model Flag:
3. IDE-Erweiterungen installieren
VS Code:
Erweiterungen öffnen (Ctrl+Shift+X)
Suche nach "Tabby" und installiere die offizielle Erweiterung
Einstellungen öffnen → nach "Tabby" suchen
Setze den Server-Endpunkt:
http://<deine-clore-ip>:8080
JetBrains (IntelliJ, PyCharm, WebStorm):
Einstellungen → Plugins → Marketplace
Suche nach "Tabby" und installiere
Einstellungen → Tools → Tabby → Server-Endpunkt:
http://<deine-clore-ip>:8080
Vim/Neovim:
4. Auf das Admin-Dashboard zugreifen
Öffnen http://<deine-clore-ip>:8080 im Browser. Das Dashboard bietet:
Statistiken zur Nutzung von Vervollständigungen
Modellstatus und Leistungsmetriken
Benutzer- und API-Token-Verwaltung
Konfiguration der Repository-Indizierung
Beispielanwendungen
Repository-Kontext hinzufügen (RAG)
Indexiere dein Repository für projektbewusste Vervollständigungen:
Die Chat-API verwenden
Mit Authentifizierung ausführen
Ohne Docker ausführen (Direktinstallation)
Kostenvergleich
GitHub Copilot
$19/Nutzer
❌ Cloud
~200 ms
TabbyML auf RTX 3060
~$5–9/Monat
✅ Selbstgehostet
~50 ms
TabbyML auf RTX 3080
~$9–30/Monat
✅ Selbstgehostet
~30 ms
TabbyML auf RTX 4090
~$15–60/Monat
✅ Selbstgehostet
~15 ms
Für ein kleines Team (3–5 Entwickler) ersetzt eine einzelne RTX 3080 auf Clore.ai mehrere Copilot-Abonnements zu einem Bruchteil der Kosten.
Tipps
StarCoder2-7B ist der Sweet Spot — bestes Verhältnis von Qualität zu VRAM für die meisten Teams
Repository-Kontext aktivieren — RAG-Indizierung verbessert die Relevanz der Vervollständigungen für große Codebasen erheblich
Port 8080 sicher freigeben — verwende SSH-Tunneling oder einen Reverse-Proxy mit TLS für Produktionsbereitstellungen
VRAM-Nutzung überwachen —
nvidia-smium sicherzustellen, dass das Modell mit Spielraum für Inferenz-Batching passtDie Completion-API verwenden für CI/CD-Integration — automatisiere Vorschläge zur Code-Überprüfung
Tabby unterstützt mehrere Benutzer — das Admin-Dashboard ermöglicht das Erstellen von API-Tokens pro Entwickler
Latenz ist wichtig — wähle einen Clore.ai-Server geografisch nah an deinem Team für die schnellsten Vervollständigungen
Fehlerbehebung
Docker-Container beendet sich sofort
Logs prüfen: docker logs tabby. Wahrscheinlich unzureichender VRAM für das Modell
IDE-Erweiterung verbindet sich nicht
Endpunkt-URL überprüfen, Firewall/Portweiterleitung auf Clore.ai prüfen
Langsame Vervollständigungen
Verwende ein kleineres Modell oder stelle sicher, dass die GPU nicht mit anderen Aufgaben geteilt wird
CUDA out of memory
Wechsel zu einem kleineren Modell (StarCoder2-3B oder 1B)
Repository-Indizierung hängt
Prüfe den Festplattenspeicher und stelle sicher, dass das Git-Repo zugänglich ist
Auth-Token abgelehnt
Token im Admin-Dashboard neu generieren, IDE-Erweiterung aktualisieren
Hohe Latenz vom entfernten IDE
SSH-Tunnel verwenden: ssh -L 8080:localhost:8080 root@<clore-ip>
Ressourcen
Zuletzt aktualisiert
War das hilfreich?