Continue.dev pour le codage IA

Alimentez Continue.dev avec les GPU Clore.ai — exécutez CodeLlama 34B, DeepSeek Coder et Qwen2.5-Coder localement sur des locations GPU bon marché pour une assistance de codage IA privée.

Continue.dev est un assistant de codage IA open-source pour VS Code et JetBrains avec plus de 25K étoiles sur GitHub. Le module s'exécute sur votre machine locale (ou dans votre IDE), mais il se connecte à un serveur modèle backend pour l'inférence. En pointant Continue.dev vers un GPU puissant loué via Clore.ai, vous obtenez :

  • Modèles de codage de premier ordre (34B+ paramètres) qui ne tiendront pas sur votre ordinateur portable

  • Confidentialité totale — le code reste sur une infrastructure que vous contrôlez

  • Coûts flexibles — payez uniquement pendant que vous codez (~0,20–0,50 $/h vs. 19 $/mois pour Copilot)

  • API compatible OpenAI — Continue.dev se connecte de façon transparente à Ollama, vLLM ou TabbyML

Ce guide se concentre sur la configuration du backend GPU Clore.ai (Ollama ou vLLM) auquel votre extension Continue.dev locale se connecte.

circle-check
circle-info

Architecture: Votre IDE (avec l'extension Continue.dev) → Internet → serveur GPU Clore.ai (exécutant Ollama / vLLM / TabbyML) → inférence locale du modèle. Aucun code ne touche jamais une API tierce.

Aperçu

Propriété
Détails

Licence

Apache 2.0

Étoiles GitHub

25K+

Prise en charge IDE

VS Code, JetBrains (IntelliJ, PyCharm, WebStorm, GoLand, etc.)

Fichier de configuration

~/.continue/config.json

Options de backend

Ollama, vLLM, TabbyML, LM Studio, llama.cpp, APIs compatibles OpenAI

Difficulté

Facile (installation de l'extension) / Moyen (backend auto-hébergé)

GPU requis ?

Sur le serveur Clore.ai (oui) ; sur votre ordinateur portable (non)

Principales caractéristiques

Autocomplétion, chat, mode édition, contexte du code (RAG), commandes slash personnalisées

Modèles recommandés pour le codage

Modèle
VRAM
Atout
Remarques

codellama:7b

~6 Go

Autocomplétion rapide

Bon point de départ

codellama:13b

~10 Go

Équilibré

Meilleur rapport qualité/vitesse pour l'autocomplétion

codellama:34b

≈22 Go

Meilleure qualité CodeLlama

Nécessite RTX 3090 / A100

deepseek-coder:6.7b

~5 Go

Spécialiste Python/JS

Excellent pour le développement web

deepseek-coder:33b

≈22 Go

Open source de premier plan

Rivalise avec GPT-4 sur le code

qwen2.5-coder:7b

~6 Go

Code multilingue

Fort sur 40+ langages

qwen2.5-coder:32b

≈22 Go

À la pointe de la technologie

Meilleur modèle open pour le codage en 2024

starcoder2:15b

≈12 Go

Spécialiste de la complétion de code

Support FIM (fill-in-the-middle)

Exigences

Exigences serveur Clore.ai

Niveau
GPU
VRAM
RAM
Disque
Prix
Modèles

Économique

RTX 3060

12 Go

16 Go

40 Go

~0,10 $/h

CodeLlama 7B, DeepSeek 6.7B, Qwen2.5-Coder 7B

Recommandé

RTX 3090

24 Go

32 Go

80 Go

~0,20 $/h

CodeLlama 34B, DeepSeek 33B, Qwen2.5-Coder 32B

Performances

RTX 4090

24 Go

32 Go

80 Go

~0,35 $/h

Les mêmes modèles que ci-dessus, inférence plus rapide

Puissance

A100 40GB

40 Go

64 Go

120 Go

~0,60 $/h

Multiples modèles 34B simultanément

Maximum

A100 80GB

80 Go

80 Go

200 Go

~1,10 $/h

Modèles 70B (CodeLlama 70B)

Exigences locales (votre machine)

  • VS Code ou n'importe quel IDE JetBrains

  • Extension Continue.dev installée

  • Connexion Internet stable vers votre serveur Clore.ai

  • Aucun GPU local nécessaire — toute l'inférence se fait sur Clore.ai

Démarrage rapide

Partie 1 : Configurer le backend Clore.ai

Option A — Backend Ollama (recommandé pour la plupart des utilisateurs)

Ollama est le backend le plus simple pour Continue.dev — configuration simple, excellente gestion des modèles, API compatible OpenAI.

Pour exposer Ollama à l'extérieur (afin que votre IDE local puisse se connecter) :

circle-exclamation

Option B — Backend vLLM (haut débit / compatible OpenAI)

vLLM offre une inférence plus rapide et une prise en charge multi-utilisateurs. Idéal si plusieurs développeurs partagent un même serveur Clore.ai.

Option C — Backend TabbyML (spécialiste FIM Autocomplete)

TabbyML fournit une autocomplétion fill-in-the-middle (FIM) supérieure — les suggestions inline en texte fantôme. Voir le guide TabbyMLarrow-up-right pour les détails de configuration complets.

Partie 2 : Installer l'extension Continue.dev

VS Code :

  1. Ouvrez le panneau Extensions (Ctrl+Shift+X / Cmd+Shift+X)

  2. Rechercher "Continue" — installez l'extension officielle par Continue (continuedev)

  3. Cliquez sur l'icône Continue dans la barre latérale (ou Ctrl+Shift+I)

JetBrains (IntelliJ, PyCharm, WebStorm, GoLand) :

  1. File → Settings → Plugins → Marketplace

  2. Rechercher "Continue" et installez

  3. Redémarrez l'IDE ; le panneau Continue apparaît dans la barre latérale droite

Partie 3 : Configurer Continue.dev pour utiliser Clore.ai

Éditer ~/.continue/config.json sur votre machine locale:

Pour backend vLLM au lieu d'Ollama :

Pour backend TabbyML (autocomplétion uniquement) :

Configuration

Configuration du tunnel SSH (accès distant sécurisé)

Au lieu d'exposer les ports publiquement, utilisez un tunnel SSH depuis votre machine locale :

Tunnel persistant avec autossh

Charger plusieurs modèles pour différentes tâches

Pour une RTX 3090 (24 Go), vous pouvez exécuter un grand modèle de chat et un petit modèle d'autocomplétion simultanément :

Indexation de la base de code (RAG pour votre repo)

Continue.dev peut indexer votre base de code pour des suggestions conscientes du contexte. Téléchargez un modèle d'embeddings :

Accélération GPU

Surveiller les performances d'inférence

Performance attendue par GPU

GPU
Modèle
Contexte
Tokens/sec (approx.)

RTX 3060 12GB

CodeLlama 7B

8K

~40–60 t/s

RTX 3060 12GB

DeepSeek-Coder 6.7B

8K

~45–65 t/s

RTX 3090 24GB

Qwen2.5-Coder 32B (Q4)

16K

~15–25 t/s

RTX 3090 24GB

DeepSeek-Coder 33B (Q4)

16K

~15–22 t/s

RTX 4090 24GB

Qwen2.5-Coder 32B (Q4)

16K

~25–40 t/s

A100 40GB

Qwen2.5-Coder 32B (FP16)

32K

~35–50 t/s

A100 80GB

CodeLlama 70B (Q4)

32K

~20–30 t/s

Pour l'autocomplétion (fill-in-the-middle), starcoder2:3b ou codellama:7b atteint 50–100 t/s — suffisamment rapide pour sembler instantané dans l'IDE.

Optimiser Ollama pour de meilleures performances

Conseils et bonnes pratiques

Utiliser différents modèles pour différentes tâches

Configurer Continue.dev avec des modèles spécialisés par type de tâche — l'UI vous permet de changer de modèle en cours de conversation :

Comparaison des coûts

Solution
Coût mensuel (utilisation 8h/jour)
Confidentialité
Qualité du modèle

GitHub Copilot

19 $/utilisateur/mois

❌ Cloud Microsoft

GPT-4o (fermé)

Cursor Pro

20 $/utilisateur/mois

❌ Cloud Cursor

Claude 3.5 (fermé)

RTX 3060 sur Clore.ai

~24 $/mois

✅ Votre serveur

CodeLlama 13B

RTX 3090 sur Clore.ai

~48 $/mois

✅ Votre serveur

Qwen2.5-Coder 32B

RTX 4090 sur Clore.ai

~84 $/mois

✅ Votre serveur

Qwen2.5-Coder 32B

A100 80GB sur Clore.ai

~264 $/mois

✅ Votre serveur

CodeLlama 70B

Pour une équipe de 3+ développeurs partageant une RTX 3090 Clore.ai (~48 $/mois au total), le coût par utilisateur bat Copilot tout en fournissant un modèle privé et plus grand.

Arrêter quand vous ne codez pas

Clore.ai facture à l'heure. Utilisez un script simple pour démarrer/arrêter le serveur :

Utiliser les commandes personnalisées Continue.dev

Ajouter des commandes slash personnalisées à config.json pour les flux de travail de codage courants :

Dépannage

Problème
Cause probable
Solution

Continue.dev affiche "Connection refused"

Ollama inaccessible

Vérifiez que le tunnel SSH est actif ; vérifiez curl http://localhost:11434/ fonctionne

Autocomplétion ne se déclenche pas

Modèle d'autocomplétion tab non défini

Ajoutez tabAutocompleteModel dans config.json ; activez dans les paramètres Continue

Réponses très lentes (>30s premier token)

Chargement du modèle depuis le disque

La première requête charge le modèle en VRAM — les requêtes suivantes sont rapides

Erreur "Model not found"

Modèle non téléchargé

Exécutez docker exec ollama ollama pull <model-name> sur le serveur Clore.ai

Latence élevée entre les tokens

Lag réseau ou modèle trop grand

Utilisez un tunnel SSH ; passez à un modèle plus petit ; vérifiez l'utilisation GPU du serveur

Contexte de la base de code ne fonctionne pas

Modèle d'embeddings manquant

Téléchargez nomic-embed-text via Ollama ; vérifiez embeddingsProvider dans config.json

Le tunnel SSH se déconnecte fréquemment

Connexion instable

Utilisez autossh pour reconnexion persistante ; ajoutez ServerAliveInterval 30

Fenêtre de contexte dépassée

Fichiers/conversations longs

Réduire contextLength dans config.json ; utilisez un modèle avec un contexte plus long

Le plugin JetBrains ne se charge pas

Incompatibilité de version de l'IDE

Mettez à jour l'IDE JetBrains vers la dernière version ; vérifiez la matrice de compatibilité du plugin Continue.dev

vLLM OOM lors du chargement

Pas assez de VRAM

Ajoutez --gpu-memory-utilization 0.85; utilisez un modèle plus petit ou une version quantifiée

Commandes de débogage

Validation de la configuration Continue.dev

Lectures complémentaires

Mis à jour

Ce contenu vous a-t-il été utile ?