Continue.dev Codage IA

Alimentez Continue.dev avec les GPU Clore.ai — exécutez CodeLlama 34B, DeepSeek Coder et Qwen2.5-Coder localement sur des locations GPU peu coûteuses pour une assistance IA privée au codage.

Continue.dev est un assistant de codage IA open-source pour VS Code et JetBrains avec plus de 25K étoiles sur GitHub. Le plugin s'exécute sur votre machine locale (ou dans votre IDE), mais il se connecte à un serveur modèle backend pour l'inférence. En pointant Continue.dev vers un GPU puissant loué depuis Clore.ai, vous obtenez :

  • Modèles de codage de premier ordre (34B+ paramètres) qui ne tiennent pas sur votre ordinateur portable

  • Confidentialité totale — le code reste sur une infrastructure que vous contrôlez

  • Coûts flexibles — payez uniquement pendant que vous codez (~0,20–0,50 $/h vs. 19 $/mois pour Copilot)

  • API compatible OpenAI — Continue.dev se connecte à Ollama, vLLM ou TabbyML sans effort

Ce guide se concentre sur la configuration du backend GPU Clore.ai (Ollama ou vLLM) auquel votre extension Continue.dev locale se connecte.

circle-check
circle-info

Architecture: Votre IDE (avec l'extension Continue.dev) → Internet → serveur GPU Clore.ai (exécutant Ollama / vLLM / TabbyML) → inférence locale du modèle. Aucun code ne touche jamais une API tierce.

Aperçu

Propriété
Détails

Licence

Apache 2.0

Étoiles GitHub

25K+

Support IDE

VS Code, JetBrains (IntelliJ, PyCharm, WebStorm, GoLand, etc.)

Fichier de config

~/.continue/config.json

Options backend

Ollama, vLLM, TabbyML, LM Studio, llama.cpp, API compatibles OpenAI

Difficulté

Facile (installation de l'extension) / Moyenne (backend auto-hébergé)

GPU requis ?

Sur le serveur Clore.ai (oui) ; sur votre portable (non)

Fonctionnalités clés

Autocomplétion, chat, mode édition, contexte du code (RAG), commandes slash personnalisées

Modèles recommandés pour le codage

Modèle
VRAM
Points forts
Remarques

codellama:7b

~6 GB

Autocomplétion rapide

Bon point de départ

codellama:13b

~10 GB

Équilibré

Meilleur rapport qualité/vitesse pour l'autocomplétion

codellama:34b

~22 GB

Meilleure qualité CodeLlama

Nécessite RTX 3090 / A100

deepseek-coder:6.7b

~5 GB

Spécialiste Python/JS

Excellent pour le développement web

deepseek-coder:33b

~22 GB

Open source de premier plan

Rivalise avec GPT-4 sur le code

qwen2.5-coder:7b

~6 GB

Code multilingue

Performant sur 40+ langages

qwen2.5-coder:32b

~22 GB

État de l'art

Meilleur modèle de codage open en 2024

starcoder2:15b

~12 GB

Spécialiste de la complétion de code

Prise en charge FIM (fill-in-the-middle)

Exigences

Exigences du serveur Clore.ai

Niveau
GPU
VRAM
RAM
Disque
Prix
Modèles

Budget

RTX 3060

12 GB

16 GB

40 GB

~0,10 $/h

CodeLlama 7B, DeepSeek 6.7B, Qwen2.5-Coder 7B

Recommandé

RTX 3090

24 GB

32 GB

80 GB

~0,20 $/h

CodeLlama 34B, DeepSeek 33B, Qwen2.5-Coder 32B

Performance

RTX 4090

24 GB

32 GB

80 GB

~0,35 $/h

Même modèles que ci-dessus, inférence plus rapide

Puissance

A100 40GB

40 GB

64 GB

120 GB

~0,60 $/h

Plusieurs modèles 34B simultanément

Maximum

A100 80GB

80 GB

80 GB

200 GB

~1,10 $/h

Modèles 70B (CodeLlama 70B)

Exigences locales (votre machine)

  • VS Code ou tout IDE JetBrains

  • Extension Continue.dev installée

  • Connexion Internet stable vers votre serveur Clore.ai

  • Pas de GPU local nécessaire — toute l'inférence se fait sur Clore.ai

Démarrage rapide

Partie 1 : Configurer le backend Clore.ai

Option A — Backend Ollama (Recommandé pour la plupart des utilisateurs)

Ollama est le backend le plus simple pour Continue.dev — configuration simple, excellente gestion des modèles, API compatible OpenAI.

Pour exposer Ollama en externe (afin que votre IDE local puisse se connecter) :

circle-exclamation

Option B — Backend vLLM (Haut débit / Compatible OpenAI)

vLLM offre une inférence plus rapide et un support multi-utilisateurs. Idéal si plusieurs développeurs partagent un serveur Clore.ai.

Option C — Backend TabbyML (Spécialiste FIM Autocomplete)

TabbyML fournit une autocomplétion fill-in-the-middle (FIM) supérieure — les suggestions inline en ghost-text. Voir la documentation TabbyMLarrow-up-right pour les détails complets de configuration.

Partie 2 : Installer l'extension Continue.dev

VS Code :

  1. Ouvrez le panneau Extensions (Ctrl+Shift+X / Cmd+Shift+X)

  2. Rechercher "Continue" — installez l'extension officielle par Continue (continuedev)

  3. Cliquez sur l'icône Continue dans la barre latérale (ou Ctrl+Shift+I)

JetBrains (IntelliJ, PyCharm, WebStorm, GoLand) :

  1. Fichier → Paramètres → Plugins → Marketplace

  2. Rechercher "Continue" et installez

  3. Redémarrez l'IDE ; le panneau Continue apparaît dans la barre latérale droite

Partie 3 : Configurez Continue.dev pour utiliser Clore.ai

Éditez ~/.continue/config.json sur votre machine locale:

Pour backend vLLM au lieu d'Ollama :

Pour Backend TabbyML (autocomplétion seulement) :

Configuration

Configuration du tunnel SSH (accès distant sécurisé)

Au lieu d'exposer des ports publiquement, utilisez un tunnel SSH depuis votre machine locale :

Tunnel persistant avec autossh

Charger plusieurs modèles pour différentes tâches

Pour une RTX 3090 (24 GB), vous pouvez exécuter un grand modèle de chat et un petit modèle d'autocomplétion simultanément :

Indexation du code (RAG pour votre repo)

Continue.dev peut indexer votre codebase pour des suggestions contextuelles. Récupérez un modèle d'embeddings :

Accélération GPU

Surveiller les performances d'inférence

Performances attendues par GPU

GPU
Modèle
Contexte
Tokens/sec (approx.)

RTX 3060 12GB

CodeLlama 7B

8K

~40–60 t/s

RTX 3060 12GB

DeepSeek-Coder 6.7B

8K

~45–65 t/s

RTX 3090 24GB

Qwen2.5-Coder 32B (Q4)

16K

~15–25 t/s

RTX 3090 24GB

DeepSeek-Coder 33B (Q4)

16K

~15–22 t/s

RTX 4090 24GB

Qwen2.5-Coder 32B (Q4)

16K

~25–40 t/s

A100 40GB

Qwen2.5-Coder 32B (FP16)

32K

~35–50 t/s

A100 80GB

CodeLlama 70B (Q4)

32K

~20–30 t/s

Pour l'autocomplétion (fill-in-the-middle), starcoder2:3b ou codellama:7b atteignent 50–100 t/s — assez rapide pour paraître instantané dans l'IDE.

Ajuster Ollama pour de meilleures performances

Conseils et bonnes pratiques

Utiliser différents modèles pour différentes tâches

Configurez Continue.dev avec des modèles spécialisés par type de tâche — l'UI vous permet de changer de modèle en cours de conversation :

Comparaison des coûts

Solution
Coût mensuel (utilisation 8h/jour)
Confidentialité
Qualité du modèle

GitHub Copilot

19 $/utilisateur/mois

❌ Cloud Microsoft

GPT-4o (fermé)

Cursor Pro

20 $/utilisateur/mois

❌ Cloud Cursor

Claude 3.5 (fermé)

RTX 3060 sur Clore.ai

~24 $/mois

✅ Votre serveur

CodeLlama 13B

RTX 3090 sur Clore.ai

~48 $/mois

✅ Votre serveur

Qwen2.5-Coder 32B

RTX 4090 sur Clore.ai

~84 $/mois

✅ Votre serveur

Qwen2.5-Coder 32B

A100 80GB sur Clore.ai

~264 $/mois

✅ Votre serveur

CodeLlama 70B

Pour une équipe de 3+ développeurs partageant un seul RTX 3090 Clore.ai (~48 $/mois au total), le coût par utilisateur est inférieur à Copilot tout en offrant un modèle privé plus grand.

Arrêter quand vous ne codez pas

Clore.ai facture à l'heure. Utilisez un script simple pour démarrer/arrêter le serveur :

Utilisez les commandes personnalisées de Continue.dev

Ajoutez des commandes slash personnalisées à config.json pour les flux de travail de codage courants :

Dépannage

Problème
Cause probable
Solution

Continue.dev affiche "Connection refused"

Ollama inaccessible

Vérifiez que le tunnel SSH est actif ; vérifiez curl http://localhost:11434/ fonctionne

Autocomplétion ne se déclenche pas

Modèle d'autocomplétion de tabulation non défini

Ajoutez tabAutocompleteModel à config.json ; activez dans les paramètres de Continue

Réponses très lentes (>30s pour le premier token)

Chargement du modèle depuis le disque

La première requête charge le modèle en VRAM — les requêtes suivantes sont rapides

Erreur "Model not found"

Modèle non téléchargé

Exécutez docker exec ollama ollama pull <nom-du-modèle> sur le serveur Clore.ai

Forte latence entre les tokens

Latence réseau ou modèle trop grand

Utilisez un tunnel SSH ; passez à un modèle plus petit ; vérifiez l'utilisation GPU du serveur

Contexte de la base de code ne fonctionne pas

Modèle d'embeddings manquant

Téléchargez nomic-embed-text via Ollama ; vérifiez embeddingsProvider dans config.json

Le tunnel SSH se coupe fréquemment

Connexion instable

Utilisez autossh pour une reconnexion persistante ; ajoutez ServerAliveInterval 30

Fenêtre de contexte dépassée

Fichiers/conversations longs

Réduisez contextLength dans config.json ; utilisez un modèle avec un contexte plus long

Le plugin JetBrains ne se charge pas

Incompatibilité de version de l'IDE

Mettez à jour l'IDE JetBrains vers la dernière version ; vérifiez la matrice de compatibilité du plugin Continue.dev

vLLM OOM lors du chargement

Pas assez de VRAM

Ajoutez --gpu-memory-utilization 0.85; utilisez un modèle plus petit ou une version quantifiée

Commandes de débogage

Validation de la configuration Continue.dev

Lectures complémentaires

Mis à jour

Ce contenu vous a-t-il été utile ?