Codificación AI Continue.dev

Potencia Continue.dev con GPUs de Clore.ai — ejecuta CodeLlama 34B, DeepSeek Coder y Qwen2.5-Coder localmente en alquileres de GPU baratos para asistencia privada de codificación con IA.

Continue.dev es un asistente de programación con IA de código abierto para VS Code y JetBrains con más de 25K estrellas en GitHub. El complemento se ejecuta en tu máquina local (o en tu IDE), pero se conecta a un servidor de modelos en backend para la inferencia. Apuntando Continue.dev a una GPU potente alquilada en Clore.ai, obtienes:

  • Modelos de codificación de primera categoría (34B+ parámetros) que no caben en tu portátil

  • Privacidad total — el código permanece en la infraestructura que controlas

  • Costos flexibles — paga solo mientras programas (~$0.20–0.50/h vs. $19/mes por Copilot)

  • API compatible con OpenAI — Continue.dev se conecta a Ollama, vLLM o TabbyML sin problemas

Esta guía se centra en configurar el backend GPU de Clore.ai (Ollama o vLLM) al que se conecta tu extensión local de Continue.dev.

circle-check
circle-info

Arquitectura: Tu IDE (con la extensión Continue.dev) → Internet → servidor GPU de Clore.ai (ejecutando Ollama / vLLM / TabbyML) → inferencia local del modelo. Ningún código toca jamás una API de terceros.

Resumen

Propiedad
Detalles

Licencia

Apache 2.0

Estrellas en GitHub

25K+

Compatibilidad con IDE

VS Code, JetBrains (IntelliJ, PyCharm, WebStorm, GoLand, etc.)

Archivo de configuración

~/.continue/config.json

Opciones de backend

Ollama, vLLM, TabbyML, LM Studio, llama.cpp, APIs compatibles con OpenAI

Dificultad

Fácil (instalar extensión) / Medio (backend autohospedado)

¿Se requiere GPU?

En el servidor Clore.ai (sí); en tu portátil (no)

Características clave

Autocompletar, chat, modo edición, contexto del código (RAG), comandos slash personalizados

Modelos recomendados para programación

Modelo
VRAM
Fortaleza
Notas

codellama:7b

~6 GB

Autocompletar rápido

Buen punto de partida

codellama:13b

~10 GB

Equilibrado

Mejor calidad/velocidad para autocompletar

codellama:34b

~22 GB

Mejor calidad de CodeLlama

Requiere RTX 3090 / A100

deepseek-coder:6.7b

~5 GB

Especialista en Python/JS

Excelente para desarrollo web

deepseek-coder:33b

~22 GB

Gama alta de código abierto

Rivaliza con GPT-4 en código

qwen2.5-coder:7b

~6 GB

Código multilingüe

Fuerte en 40+ lenguajes

qwen2.5-coder:32b

~22 GB

Última generación

Mejor modelo abierto para código 2024

starcoder2:15b

~12 GB

Especialista en completado de código

Soporte FIM (fill-in-the-middle)

Requisitos

Requisitos del servidor Clore.ai

Nivel
GPU
VRAM
RAM
Disco
Precio
Modelos

Económico

RTX 3060

12 GB

16 GB

40 GB

~$0.10/h

CodeLlama 7B, DeepSeek 6.7B, Qwen2.5-Coder 7B

Recomendado

RTX 3090

24 GB

32 GB

80 GB

~$0.20/h

CodeLlama 34B, DeepSeek 33B, Qwen2.5-Coder 32B

Rendimiento

RTX 4090

24 GB

32 GB

80 GB

~$0.35/h

Mismos modelos que arriba, inferencia más rápida

Potencia

A100 40GB

40 GB

64 GB

120 GB

~$0.60/h

Múltiples modelos 34B concurrentes

Máximo

A100 80GB

80 GB

80 GB

200 GB

~$1.10/h

Modelos 70B (CodeLlama 70B)

Requisitos locales (tu máquina)

  • VS Code o cualquier IDE JetBrains

  • Extensión Continue.dev instalada

  • Conexión a Internet estable con tu servidor Clore.ai

  • No se necesita GPU local — toda la inferencia ocurre en Clore.ai

Inicio rápido

Parte 1: Configurar el backend de Clore.ai

Opción A — Backend Ollama (recomendado para la mayoría de usuarios)

Ollama es el backend más sencillo para Continue.dev — configuración simple, excelente gestión de modelos, API compatible con OpenAI.

Para exponer Ollama externamente (para que tu IDE local pueda conectarse):

circle-exclamation

Opción B — Backend vLLM (alto rendimiento / compatible con OpenAI)

vLLM ofrece inferencia más rápida y soporte multiusuario. Ideal si varios desarrolladores comparten un servidor Clore.ai.

Opción C — Backend TabbyML (especialista en autocompletar FIM)

TabbyML ofrece un autocompletar fill-in-the-middle (FIM) superior — las sugerencias de texto fantasmal en línea. Consulta la guía de TabbyMLarrow-up-right para los detalles completos de la configuración.

Parte 2: Instalar la extensión Continue.dev

VS Code:

  1. Abre el panel de Extensiones (Ctrl+Shift+X / Cmd+Shift+X)

  2. Buscar "Continue" — instala la extensión oficial de Continue (continuedev)

  3. Haz clic en el icono de Continue en la barra lateral (o Ctrl+Shift+I)

JetBrains (IntelliJ, PyCharm, WebStorm, GoLand):

  1. File → Settings → Plugins → Marketplace

  2. Buscar "Continue" e instala

  3. Reinicia el IDE; el panel de Continue aparece en la barra lateral derecha

Parte 3: Configurar Continue.dev para usar Clore.ai

Editar ~/.continue/config.json en tu máquina local:

Para backend vLLM en lugar de Ollama:

Para backend TabbyML (solo autocompletar):

Configuración

Configuración de túnel SSH (acceso remoto seguro)

En lugar de exponer puertos públicamente, usa un túnel SSH desde tu máquina local:

Túnel persistente con autossh

Cargar múltiples modelos para diferentes tareas

Para una RTX 3090 (24 GB), puedes ejecutar un modelo de chat grande y un modelo pequeño de autocompletar simultáneamente:

Indexado de la base de código (RAG para tu repo)

Continue.dev puede indexar tu base de código para sugerencias con contexto. Descarga un modelo de embeddings:

Aceleración por GPU

Monitorear el rendimiento de inferencia

Rendimiento esperado por GPU

GPU
Modelo
Contexto
Tokens/seg (aprox.)

RTX 3060 12GB

CodeLlama 7B

8K

~40–60 t/s

RTX 3060 12GB

DeepSeek-Coder 6.7B

8K

~45–65 t/s

RTX 3090 24GB

Qwen2.5-Coder 32B (Q4)

16K

~15–25 t/s

RTX 3090 24GB

DeepSeek-Coder 33B (Q4)

16K

~15–22 t/s

RTX 4090 24GB

Qwen2.5-Coder 32B (Q4)

16K

~25–40 t/s

A100 40GB

Qwen2.5-Coder 32B (FP16)

32K

~35–50 t/s

A100 80GB

CodeLlama 70B (Q4)

32K

~20–30 t/s

Para autocompletar (fill-in-the-middle), starcoder2:3b o codellama:7b logra 50–100 t/s — lo bastante rápido como para sentirse instantáneo en el IDE.

Ajusta Ollama para mejor rendimiento

Consejos y mejores prácticas

Usa modelos diferentes para tareas distintas

Configura Continue.dev con modelos especializados por tipo de tarea — la UI te permite cambiar modelos a mitad de la conversación:

Comparación de costos

Solución
Costo mensual (uso 8 h/día)
Privacidad
Calidad del modelo

GitHub Copilot

$19/usuario/mes

❌ Nube de Microsoft

GPT-4o (cerrado)

Cursor Pro

$20/usuario/mes

❌ Nube de Cursor

Claude 3.5 (cerrado)

RTX 3060 en Clore.ai

~$24/mes

✅ Tu servidor

CodeLlama 13B

RTX 3090 en Clore.ai

~$48/mes

✅ Tu servidor

Qwen2.5-Coder 32B

RTX 4090 en Clore.ai

~$84/mes

✅ Tu servidor

Qwen2.5-Coder 32B

A100 80GB en Clore.ai

~$264/mes

✅ Tu servidor

CodeLlama 70B

Para un equipo de 3+ desarrolladores compartiendo una RTX 3090 en Clore.ai (~$48/mes en total), el costo por usuario supera a Copilot mientras proporciona un modelo más grande y privado.

Apaga cuando no estés programando

Clore.ai cobra por hora. Usa un script simple para iniciar/detener el servidor:

Usa comandos personalizados de Continue.dev

Añade comandos slash personalizados a config.json para flujos de trabajo comunes de codificación:

Solución de problemas

Problema
Causa probable
Solución

Continue.dev muestra "Connection refused"

Ollama no accesible

Comprueba que el túnel SSH esté activo; verifica curl http://localhost:11434/ funciona

Autocompletar no se activa

Modelo de autocompletar de pestaña no configurado

Agregar tabAutocompleteModel en config.json; habilita en la configuración de Continue

Respuestas muy lentas (>30s primer token)

Carga del modelo desde disco

La primera solicitud carga el modelo en VRAM — las solicitudes posteriores son rápidas

Error "Model not found"

Modelo no descargado

Ejecuta docker exec ollama ollama pull <model-name> en el servidor Clore.ai

Latencia alta entre tokens

Lag de red o modelo demasiado grande

Usa túnel SSH; cambia a un modelo más pequeño; comprueba la utilización de la GPU del servidor

Contexto de la base de código no funciona

Falta el modelo de embeddings

Descarga nomic-embed-text vía Ollama; verifica embeddingsProvider en config.json

El túnel SSH se cae con frecuencia

Conexión inestable

Usa autossh para reconexión persistente; añade ServerAliveInterval 30

Ventana de contexto excedida

Archivos/conversaciones largas

Reducir contextLength en config.json; usa un modelo con contexto más largo

El plugin de JetBrains no carga

Incompatibilidad con la versión del IDE

Actualiza el IDE JetBrains a la última versión; comprueba la matriz de compatibilidad del plugin Continue.dev

vLLM OOM durante la carga

No hay suficiente VRAM

Agregar --gpu-memory-utilization 0.85; usa un modelo más pequeño o una versión cuantizada

Comandos de depuración

Validación de configuración de Continue.dev

Lecturas adicionales

Última actualización

¿Te fue útil?