Qwen3.5

Ejecuta Alibaba Qwen3.5 en Clore.ai: el modelo frontier más reciente (feb 2026)

Qwen3.5, lanzado el 16 de febrero de 2026, es el último modelo insignia de Alibaba y uno de los lanzamientos de código abierto más destacados de 2026. El insignia MoE de 397B superó a Claude 4.5 Opus en el benchmark de matemáticas HMMT, mientras que el más pequeño modelo denso de 35B cabe en una sola RTX 4090. Todos los modelos incluyen capacidades agente (uso de herramientas, llamadas a funciones, ejecución autónoma de tareas) y comprensión multimodal desde el primer momento.

Características clave

Tres tamaños: 9B (denso), 35B (denso), 397B (MoE) — algo para cada GPU
Superó a Claude 4.5 Opus en el benchmark de matemáticas HMMT
Nativamente multimodal: Comprensión de texto e imagen
Capacidades agente: Uso de herramientas, llamadas a funciones, flujos de trabajo autónomos
Ventana de contexto de 128K: Maneja documentos y bases de código grandes
Licencia Apache 2.0: Uso comercial completo, sin restricciones

Variantes del modelo

Modelo

Parámetros

Tipo

VRAM (Q4)

VRAM (FP16)

Fortaleza

Qwen3.5-9B

Denso

6GB

18GB

Rápido, eficiente

Qwen3.5-35B

35B

Denso

22GB

70GB

Mejor en una sola GPU

Qwen3.5-397B

397B

MoE

~100GB

400GB+

Clase frontera

Requisitos

Componente

9B (Q4)

35B (Q4)

397B (multi-GPU)

GPU

RTX 3080 10GB

RTX 4090 24GB

4× H100 80GB

VRAM

8GB

22GB

320GB+

RAM

16GB

32GB

128GB

Disco

15GB

30GB

250GB

GPU recomendada de Clore.ai: RTX 4090 24GB (~$0.5–2/día) para 35B — mejor calidad por dólar

Inicio rápido con Ollama

# Instalar Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 9B — funciona en cualquier cosa (8GB VRAM)
ollama run qwen3.5:9b

# 35B cuantizado — necesita RTX 4090 (24GB)
ollama run qwen3.5:35b

# Como servidor de API
ollama serve &
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.5:35b",
    "messages": [{"role": "user", "content": "Resuelve esto: si f(x) = x^3 - 3x + 1, encuentra todas las raíces reales"}]
  }'

Configuración de vLLM (Producción)

pip install vllm

# 35B en una sola GPU
vllm serve Qwen/Qwen3.5-35B-Instruct \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.90

# 9B con contexto largo
vllm serve Qwen/Qwen3.5-9B-Instruct \
  --max-model-len 65536

# 397B en clúster multi-GPU
vllm serve Qwen/Qwen3.5-397B-A45B-Instruct \
  --tensor-parallel-size 8 \
  --max-model-len 32768

HuggingFace Transformers

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3.5-35B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    load_in_4bit=True  # Ajusta 35B en 24GB
)

messages = [
    {"role": "system", "content": "Eres un tutor de matemáticas servicial."},
    {"role": "user", "content": "Demuestra que la raíz cuadrada de 2 es irracional."}
]

input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt").to(model.device)
output = model.generate(input_ids, max_new_tokens=2048, temperature=0.7, do_sample=True)
print(tokenizer.decode(output[0][input_ids.shape[-1]:], skip_special_tokens=True))

Ejemplo de uso agente / de herramientas

import json
from openai import OpenAI

client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")

tools = [{
    "type": "function",
    "function": {
        "name": "get_gpu_price",
        "description": "Obtén el precio de alquiler actual para un modelo de GPU en Clore.ai",
        "parameters": {
            "type": "object",
            "properties": {
                "gpu_model": {"type": "string", "description": "Nombre del modelo GPU, p. ej. RTX 4090"}
            },
            "required": ["gpu_model"]
        }
    }
}]

response = client.chat.completions.create(
    model="qwen3.5:35b",
    messages=[{"role": "user", "content": "¿Cuál es la GPU más barata que puedo alquilar para ejecutar un modelo de 7B?"}],
    tools=tools,
    tool_choice="auto"
)

# Qwen3.5 llamará a get_gpu_price con los parámetros apropiados
print(response.choices[0].message)

¿Por qué Qwen3.5 en Clore.ai?

El modelo de 35B es posiblemente el mejor modelo que puedes ejecutar en una sola RTX 4090:

Supera a Llama 4 Scout en matemáticas y razonamiento
Supera a Gemma 3 27B en tareas agente
El uso de herramientas / llamadas a funciones funciona desde el primer momento
Apache 2.0 = sin problemas de licencia

A $0.5–2/día por una RTX 4090, obtienes IA de clase frontera por el precio de un café.

Consejos para usuarios de Clore.ai

35B es el punto óptimo: Cabe en RTX 4090 Q4, supera a la mayoría de modelos de 70B
9B para presupuesto: Incluso una RTX 3060 ($0.15/día) ejecuta bien el modelo de 9B
Usa Ollama para inicio rápido: Un comando para servir; API compatible con OpenAI incluida
Flujos de trabajo agente: Qwen3.5 sobresale en el uso de herramientas — combinar con llamadas a funciones para automatización
Modelo nuevo = menos cacheado: La primera descarga toma tiempo (~20GB para 35B). Descárgalo previamente antes de que empiece tu carga de trabajo

Solución de problemas

Problema

Solución

35B OOM en 24GB

Usa load_in_4bit=True o reduce --max-model-len

Modelo de Ollama no encontrado

Actualiza Ollama: curl -fsSL https://ollama.com/install.sh | sh

Lento en la primera solicitud

La carga del modelo toma 30-60s; las solicitudes subsecuentes son rápidas

Llamadas a herramientas no funcionan

Asegúrate de pasar tools parámetro; usa solo la variante instruct

Lecturas adicionales

AnteriorMistral Small 3.1 SiguienteGLM-5

Última actualización hace 21 días

¿Te fue útil?

hashtagCaracterísticas clave

hashtagVariantes del modelo

hashtagRequisitos

hashtagInicio rápido con Ollama

hashtagConfiguración de vLLM (Producción)

hashtagHuggingFace Transformers

hashtagEjemplo de uso agente / de herramientas

hashtag¿Por qué Qwen3.5 en Clore.ai?

hashtagConsejos para usuarios de Clore.ai

hashtagSolución de problemas

hashtagLecturas adicionales