# Qwen3.5

Qwen3.5, lanzado el 16 de febrero de 2026, es el último modelo insignia de Alibaba y uno de los lanzamientos de código abierto más destacados de 2026. El **insignia MoE de 397B** superó a Claude 4.5 Opus en el benchmark de matemáticas HMMT, mientras que el más pequeño **modelo denso de 35B** cabe en una sola RTX 4090. Todos los modelos incluyen capacidades agente (uso de herramientas, llamadas a funciones, ejecución autónoma de tareas) y comprensión multimodal desde el primer momento.

## Características clave

* **Tres tamaños**: 9B (denso), 35B (denso), 397B (MoE) — algo para cada GPU
* **Superó a Claude 4.5 Opus** en el benchmark de matemáticas HMMT
* **Nativamente multimodal**: Comprensión de texto e imagen
* **Capacidades agente**: Uso de herramientas, llamadas a funciones, flujos de trabajo autónomos
* **Ventana de contexto de 128K**: Maneja documentos y bases de código grandes
* **Licencia Apache 2.0**: Uso comercial completo, sin restricciones

## Variantes del modelo

| Modelo       | Parámetros | Tipo  | VRAM (Q4) | VRAM (FP16) | Fortaleza             |
| ------------ | ---------- | ----- | --------- | ----------- | --------------------- |
| Qwen3.5-9B   | 9B         | Denso | 6GB       | 18GB        | Rápido, eficiente     |
| Qwen3.5-35B  | 35B        | Denso | 22GB      | 70GB        | Mejor en una sola GPU |
| Qwen3.5-397B | 397B       | MoE   | \~100GB   | 400GB+      | Clase frontera        |

## Requisitos

| Componente | 9B (Q4)       | 35B (Q4)      | 397B (multi-GPU) |
| ---------- | ------------- | ------------- | ---------------- |
| GPU        | RTX 3080 10GB | RTX 4090 24GB | 4× H100 80GB     |
| VRAM       | 8GB           | 22GB          | 320GB+           |
| RAM        | 16GB          | 32GB          | 128GB            |
| Disco      | 15GB          | 30GB          | 250GB            |

**GPU recomendada de Clore.ai**: RTX 4090 24GB (\~$0.5–2/día) para 35B — mejor calidad por dólar

## Inicio rápido con Ollama

```bash
# Instalar Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 9B — funciona en cualquier cosa (8GB VRAM)
ollama run qwen3.5:9b

# 35B cuantizado — necesita RTX 4090 (24GB)
ollama run qwen3.5:35b

# Como servidor de API
ollama serve &
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.5:35b",
    "messages": [{"role": "user", "content": "Resuelve esto: si f(x) = x^3 - 3x + 1, encuentra todas las raíces reales"}]
  }'
```

## Configuración de vLLM (Producción)

```bash
pip install vllm

# 35B en una sola GPU
vllm serve Qwen/Qwen3.5-35B-Instruct \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.90

# 9B con contexto largo
vllm serve Qwen/Qwen3.5-9B-Instruct \
  --max-model-len 65536

# 397B en clúster multi-GPU
vllm serve Qwen/Qwen3.5-397B-A45B-Instruct \
  --tensor-parallel-size 8 \
  --max-model-len 32768
```

## HuggingFace Transformers

```python
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3.5-35B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    load_in_4bit=True  # Ajusta 35B en 24GB
)

messages = [
    {"role": "system", "content": "Eres un tutor de matemáticas servicial."},
    {"role": "user", "content": "Demuestra que la raíz cuadrada de 2 es irracional."}
]

input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt").to(model.device)
output = model.generate(input_ids, max_new_tokens=2048, temperature=0.7, do_sample=True)
print(tokenizer.decode(output[0][input_ids.shape[-1]:], skip_special_tokens=True))
```

## Ejemplo de uso agente / de herramientas

```python
import json
from openai import OpenAI

client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")

tools = [{
    "type": "function",
    "function": {
        "name": "get_gpu_price",
        "description": "Obtén el precio de alquiler actual para un modelo de GPU en Clore.ai",
        "parameters": {
            "type": "object",
            "properties": {
                "gpu_model": {"type": "string", "description": "Nombre del modelo GPU, p. ej. RTX 4090"}
            },
            "required": ["gpu_model"]
        }
    }
}]

response = client.chat.completions.create(
    model="qwen3.5:35b",
    messages=[{"role": "user", "content": "¿Cuál es la GPU más barata que puedo alquilar para ejecutar un modelo de 7B?"}],
    tools=tools,
    tool_choice="auto"
)

# Qwen3.5 llamará a get_gpu_price con los parámetros apropiados
print(response.choices[0].message)
```

## ¿Por qué Qwen3.5 en Clore.ai?

El modelo de 35B es posiblemente el **mejor modelo que puedes ejecutar en una sola RTX 4090**:

* Supera a Llama 4 Scout en matemáticas y razonamiento
* Supera a Gemma 3 27B en tareas agente
* El uso de herramientas / llamadas a funciones funciona desde el primer momento
* Apache 2.0 = sin problemas de licencia

A $0.5–2/día por una RTX 4090, obtienes IA de clase frontera por el precio de un café.

## Consejos para usuarios de Clore.ai

* **35B es el punto óptimo**: Cabe en RTX 4090 Q4, supera a la mayoría de modelos de 70B
* **9B para presupuesto**: Incluso una RTX 3060 ($0.15/día) ejecuta bien el modelo de 9B
* **Usa Ollama para inicio rápido**: Un comando para servir; API compatible con OpenAI incluida
* **Flujos de trabajo agente**: Qwen3.5 sobresale en el uso de herramientas — combinar con llamadas a funciones para automatización
* **Modelo nuevo = menos cacheado**: La primera descarga toma tiempo (\~20GB para 35B). Descárgalo previamente antes de que empiece tu carga de trabajo

## Solución de problemas

| Problema                             | Solución                                                                  |
| ------------------------------------ | ------------------------------------------------------------------------- |
| 35B OOM en 24GB                      | Usa `load_in_4bit=True` o reduce `--max-model-len`                        |
| Modelo de Ollama no encontrado       | Actualiza Ollama: `curl -fsSL https://ollama.com/install.sh \| sh`        |
| Lento en la primera solicitud        | La carga del modelo toma 30-60s; las solicitudes subsecuentes son rápidas |
| Llamadas a herramientas no funcionan | Asegúrate de pasar `tools` parámetro; usa solo la variante instruct       |

## Lecturas adicionales

* [Blog de Qwen](https://qwenlm.github.io/)
* [Modelos en HuggingFace](https://huggingface.co/Qwen)
* [Biblioteca Ollama](https://ollama.com/library/qwen3.5)
