# Qwen3.5

Qwen3.5, lanzado el 16 de febrero de 2026, es el último modelo insignia de Alibaba y uno de los lanzamientos de código abierto más destacados de 2026. El **insignia MoE de 397B** superó a Claude 4.5 Opus en el benchmark de matemáticas HMMT, mientras que el más pequeño **modelo denso de 35B** cabe en una sola RTX 4090. Todos los modelos incluyen capacidades agente (uso de herramientas, llamadas a funciones, ejecución autónoma de tareas) y comprensión multimodal desde el primer momento.

## Características clave

* **Tres tamaños**: 9B (denso), 35B (denso), 397B (MoE) — algo para cada GPU
* **Superó a Claude 4.5 Opus** en el benchmark de matemáticas HMMT
* **Nativamente multimodal**: Comprensión de texto e imagen
* **Capacidades agente**: Uso de herramientas, llamadas a funciones, flujos de trabajo autónomos
* **Ventana de contexto de 128K**: Maneja documentos y bases de código grandes
* **Licencia Apache 2.0**: Uso comercial completo, sin restricciones

## Variantes del modelo

| Modelo       | Parámetros | Tipo  | VRAM (Q4) | VRAM (FP16) | Fortaleza             |
| ------------ | ---------- | ----- | --------- | ----------- | --------------------- |
| Qwen3.5-9B   | 9B         | Denso | 6GB       | 18GB        | Rápido, eficiente     |
| Qwen3.5-35B  | 35B        | Denso | 22GB      | 70GB        | Mejor en una sola GPU |
| Qwen3.5-397B | 397B       | MoE   | \~100GB   | 400GB+      | Clase frontera        |

## Requisitos

| Componente | 9B (Q4)       | 35B (Q4)      | 397B (multi-GPU) |
| ---------- | ------------- | ------------- | ---------------- |
| GPU        | RTX 3080 10GB | RTX 4090 24GB | 4× H100 80GB     |
| VRAM       | 8GB           | 22GB          | 320GB+           |
| RAM        | 16GB          | 32GB          | 128GB            |
| Disco      | 15GB          | 30GB          | 250GB            |

**GPU recomendada de Clore.ai**: RTX 4090 24GB (\~$0.5–2/día) para 35B — mejor calidad por dólar

## Inicio rápido con Ollama

```bash
# Instalar Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 9B — funciona en cualquier cosa (8GB VRAM)
ollama run qwen3.5:9b

# 35B cuantizado — necesita RTX 4090 (24GB)
ollama run qwen3.5:35b

# Como servidor de API
ollama serve &
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.5:35b",
    "messages": [{"role": "user", "content": "Resuelve esto: si f(x) = x^3 - 3x + 1, encuentra todas las raíces reales"}]
  }'
```

## Configuración de vLLM (Producción)

```bash
pip install vllm

# 35B en una sola GPU
vllm serve Qwen/Qwen3.5-35B-Instruct \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.90

# 9B con contexto largo
vllm serve Qwen/Qwen3.5-9B-Instruct \
  --max-model-len 65536

# 397B en clúster multi-GPU
vllm serve Qwen/Qwen3.5-397B-A45B-Instruct \
  --tensor-parallel-size 8 \
  --max-model-len 32768
```

## HuggingFace Transformers

```python
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3.5-35B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    load_in_4bit=True  # Ajusta 35B en 24GB
)

messages = [
    {"role": "system", "content": "Eres un tutor de matemáticas servicial."},
    {"role": "user", "content": "Demuestra que la raíz cuadrada de 2 es irracional."}
]

input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt").to(model.device)
output = model.generate(input_ids, max_new_tokens=2048, temperature=0.7, do_sample=True)
print(tokenizer.decode(output[0][input_ids.shape[-1]:], skip_special_tokens=True))
```

## Ejemplo de uso agente / de herramientas

```python
import json
from openai import OpenAI

client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")

tools = [{
    "type": "function",
    "function": {
        "name": "get_gpu_price",
        "description": "Obtén el precio de alquiler actual para un modelo de GPU en Clore.ai",
        "parameters": {
            "type": "object",
            "properties": {
                "gpu_model": {"type": "string", "description": "Nombre del modelo GPU, p. ej. RTX 4090"}
            },
            "required": ["gpu_model"]
        }
    }
}]

response = client.chat.completions.create(
    model="qwen3.5:35b",
    messages=[{"role": "user", "content": "¿Cuál es la GPU más barata que puedo alquilar para ejecutar un modelo de 7B?"}],
    tools=tools,
    tool_choice="auto"
)

# Qwen3.5 llamará a get_gpu_price con los parámetros apropiados
print(response.choices[0].message)
```

## ¿Por qué Qwen3.5 en Clore.ai?

El modelo de 35B es posiblemente el **mejor modelo que puedes ejecutar en una sola RTX 4090**:

* Supera a Llama 4 Scout en matemáticas y razonamiento
* Supera a Gemma 3 27B en tareas agente
* El uso de herramientas / llamadas a funciones funciona desde el primer momento
* Apache 2.0 = sin problemas de licencia

A $0.5–2/día por una RTX 4090, obtienes IA de clase frontera por el precio de un café.

## Consejos para usuarios de Clore.ai

* **35B es el punto óptimo**: Cabe en RTX 4090 Q4, supera a la mayoría de modelos de 70B
* **9B para presupuesto**: Incluso una RTX 3060 ($0.15/día) ejecuta bien el modelo de 9B
* **Usa Ollama para inicio rápido**: Un comando para servir; API compatible con OpenAI incluida
* **Flujos de trabajo agente**: Qwen3.5 sobresale en el uso de herramientas — combinar con llamadas a funciones para automatización
* **Modelo nuevo = menos cacheado**: La primera descarga toma tiempo (\~20GB para 35B). Descárgalo previamente antes de que empiece tu carga de trabajo

## Solución de problemas

| Problema                             | Solución                                                                  |
| ------------------------------------ | ------------------------------------------------------------------------- |
| 35B OOM en 24GB                      | Usa `load_in_4bit=True` o reduce `--max-model-len`                        |
| Modelo de Ollama no encontrado       | Actualiza Ollama: `curl -fsSL https://ollama.com/install.sh \| sh`        |
| Lento en la primera solicitud        | La carga del modelo toma 30-60s; las solicitudes subsecuentes son rápidas |
| Llamadas a herramientas no funcionan | Asegúrate de pasar `tools` parámetro; usa solo la variante instruct       |

## Lecturas adicionales

* [Blog de Qwen](https://qwenlm.github.io/)
* [Modelos en HuggingFace](https://huggingface.co/Qwen)
* [Biblioteca Ollama](https://ollama.com/library/qwen3.5)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-es/modelos-de-lenguaje/qwen35.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
