Qwen3.5

Ejecuta Alibaba Qwen3.5 en Clore.ai — el modelo de vanguardia más reciente (feb 2026)

Qwen3.5, lanzado el 16 de febrero de 2026, es el último modelo insignia de Alibaba y uno de los lanzamientos de código abierto más destacados de 2026. El insignia MoE de 397B superó a Claude 4.5 Opus en el benchmark de matemáticas HMMT, mientras que el más pequeño modelo denso de 35B cabe en una sola RTX 4090. Todos los modelos incluyen capacidades agente (uso de herramientas, llamadas a funciones, ejecución autónoma de tareas) y comprensión multimodal desde el primer momento.

Características clave

  • Tres tamaños: 9B (denso), 35B (denso), 397B (MoE) — algo para cada GPU

  • Superó a Claude 4.5 Opus en el benchmark de matemáticas HMMT

  • Nativamente multimodal: Comprensión de texto e imagen

  • Capacidades agente: Uso de herramientas, llamadas a funciones, flujos de trabajo autónomos

  • Ventana de contexto de 128K: Maneja documentos y bases de código grandes

  • Licencia Apache 2.0: Uso comercial completo, sin restricciones

Variantes del modelo

Modelo
Parámetros
Tipo
VRAM (Q4)
VRAM (FP16)
Fortaleza

Qwen3.5-9B

9B

Denso

6GB

18GB

Rápido, eficiente

Qwen3.5-35B

35B

Denso

22GB

70GB

Mejor en una sola GPU

Qwen3.5-397B

397B

MoE

~100GB

400GB+

Clase frontera

Requisitos

Componente
9B (Q4)
35B (Q4)
397B (multi-GPU)

GPU

RTX 3080 10GB

RTX 4090 24GB

4× H100 80GB

VRAM

8GB

22GB

320GB+

RAM

16GB

32GB

128GB

Disco

15GB

30GB

250GB

GPU recomendada de Clore.ai: RTX 4090 24GB (~$0.5–2/día) para 35B — mejor calidad por dólar

Inicio rápido con Ollama

Configuración de vLLM (Producción)

HuggingFace Transformers

Ejemplo de uso agente / de herramientas

¿Por qué Qwen3.5 en Clore.ai?

El modelo de 35B es posiblemente el mejor modelo que puedes ejecutar en una sola RTX 4090:

  • Supera a Llama 4 Scout en matemáticas y razonamiento

  • Supera a Gemma 3 27B en tareas agente

  • El uso de herramientas / llamadas a funciones funciona desde el primer momento

  • Apache 2.0 = sin problemas de licencia

A $0.5–2/día por una RTX 4090, obtienes IA de clase frontera por el precio de un café.

Consejos para usuarios de Clore.ai

  • 35B es el punto óptimo: Cabe en RTX 4090 Q4, supera a la mayoría de modelos de 70B

  • 9B para presupuesto: Incluso una RTX 3060 ($0.15/día) ejecuta bien el modelo de 9B

  • Usa Ollama para inicio rápido: Un comando para servir; API compatible con OpenAI incluida

  • Flujos de trabajo agente: Qwen3.5 sobresale en el uso de herramientas — combinar con llamadas a funciones para automatización

  • Modelo nuevo = menos cacheado: La primera descarga toma tiempo (~20GB para 35B). Descárgalo previamente antes de que empiece tu carga de trabajo

Solución de problemas

Problema
Solución

35B OOM en 24GB

Usa load_in_4bit=True o reduce --max-model-len

Modelo de Ollama no encontrado

Actualiza Ollama: curl -fsSL https://ollama.com/install.sh | sh

Lento en la primera solicitud

La carga del modelo toma 30-60s; las solicitudes subsecuentes son rápidas

Llamadas a herramientas no funcionan

Asegúrate de pasar tools parámetro; usa solo la variante instruct

Lecturas adicionales

Última actualización

¿Te fue útil?