Qwen3.5

Clore.ai पर Alibaba Qwen3.5 चलाएँ — ताज़ा फ्रंटियर मॉडल (फरवरी 2026)

Qwen3.5, 16 फरवरी, 2026 को जारी, अलीबाबा का नवीनतम फ्लैगशिप मॉडल है और 2026 के सबसे लोकप्रिय ओपन-सोर्स रिलीज़ में से एक है। 397B MoE फ्लैगशिप ने HMMT गणित बेंचमार्क पर Claude 4.5 Opus को हराया, जबकि छोटे 35B डेंस मॉडल एकल RTX 4090 पर फिट होता है। सभी मॉडल बॉक्स से बाहर एजेंटिक क्षमताओं (टूल उपयोग, फंक्शन कॉलिंग, स्वायत्त कार्य निष्पादन) और मल्टीमॉडल समझ के साथ आते हैं।

प्रमुख विशेषताएँ

तीन आकार: 9B (डेंस), 35B (डेंस), 397B (MoE) — हर GPU के लिए कुछ न कुछ
Claude 4.5 Opus को हराया HMMT गणित बेंचमार्क पर
मूलतः मल्टीमॉडल: टेक्स्ट + छवि समझ
एजेंटिक क्षमताएँ: टूल उपयोग, फंक्शन कॉलिंग, स्वायत्त वर्कफ़्लो
128K संदर्भ विंडो: बड़े दस्तावेज़ और कोडबेस संभाले
Apache 2.0 लाइसेंस: पूरा वाणिज्यिक उपयोग, कोई प्रतिबंध नहीं

मॉडल प्रकार

मॉडल

पैरामीटर

प्रकार

VRAM (Q4)

VRAM (FP16)

मजबूती

Qwen3.5-9B

डेंस

6GB

18GB

तेज़, कुशल

Qwen3.5-35B

35B

डेंस

22GB

70GB

एकल-GPU के लिए सर्वश्रेष्ठ

Qwen3.5-397B

397B

MoE

~100GB

400GB+

फ्रंटियर-स्तर

आवश्यकताएँ

घटक

9B (Q4)

35B (Q4)

397B (बहु-GPU)

GPU

RTX 3080 10GB

RTX 4090 24GB

4× H100 80GB

VRAM

8GB

22GB

320GB+

RAM

16GB

32GB

128GB

डिस्क

15GB

30GB

250GB

अनुशंसित Clore.ai GPU: 35B के लिए RTX 4090 24GB (~$0.5–2/दिन) — डॉलर प्रति गुणवत्ता के हिसाब से सर्वश्रेष्ठ

Ollama के साथ त्वरित शुरुआत

# Ollama इंस्टॉल करें
curl -fsSL https://ollama.com/install.sh | sh

# 9B — किसी भी चीज़ पर चलता है (8GB VRAM)
ollama run qwen3.5:9b

# 35B क्वांटाइज़्ड — RTX 4090 (24GB) की जरूरत
ollama run qwen3.5:35b

# API सर्वर के रूप में
ollama serve &
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.5:35b",
    "messages": [{"role": "user", "content": "Solve this: if f(x) = x^3 - 3x + 1, find all real roots"}]
  }'

vLLM सेटअप (प्रोडक्शन)

pip install vllm

# 35B एकल GPU पर
vllm serve Qwen/Qwen3.5-35B-Instruct \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.90

# लंबा संदर्भ के साथ 9B
vllm serve Qwen/Qwen3.5-9B-Instruct \
  --max-model-len 65536

# 397B बहु-GPU क्लस्टर पर
vllm serve Qwen/Qwen3.5-397B-A45B-Instruct \
  --tensor-parallel-size 8 \
  --max-model-len 32768

HuggingFace Transformers

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3.5-35B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    load_in_4bit=True  # 24GB पर 35B फिट होता है
)

messages = [
    {"role": "system", "content": "You are a helpful math tutor."},
    {"role": "user", "content": "Prove that the square root of 2 is irrational."}
]

input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt").to(model.device)
output = model.generate(input_ids, max_new_tokens=2048, temperature=0.7, do_sample=True)
print(tokenizer.decode(output[0][input_ids.shape[-1]:], skip_special_tokens=True))

एजेंटिक / टूल उपयोग का उदाहरण

import json
from openai import OpenAI

client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")

tools = [{
    "type": "function",
    "function": {
        "name": "get_gpu_price",
        "description": "Clore.ai पर GPU मॉडल के वर्तमान किराये की कीमत प्राप्त करें",
        "parameters": {
            "type": "object",
            "properties": {
                "gpu_model": {"type": "string", "description": "GPU मॉडल का नाम, उदाहरण: RTX 4090"}
            },
            "required": ["gpu_model"]
        }
    }
}]

response = client.chat.completions.create(
    model="qwen3.5:35b",
    messages=[{"role": "user", "content": "What's the cheapest GPU I can rent for running a 7B model?"}],
    tools=tools,
    tool_choice="auto"
)

# Qwen3.5 उपयुक्त पैरामीटर के साथ get_gpu_price को कॉल करेगा
print(response.choices[0].message)

क्यों Clore.ai पर Qwen3.5?

35B मॉडल संभवतः वह सर्वोत्तम मॉडल है जिसे आप एकल RTX 4090 पर चला सकते हैं:

गणित और तर्क में Llama 4 Scout को हराता है
एजेंटिक कार्यों में Gemma 3 27B को हराता है
टूल उपयोग / फंक्शन कॉलिंग बॉक्स से बाहर काम करता है
Apache 2.0 = कोई लाइसेंस सिरदर्द नहीं

RTX 4090 के लिए $0.5–2/दिन पर, आप कॉफी की कीमत में फ्रंटियर-स्तर का AI प्राप्त करते हैं।

Clore.ai उपयोगकर्ताओं के लिए सुझाव

35B सबसे उपयुक्त है: RTX 4090 Q4 पर फिट होता है, अधिकांश 70B मॉडलों से बेहतर प्रदर्शन करता है
बजट के लिए 9B: यहां तक कि RTX 3060 ($0.15/दिन) भी 9B मॉडल को अच्छी तरह चलाता है
त्वरित शुरुआत के लिए Ollama का उपयोग करें: सर्व करने के लिए एक कमांड; OpenAI-अनुकूल API शामिल है
एजेंटिक वर्कफ़्लो: Qwen3.5 टूल उपयोग में उत्कृष्ट है — स्वत:करण के लिए फंक्शन कॉलिंग के साथ संयोजन करें
नया मॉडल = कम कैश्ड: पहली डाउनलोड में समय लगता है (~35B के लिए ~20GB)। अपने वर्कलोड शुरू होने से पहले प्री-पुल करें

समस्या निवारण

समस्या

समाधान

24GB पर 35B OOM

पयोग करें load_in_4bit=True या घटाएँ --max-model-len

Ollama मॉडल नहीं मिला

Ollama अपडेट करें: curl -fsSL https://ollama.com/install.sh | sh

पहले अनुरोध पर धीमा

मॉडल लोड होने में 30-60s लगते हैं; बाद के अनुरोध तेज़ होते हैं

टूल कॉल काम नहीं कर रहे

सुनिश्चित करें कि आप पास कर रहे हैं tools पैरामीटर; केवल instruct वेरिएंट का उपयोग करें

अधिक पढ़ने के लिए

PreviousMistral Small 3.1 NextGLM-5

Last updated 22 days ago

Was this helpful?

hashtagप्रमुख विशेषताएँ

hashtagमॉडल प्रकार

hashtagआवश्यकताएँ

hashtagOllama के साथ त्वरित शुरुआत

hashtagvLLM सेटअप (प्रोडक्शन)

hashtagHuggingFace Transformers

hashtagएजेंटिक / टूल उपयोग का उदाहरण

hashtagक्यों Clore.ai पर Qwen3.5?

hashtagClore.ai उपयोगकर्ताओं के लिए सुझाव

hashtagसमस्या निवारण

hashtagअधिक पढ़ने के लिए