Qwen3.5

Clore.ai पर Alibaba Qwen3.5 चलाएँ — सबसे ताज़ा फ्रंटियर मॉडल (फ़रवरी 2026)

Qwen3.5, 16 फरवरी, 2026 को जारी, अलीबाबा का नवीनतम फ्लैगशिप मॉडल है और 2026 के सबसे लोकप्रिय ओपन-सोर्स रिलीज़ में से एक है। 397B MoE फ्लैगशिप ने HMMT गणित बेंचमार्क पर Claude 4.5 Opus को हराया, जबकि छोटे 35B डेंस मॉडल एकल RTX 4090 पर फिट होता है। सभी मॉडल बॉक्स से बाहर एजेंटिक क्षमताओं (टूल उपयोग, फंक्शन कॉलिंग, स्वायत्त कार्य निष्पादन) और मल्टीमॉडल समझ के साथ आते हैं।

प्रमुख विशेषताएँ

  • तीन आकार: 9B (डेंस), 35B (डेंस), 397B (MoE) — हर GPU के लिए कुछ न कुछ

  • Claude 4.5 Opus को हराया HMMT गणित बेंचमार्क पर

  • मूलतः मल्टीमॉडल: टेक्स्ट + छवि समझ

  • एजेंटिक क्षमताएँ: टूल उपयोग, फंक्शन कॉलिंग, स्वायत्त वर्कफ़्लो

  • 128K संदर्भ विंडो: बड़े दस्तावेज़ और कोडबेस संभाले

  • Apache 2.0 लाइसेंस: पूरा वाणिज्यिक उपयोग, कोई प्रतिबंध नहीं

मॉडल प्रकार

मॉडल
पैरामीटर
प्रकार
VRAM (Q4)
VRAM (FP16)
मजबूती

Qwen3.5-9B

9B

डेंस

6GB

18GB

तेज़, कुशल

Qwen3.5-35B

35B

डेंस

22GB

70GB

एकल-GPU के लिए सर्वश्रेष्ठ

Qwen3.5-397B

397B

MoE

~100GB

400GB+

फ्रंटियर-स्तर

आवश्यकताएँ

घटक
9B (Q4)
35B (Q4)
397B (बहु-GPU)

GPU

RTX 3080 10GB

RTX 4090 24GB

4× H100 80GB

VRAM

8GB

22GB

320GB+

RAM

16GB

32GB

128GB

डिस्क

15GB

30GB

250GB

अनुशंसित Clore.ai GPU: 35B के लिए RTX 4090 24GB (~$0.5–2/दिन) — डॉलर प्रति गुणवत्ता के हिसाब से सर्वश्रेष्ठ

Ollama के साथ त्वरित शुरुआत

vLLM सेटअप (प्रोडक्शन)

HuggingFace Transformers

एजेंटिक / टूल उपयोग का उदाहरण

क्यों Clore.ai पर Qwen3.5?

35B मॉडल संभवतः वह सर्वोत्तम मॉडल है जिसे आप एकल RTX 4090 पर चला सकते हैं:

  • गणित और तर्क में Llama 4 Scout को हराता है

  • एजेंटिक कार्यों में Gemma 3 27B को हराता है

  • टूल उपयोग / फंक्शन कॉलिंग बॉक्स से बाहर काम करता है

  • Apache 2.0 = कोई लाइसेंस सिरदर्द नहीं

RTX 4090 के लिए $0.5–2/दिन पर, आप कॉफी की कीमत में फ्रंटियर-स्तर का AI प्राप्त करते हैं।

Clore.ai उपयोगकर्ताओं के लिए सुझाव

  • 35B सबसे उपयुक्त है: RTX 4090 Q4 पर फिट होता है, अधिकांश 70B मॉडलों से बेहतर प्रदर्शन करता है

  • बजट के लिए 9B: यहां तक कि RTX 3060 ($0.15/दिन) भी 9B मॉडल को अच्छी तरह चलाता है

  • त्वरित शुरुआत के लिए Ollama का उपयोग करें: सर्व करने के लिए एक कमांड; OpenAI-अनुकूल API शामिल है

  • एजेंटिक वर्कफ़्लो: Qwen3.5 टूल उपयोग में उत्कृष्ट है — स्वत:करण के लिए फंक्शन कॉलिंग के साथ संयोजन करें

  • नया मॉडल = कम कैश्ड: पहली डाउनलोड में समय लगता है (~35B के लिए ~20GB)। अपने वर्कलोड शुरू होने से पहले प्री-पुल करें

समस्या निवारण

समस्या
समाधान

24GB पर 35B OOM

पयोग करें load_in_4bit=True या घटाएँ --max-model-len

Ollama मॉडल नहीं मिला

Ollama अपडेट करें: curl -fsSL https://ollama.com/install.sh | sh

पहले अनुरोध पर धीमा

मॉडल लोड होने में 30-60s लगते हैं; बाद के अनुरोध तेज़ होते हैं

टूल कॉल काम नहीं कर रहे

सुनिश्चित करें कि आप पास कर रहे हैं tools पैरामीटर; केवल instruct वेरिएंट का उपयोग करें

अधिक पढ़ने के लिए

Last updated

Was this helpful?