TGI (टेक्स्ट जेनरेशन इन्फरेंस)
उत्पादन LLM सर्विंग के लिए HuggingFace Text Generation Inference (TGI) को Clore.ai GPUs पर चलाएं
सर्वर आवश्यकताएँ
पैरामीटर
न्यूनतम
अनुशंसित
CLORE.AI पर त्वरित तैनाती
चर
उदाहरण
विवरण
चरण-दर-चरण सेटअप
1. CLORE.AI पर एक GPU सर्वर किराए पर लें
2. SSH के जरिए कनेक्ट करें
3. TGI Docker इमेज खींचें (Pull)
4. किसी मॉडल के साथ TGI लॉन्च करें
5. सत्यापित करें कि सर्वर चल रहा है
6. CLORE.AI HTTP प्रॉक्सी के माध्यम से एक्सेस करें
उपयोग के उदाहरण
उदाहरण 1: बेसिक टेक्स्ट जनरेशन
उदाहरण 2: चैट कंप्लीशन्स (OpenAI-अनुकूल)
उदाहरण 3: स्ट्रीमिंग प्रतिक्रिया
उदाहरण 4: Python क्लाइंट
उदाहरण 5: बैच अनुरोध
कॉन्फ़िगरेशन
मुख्य CLI पैरामीटर्स
पैरामीटर
डिफ़ॉल्ट
विवरण
लोकल मॉडल का उपयोग करना
AWQ क्वांटाइज़ेशन (NF4 की तुलना में तेज़)
प्रदर्शन सुझाव
1. Flash Attention 2 सक्षम करें
2. अधिकतम बैच साइज ट्यून करें
3. Ampere+ GPUs पर bfloat16 का उपयोग करें
4. मॉडल्स को पर्सिस्टेंट स्टोरेज पर पहले से डाउनलोड करें
5. GPU मेमोरी प्रबंधन
6. स्पेकुलेटिव डीकोडिंग
समस्या निवारण
समस्या: "CUDA out of memory"
समस्या: मॉडल डाउनलोड धीमा है
समस्या: सर्वर http_pub के माध्यम से सुलभ नहीं
समस्या: "trust_remote_code आवश्यक है"
समस्या: पहली प्रतिक्रिया धीमी है
समस्या: कंटेनर तुरंत आउट हो जाता है
लिंक
Clore.ai GPU सिफारिशें
उपयोग केस
सिफारिश की गई GPU
Clore.ai पर अनुमानित लागत
Last updated
Was this helpful?