PowerInfer

सक्रियता लोकेलिटी का उपयोग करते हुए CPU/GPU हाइब्रिड LLM इनफेरेंस — CPU और GPU के बीच बुद्धिमानी से गणना विभाजित करके एक ही उपभोक्ता GPU पर 70B पैरामीटर मॉडल चलाएँ।

🌟 8,000+ GitHub स्टार्स | SJTU IPADS में विकसित | MIT लाइसेंस


PowerInfer क्या है?

PowerInfer एक उच्च-प्रदर्शन इनफेरेंस इंजन है बड़े भाषा मॉडलों के लिए जो एक प्रमुख अंतर्दृष्टि का उपयोग करता है: LLMs में मजबूत सक्रियता लोकेलिटी दिखाई देती है — न्यूरॉन्स का एक छोटा उपसमुच्चय ("हॉट न्यूरॉन्स") अधिकांश इनफेरेंस चरणों में लगातार सक्रिय रहता है, जबकि अधिकांश निष्क्रिय रहते हैं।

PowerInfer इस गुण का उपयोग करता है ताकि:

  1. हॉट न्यूरॉन्स को GPU पर रखें तेज़ गणना के लिए

  2. कोल्ड न्यूरॉन्स को CPU/RAM पर ऑफलोड करें बिना महत्वपूर्ण गुणवत्ता हानि के

  3. गतिशील रूप से रूट करें सक्रियता पैटर्न के आधार पर CPU और GPU के बीच गणना

परिणाम: आप केवल के साथ 70B मॉडल चला सकते हैं 16GB VRAM बजाय इसके कि सभी को GPU पर 140GB+ की आवश्यकता हो।

मुख्य क्षमताएँ

  • उपभोक्ता GPU समर्थन — RTX 3090/4090 70B मॉडल चला सकते हैं

  • न्यूरॉन-सचेत शेड्यूलिंग — प्रिडिक्टर प्रत्येक इनफेरेंस के लिए CPU बनाम GPU रूटिंग निर्धारित करता है

  • न्यूनतम गुणवत्ता ह्रास — पूर्ण-प्रिसिजन गुणवत्ता का >95% बनाए रखता है

  • llama.cpp अनुकूलता — GGUF फॉर्मेट समर्थन

  • NUMA-सचेत CPU ऑफलोडिंग — उच्च कोर-काउंट CPUs के लिए अनुकूलित

Clore.ai पर PowerInfer क्यों उपयोग करें?

Clore.ai क्लाउड विकल्पों की तुलना में GPUs किराये पर बहुत कम लागत पर देता है। PowerInfer के साथ:

  • चलाएँ Llama 2 70B पर एकल RTX 4090 (24GB VRAM)

  • मल्टी-GPU सेटअप की तुलना में GPU किराये की लागत घटाएँ

  • लंबी संदर्भ विंडो को ओवरफ़्लो के रूप में CPU RAM से प्रोसेस करें

  • ऐसे मॉडल चलाएँ जिन्हें पहले महंगे A100/H100 इंस्टेंस की आवश्यकता थी


हार्डवेयर आवश्यकताएँ

मॉडल आकार
न्यूनतम VRAM
अनुशंसित RAM
प्रदर्शन

7B

4GB

16GB

उत्कृष्ट

13B

6GB

32GB

बहुत अच्छा

34B

12GB

64GB

अच्छा

70B

16GB

128GB

मध्यम

circle-info

CPU मायने रखता है: PowerInfer कोल्ड न्यूरॉन्स को CPU पर ऑफलोड करता है। उच्च कोर-काउंट CPU (AMD EPYC, Intel Xeon) तेज़ मेमोरी बैंडविड्थ के साथ बड़े मॉडलों के लिए थ्रूपुट को काफी बढ़ाता है।


Clore.ai पर शीघ्र आरम्भ

चरण 1: अपना सर्वर चुनें

पर clore.aiarrow-up-right मार्केटप्लेस में, फ़िल्टर करें:

  • NVIDIA GPU 16GB+ VRAM के साथ (RTX 3090, RTX 4090, A100)

  • उच्च CPU कोर काउंट (16+ कोर आदर्श)

  • 64GB+ RAM 70B मॉडलों के लिए, 13B मॉडलों के लिए 32GB

चरण 2: कस्टम Docker इमेज बनाएं

PowerInfer को एक कस्टम Docker सेटअप की आवश्यकता है। इसका उपयोग करें Dockerfile:

Docker Hub पर बिल्ड और पुश करें या Clore.ai के साथ इनलाइन उपयोग करें:

चरण 3: Clore.ai पर तैनात करें

अपने Clore.ai ऑर्डर में सेट करें:

  • Docker इमेज: yourname/powerinfer:latest

  • पोर्ट्स: 22 (SSH)

  • पर्यावरण: NVIDIA_VISIBLE_DEVICES=all


स्रोत से PowerInfer बनाना

यदि आप कंटेनर के अंदर बनाना पसंद करते हैं:

बिल्ड सत्यापित करें


मॉडल प्राप्त करना

GGUF मॉडल डाउनलोड करें

PowerInfer GGUF फॉर्मेट का उपयोग करता है (उसी जैसा कि llama.cpp):

न्यूरॉन प्रिडिक्टर जेनरेट करें (PowerInfer के लिए आवश्यक)

PowerInfer को प्रत्येक मॉडल के लिए एक न्यूरॉन सक्रियता प्रिडिक्टर की आवश्यकता होती है। यह llama.cpp से प्रमुख अंतर है:

circle-exclamation

इनफेरेंस चलाना

बेसिक इनफेरेंस (प्रिडिक्टर के बिना)

प्रिडिक्टर जेनरेशन के बिना परीक्षण के लिए (मानक GPU/CPU विभाजन):

PowerInfer मोड (प्रिडिक्टर के साथ)

न्यूरॉन-सचेत रूटिंग के साथ पूर्ण PowerInfer मोड:

इंटरैक्टिव चैट मोड

सर्वर मोड (OpenAI-अनुकूल API)


GPU लेयर स्प्लिट का अनुकूलन

The --gpu-layers पैरामीटर निर्धारित करता है कि कितनी ट्रांसफॉर्मर लेयर्स को GPU पर रखा जाए। इसे अपने VRAM के आधार पर ट्यून करें:

लेयर आवंटन मार्गदर्शिका:

GPU VRAM
7B मॉडल
13B मॉडल
34B मॉडल
70B मॉडल

8GB

सभी (32)

20 लेयर्स

10 लेयर्स

4 लेयर्स

16GB

सभी (32)

सभी (40)

25 लेयर्स

10 लेयर्स

24GB

सभी (32)

सभी (40)

सभी (60)

20 लेयर्स

48GB

सभी (32)

सभी (40)

सभी (60)

सभी (80)


प्रदर्शन बेंचमार्क्स

थ्रूपुट तुलना (Llama 2 70B, RTX 3090)

इंजन
GPU लेयर्स
टोकन/सेकंड

llama.cpp (केवल GPU)

20/80

~4 t/s

llama.cpp (केवल CPU)

0/80

~1 t/s

PowerInfer

20/80 + प्रिडिक्टर

~12 t/s

circle-check

एक सेवा के रूप में चलाना

स्थायी API सर्विंग के लिए systemd सेवा बनाएं:


API उपयोग

एक बार सर्वर चलने पर, किसी भी OpenAI-अनुकूल क्लाइंट का उपयोग करें:


समस्या निवारण

CUDA मेमोरी ख़त्म हो गई

धीमा CPU इनफेरेंस

बिल्ड विफल होता है

triangle-exclamation

Clore.ai GPU सिफारिशें

PowerInfer का CPU/GPU हाइब्रिड डिज़ाइन बड़े मॉडलों को चलाने की अर्थव्यवस्था बदल देता है। हाई-VRAM GPUs और तेज़ CPUs वाले Clore.ai सर्वर आदर्श हैं।

GPU
VRAM
Clore.ai कीमत
अधिकतम मॉडल (Q4)
थ्रूपुट (Llama 2 70B Q4)

RTX 3090

24 GB

~$0.12/घंटा

70B (64GB+ RAM के साथ)

~8–12 tok/s

RTX 4090

24 GB

~$0.70/घंटा

70B (तेज़ CPU ऑफलोड के साथ)

~12–18 tok/s

A100 40GB

40 GB

~$1.20/घंटा

70B (न्यूनतम ऑफलोड)

~35–45 tok/s

A100 80GB

80 GB

~$2.00/घंटा

70B पूर्ण प्रिसिजन

~50–60 tok/s

circle-info

PowerInfer का स्वीट स्पॉट: RTX 3090 लगभग ~$0.12/घंटा पर Llama 2 70B Q4 चलाना बजट-संज्ञानी उपयोगकर्ताओं के लिए एक बड़ा विकास है। आप A100 किराये की लागत से 10–12× कम में 70B मॉडल प्राप्त करते हैं। थ्रूपुट कम है (~10 tok/s), लेकिन शोध या कम-ट्रैफ़िक इनफेरेंस के लिए यह अद्वितीय मूल्य है।

GPU जितना महत्वपूर्ण है उतना ही CPU भी मायने रखता है: PowerInfer "कोल्ड" न्यूरॉन्स को CPU पर ऑफलोड करता है। AMD EPYC या Intel Xeon CPUs (कई कोर, उच्च मेमोरी बैंडविड्थ) वाले Clore.ai सर्वर सिंगल-सॉकेट उपभोक्ता CPUs की तुलना में काफी बेहतर प्रदर्शन देंगे। बड़े मॉडल कार्य के लिए किराये पर लेने से पहले सर्वर स्पेसिफ़िकेशन जाँचें।

मेमोरी बैंडविड्थ बॉटलनेक: 70B मॉडलों के लिए, कोल्ड न्यूरॉन गणना के दौरान CPU RAM बैंडविड्थ सीमित कारक होती है। DDR5 ECC RAM या HBM-समकक्ष आर्किटेक्चर वाले सर्वर बेहतर थ्रूपुट दिखाएंगे।


संसाधन

Last updated

Was this helpful?