उन्नत
Clore बेयर मेटल — आवश्यकताएँ और मार्गदर्शिका
Clore बेयर मेटल शारीरिक (गैर-वर्चुअलाइज़्ड) सर्वर हैं जिनमें पूर्ण रूट एक्सेस, कोई साझा नहीं और कोई पावर सीमा नहीं होती। AI/ML, HPC, 3D रेंडरिंग और किसी भी भारी वर्कलोड के लिए उपयुक्त।
उपलब्ध GPU (उदाहरण): B200, H100, H200, A100, L40S, RTX 5090, RTX 4090, आदि। लोकेशन (प्रारंभ): यूएसए, जापान, हांगकांग, और अन्य SLA: टियर 3 और उससे ऊपर के डेटा सेंटर्स, लक्षित अपटाइम 99.99%.
1) Clore पर बेयर मेटल क्या है
आपको पूरा शारीरिक मशीन मिलती है (CPU, RAM, डिस्क, नेटवर्क, GPU).
पूर्ण रूट एक्सेस/SSH और उपलब्ध होने पर OS पुनर्स्थापना के लिए IPMI/KVM।
कोई PL सीमाएँ / अलग करने वाली परतें नहीं — प्रदर्शन हार्डवेयर के अनुरूप होता है।
यह कंटेनर-आधारित किराये (HiveOS/Docker) से अलग है क्योंकि संसाधन साझा नहीं होते।
2) अनिवार्य इन्फ्रास्ट्रक्चर आवश्यकताएँ (प्रदाता के लिए)
2.1 डेटा सेंटर
न्यूनतम टियर 3 (Uptime Institute या मान्यता प्राप्त स्थानीय समकक्ष)।
दस्तावेज़: DC पत्र/प्रमाण पत्र, नोड/रीडंडंसी विवरण (पावर N+1/2N, कूलिंग, नेटवर्क)।
SLA 99.99% 24/7 NOC के साथ।
फायर सेफ्टी मानकों का पालन; आपातकालीन प्रक्रियाओं की उपलब्धता (RPO/RTO)।
केवल कानूनी इकाइयाँ। घर/कार्यालय के “सर्वर रूम” स्वीकार्य नहीं हैं।
2.2 हार्डवेयर बेस (न्यूनतम)
CPU: 64 थ्रेड्स से शुरू।
RAM: 128 GB से शुरू (मल्टी-GPU/HPC के लिए 256 GB+ अनुशंसित)।
स्टोरेज: NVMe SSD ≥ 1 TB, थ्रूपुट ≥ 1 GB/s (सिस्टम और डेटा के लिए RAID1/10 अनुशंसित)।
नेटवर्क: ≥ 1 Gbps सिमेट्रिक (10 Gbps पसंदीदा, L2/L3 री़डंडेंसी, स्थैतिक IPv4; IPv6 एक प्लस)।
GPU (टियर): L40S / H200 और उससे ऊपर या भारी वर्कलोड सहने में समकक्ष: B200, H100, H200, A100, L40S, RTX 4090/5090 (सर्वर A-सीरीज और डेटा-सेंटर कार्ड पसंदीदा).
2.3 उच्च-प्रदर्शन इंटरकनेक्ट (पसंदीदा)
InfiniBand (EDR/HDR/NDR) वितरित प्रशिक्षण/HPC के लिए।
NVLink/NVSwitch — नोड के भीतर मल्टी-GPU के लिए वांछनीय।
2.4 विश्वसनीयता और प्रतिस्थापन
हार्डवेयर विफलता की स्थिति में — एक-के-बदले-एक प्रतिस्थापन (समान या सख्त समकक्ष कॉन्फ़िगरेशन) बिना SLA गिरावट के।
सामान के अनिवार्य स्टॉक / “हॉट” स्पेयर्स।
2.5 सुरक्षा और डेटा हाइजीन
किराए के बीच डिस्क निर्जलीकरण: blkdiscard/secure erase/1-pass zero/TRIM (लॉगिंग)।
IPMI अलगाव, बंद प्रबंधन परिधि, ACL/DDoS प्रोफ़ाइल।
OS इमेज — परीक्षण की हुई, अद्यतित माइक्रोकोड/पैच के साथ, का समर्थन NVIDIA ड्राइवर।
3) न्यूनतम व्यावसायिक शर्तें
न्यूनतम किराए की अवधि: से 1 महीना.
मूल्य निर्धारण: भौगोलिक स्थान के अनुसार प्रतिस्पर्धी मूल्य सूची (ट्रैफ़िक/बिजली/VAT लागत को ध्यान में रखते हुए)।
API एकीकरण ऑटो-प्रोविज़निंग, एक्सटेंशन और मॉनिटरिंग के लिए मात्रा के आधार पर अनिवार्य/इच्छित है।
4) सॉफ़्टवेयर और इमेज आवश्यकताएँ
OS: Ubuntu 22.04/24.04 LTS, Rocky/RHEL 9; अनुरोध पर — Windows Server (लाइसेंसिंग के साथ)।
GPU स्टैक: NVIDIA 550.xx+ (या विशिष्ट GPUs के लिए अनुशंसित संस्करण), CUDA 12.2/12.4+।
प्रबंधन: SSH (अनिवार्य), IPMI/KVM (पसंदीदा) किराएदार के लिए अस्थायी खाते के साथ।
कंटेनरीकरण: अनुरोध पर Docker/Podman; Kubernetes — अनुमति है यदि एक मास्टर उसी DC में प्रोविजन किया गया हो।
5) प्रदाता कैसे बेयर मेटल से जुड़ सकता है
आवेदन एवं सत्यापन:
कानूनी इकाई, टियर 3+ DC के साथ आधिकारिक अनुबंध, SLA 99.99%, 24/7 NOC।
दस्तावेज़ पैकेज: टियर/समकक्ष प्रमाण पत्र, SLA, फायर सेफ्टी, री़डंडेंसी योजना।
स्वीकृति परीक्षण: सार्वजनिक IPv4, IPMI (KVM) का स्क्रीनशॉट/एक्सेस, iPerf3/डिस्क प्रदर्शन परिणाम।
SKU कैटलॉग और मूल्य निर्धारण:
मानकीकृत कार्ड (GPU संरचना, CPU थ्रेड्स, RAM, NVMe, नेटवर्क, IB/NVLink, DC/लोकेशन, ट्रैफ़िक सीमाएं)।
कीमतें भौगोलिकता से जुड़ी। न्यूनतम अवधि — 2 सप्ताह।
ऑपरेशनल नीतियाँ:
इन्सिडेंट रेस्पॉन्स समय: ≤ 15 मिनट; हार्डवेयर प्रतिस्थापन: तुरंत समकक्ष।
डिस्क निर्जलीकरण का लॉग रखना, वापसी के बाद एडमिन एक्सेस बंद करना, ऑडिट।
अपटाइम/इन्सिडेंट्स पर मासिक रिपोर्ट।
6) नेटवर्क और थ्रूपुट आवश्यकताएँ
न्यूनतम 1 Gbps (सिमेट्रिक), वरीयतः 10 Gbps री़डंडेंसी के साथ।
पब्लिक IPv4, अनुरोध पर rDNS समर्थन; IPv6 वांछनीय है।
बेसिक ACL, एंटी-DDoS प्रोफ़ाइल, समर्पित प्रबंधन-VLAN IPMI के लिए।
के लिए InfiniBand — रैक/रूम के भीतर डायरेक्ट L2 सेगमेंटेशन और OFED उपलब्धता।
7) उदाहरण वर्कलोड्स
मल्टी-GPU LLM प्रशिक्षण: 8×L40S/NVLink या A100/H100/H200 नोड्स के IB क्लस्टर।
वीडियो रेंडरिंग: 4×RTX 4090/5090 स्थानीय NVMe कैश और 10 Gbps एग्रीस।
HFT/ट्रेडिंग: कम लेटेंसी, CPU 64–128 थ्रेड्स, RAM 256–512 GB, NVMe RAID1 और 10 Gbps नेटवर्क।
जीनोमिक्स/HPC: A100/H100 के साथ IB HDR/NDR, SLURM / MPI समर्थन।
स्टैंडर्ड रेंटल और बेयर मेटल की तुलना
यह क्या है
होस्ट OS के भीतर कंटेनर/पर्यावरण
पूरा शारीरिक सर्वर
संसाधन (CPU/RAM/बैंडविड्थ)
शेड्यूलर द्वारा साझा; cgroup कोटा, संभावित थ्रॉटलिंग
विशेष; पूर्वानुमेय CPU/RAM/बैंडविड्थ
रूट/प्रिविलेज
कंटेनर के अंदर रूट, BIOS एक्सेस नहीं
पूर्ण सर्वर रूट; BIOS/UEFI एक्सेस
GPU ड्राइवर (CUDA/NVIDIA)
संस्करण होस्ट द्वारा परिभाषित
आप आवश्यक संस्करण स्थापित करते हैं (CUDA/OFED, आदि)
GPU नियंत्रण
पैसथ्रू सीमाओं के साथ (होस्ट नीति के अनुसार PL/OC)
पूर्ण PL/OC नियंत्रण; NVLink/NVSwitch (यदि मौजूद हो)
IPMI/KVM/वर्चुअल मीडिया
नहीं
हाँ (रिमोट कंसोल, ISO माउंटिंग)
स्टोरेज
होस्ट वॉल्यूम/माउंट्स; बैंडविड्थ परिवर्तनशील हो सकता है
डायरेक्ट NVMe/RAID; स्थिर IOPS/थ्रूपुट
नेटवर्क
पोर्ट्स/NAT/शेयर्ड बैंडविड्थ
समर्पित NIC 1–10G+; rDNS, VLAN; पब्लिक IPv4
विश्वसनीयता / SLA
होस्ट पर निर्भर; समान-से-समान स्वैप की गारंटी नहीं
DC टियर 3+, लक्षित SLA 99.99%, अनिवार्य समान-से-समान प्रतिस्थापन
न्यूनतम अवधि
आमतौर पर घंटे/दिन
2 सप्ताह से
लागत
कम
उच्च (विशेष + डेटा सेंटर)
शुरू करने का समय
सेकंड–मिनट
प्रारंभ में 1 घंटे से 48 घंटे तक
HPC / InfiniBand
आमतौर पर नहीं
अनुशंसित (InfiniBand), NVLink/NVSwitch
सबसे बेहतर के लिए
त्वरित कार्य, परीक्षण, माइनिंग, छोटे सत्र
AI/ML/HPC, प्रोडक्शन वर्कलोड, लंबी परियोजनाएँ
प्रदाता के लिए आवश्यकताएँ
मूलभूत
कानूनी इकाई, DC टियर 3+, 24/7 NOC, क्षेत्रीय मूल्य निर्धारण, API
सुरक्षा / डेटा
होस्ट नीतियों के भीतर
किराए के बीच डिस्क सैनेटाइजेशन, अलग प्रबंधन (IPMI)
अक्सर पूछे जाने वाले प्रश्न
बेयर मेटल कंटेनर किराये से कैसे अलग है? बेयर मेटल है पूरी तरह से आपकी शारीरिक मशीन (CPU/RAM/Disk/Net/GPU)। कंटेनर किराये में, संसाधन साझा होते हैं और आप एक अलग परिवेश में काम करते हैं।
क्या IPMI आवश्यक है? पसंदीदा। यह OS पुनर्स्थापना को तेज करता है और विशेष रूप से नेटवर्क/SSH समस्याओं के लिए KVM एक्सेस प्रदान करता है।
क्या नोड्स को IB पर इंटरकनेक्ट किया जा सकता है? हाँ, वितरित प्रशिक्षण/HPC के लिए InfiniBand को प्रोत्साहित किया जाता है। SKU में IB बैंडविड्थ/प्रकार निर्दिष्ट करें।
GPU के लिए न्यूनतम क्या है? L40S / H200 स्तर और उससे ऊपर, या भारी वर्कलोड सहने में समकक्ष (B200, H100, A100, आदि)।
अगर सर्वर “डाउन” हो जाए तो क्या होगा? प्रदाता को तुरंत एक समान प्रतिस्थापन देना चाहिए बिना किसी गिरावट के (SLA 99.99%).
Last updated
Was this helpful?