vLLM

Clore.ai GPUs पर vLLM के साथ हाई-थ्रूपुट LLM इनफेरेंस

CLORE.AI GPUs पर उत्पादन कार्यभार के लिए उच्च थ्रूपुट LLM अनुमान सर्वर।

सभी उदाहरण GPU सर्वरों पर चलाए जा सकते हैं जिन्हें द्वारा किराए पर लिया गया है CLORE.AI मार्केटप्लेस.

वर्तमान संस्करण: v0.7.x — यह मार्गदर्शिका vLLM v0.7.3+ को कवर करती है। नई सुविधाओं में DeepSeek-R1 समर्थन, स्वचालित टूल चयन के साथ संरचित आउटपुट, मल्टी-LoRA सेवा, और बेहतर मेमोरी दक्षता शामिल हैं।

सर्वर आवश्यकताएँ

पैरामीटर

न्यूनतम

अनुशंसित

RAM

16GB

32GB+

VRAM

16GB (7B)

24GB+

नेटवर्क

500Mbps

1Gbps+

स्टार्टअप समय

5-15 मिनट

महत्वपूर्ण: vLLM को पर्याप्त RAM और VRAM की आवश्यकता होती है। 16GB से कम RAM वाले सर्वर 7B मॉडल भी चलाने में विफल होंगे।

स्टार्टअप समय: पहली बार लॉन्च पर मॉडल HuggingFace से डाउनलोड होता है (मॉडल के आकार और नेटवर्क गति के आधार पर 5-15 मिनट)। इस समय के दौरान HTTP 502 सामान्य है।

क्यों vLLM?

सबसे तेज थ्रूपुट - PagedAttention के लिए 24x उच्चतर थ्रूपुट
उत्पादन के लिए तैयार - बॉक्स से बाहर OpenAI-अनुकूल API
निरंतर बैचिंग - कुशल मल्टी-यूज़र सर्विंग
स्ट्रीमिंग - वास्तविक समय टोकन जनरेशन
मल्टी-GPU - बड़े मॉडलों के लिए टेन्सर पैरेललिज़्म
मल्टी-LoRA - एक साथ कई फाइन-ट्यून किए गए एडाप्टर्स की सेवा (v0.7+)
संरचित आउटपुट - JSON स्कीमा प्रवर्तन और टूल कॉलिंग (v0.7+)

CLORE.AI पर त्वरित डिप्लॉय

Docker इमेज:

vllm/vllm-openai:v0.7.3

पोर्ट:

22/tcp
8000/http

कमांड:

vllm serve mistralai/Mistral-7B-Instruct-v0.2 --host 0.0.0.0 --port 8000

जांचें कि यह काम कर रहा है

डिप्लॉयमेंट के बाद, अपना खोजें http_pub URL में मेरे ऑर्डर:

# स्वास्थ्य जाँच करें (पहली बार चलाने पर 5-15 मिनट लग सकते हैं)
curl https://your-http-pub.clorecloud.net/health

# मॉडल सूचीबद्ध करें (केवल मॉडल लोड होने के बाद काम करता है)
curl https://your-http-pub.clorecloud.net/v1/models

यदि आपको 15 मिनट से अधिक समय तक HTTP 502 मिलता है, तो जाँच करें:

सर्वर के पास 16GB+ RAM है
सर्वर के पास मॉडल के लिए पर्याप्त VRAM है
गेटेड मॉडलों के लिए HuggingFace टोकन सेट है

अपनी सेवा तक पहुँचना

जब CLORE.AI पर परिनियोजित किया जाता है, तो vLLM तक पहुँचें http_pub URL:

# चैट पूर्णता
curl https://your-http-pub.clorecloud.net/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mistralai/Mistral-7B-Instruct-v0.2",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

सभी localhost:8000 नीचे दिए गए उदाहरण SSH के माध्यम से कनेक्ट होने पर काम करते हैं। बाहरी पहुंच के लिए, इसे अपने साथ बदलें https://your-http-pub.clorecloud.net/ URL।

इंस्टॉलेशन

Docker का उपयोग (अनुशंसित)

docker run -d --gpus all \
    -p 8000:8000 \
    --ipc=host \
    vllm/vllm-openai:v0.7.3 \
    --model mistralai/Mistral-7B-Instruct-v0.2 \
    --host 0.0.0.0

pip का उपयोग

pip install vllm==0.7.3

# सर्वर चलाएँ
python -m vllm.entrypoints.openai.api_server \
    --model mistralai/Mistral-7B-Instruct-v0.2

समर्थित मॉडल

मॉडल

पैरामीटर

आवश्यक VRAM

आवश्यक RAM

Mistral 7B

14GB

16GB+

Llama 3.1 8B

16GB

16GB+

Llama 3.1 70B

70B

140GB (या 2x80GB)

64GB+

Mixtral 8x7B

47B

90GB

32GB+

Qwen2.5 7B

14GB

16GB+

Qwen2.5 72B

72B

145GB

64GB+

DeepSeek-V3

236B MoE

मल्टी-GPU

128GB+

DeepSeek-R1-Distill-Qwen-7B

14GB

16GB+

DeepSeek-R1-Distill-Qwen-32B

32B

64GB

32GB+

DeepSeek-R1-Distill-Llama-70B

70B

140GB

64GB+

Phi-4

14B

28GB

32GB+

Gemma 2 9B

18GB

16GB+

CodeLlama 34B

34B

68GB

32GB+

सर्वर विकल्प

बेसिक सर्वर

vllm serve mistralai/Mistral-7B-Instruct-v0.2 \
    --host 0.0.0.0 \
    --port 8000

उत्पादन सर्वर

vllm serve mistralai/Mistral-7B-Instruct-v0.2 \
    --host 0.0.0.0 \
    --port 8000 \
    --tensor-parallel-size 1 \
    --max-model-len 8192 \
    --gpu-memory-utilization 0.9 \
    --max-num-seqs 256 \
    --enable-prefix-caching

क्वांटाइज़ेशन के साथ (कम VRAM)

# AWQ क्वांटाइज़्ड मॉडल (कम VRAM उपयोग करता है)
vllm serve TheBloke/Mistral-7B-Instruct-v0.2-AWQ \
    --host 0.0.0.0 \
    --quantization awq

संरचित आउटपुट और टूल कॉलिंग (v0.7+)

स्वचालित टूल चयन और संरचित JSON आउटपुट सक्षम करें:

vllm serve mistralai/Mistral-7B-Instruct-v0.2 \
    --host 0.0.0.0 \
    --enable-auto-tool-choice \
    --tool-call-parser mistral

Python में उपयोग करें:

from openai import OpenAI
import json

client = OpenAI(base_url="http://localhost:8000/v1", api_key="not-needed")

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "एक शहर के लिए वर्तमान मौसम प्राप्त करें",
            "parameters": {
                "type": "object",
                "properties": {
                    "city": {"type": "string", "description": "शहर का नाम"},
                    "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
                },
                "required": ["city"]
            }
        }
    }
]

response = client.chat.completions.create(
    model="mistralai/Mistral-7B-Instruct-v0.2",
    messages=[{"role": "user", "content": "पेरिस में मौसम कैसा है?"}],
    tools=tools,
    tool_choice="auto"
)

# टूल कॉल पार्स करें
tool_call = response.choices[0].message.tool_calls[0]
args = json.loads(tool_call.function.arguments)
print(f"Tool: {tool_call.function.name}, Args: {args}")

response format के माध्यम से संरचित JSON आउटपुट:

response = client.chat.completions.create(
    model="mistralai/Mistral-7B-Instruct-v0.2",
    messages=[{"role": "user", "content": "निष्कर्ष निकालें: John Smith, 30 साल के, सॉफ्टवेयर इंजीनियर"}],
    response_format={
        "type": "json_schema",
        "json_schema": {
            "name": "person",
            "schema": {
                "type": "object",
                "properties": {
                    "name": {"type": "string"},
                    "age": {"type": "integer"},
                    "occupation": {"type": "string"}
                },
                "required": ["name", "age", "occupation"]
            }
        }
    }
)
print(response.choices[0].message.content)

मल्टी-LoRA सर्विंग (v0.7+)

एक साथ कई LoRA एडाप्टर्स के साथ एक बेस मॉडल सेवा करें:

vllm serve meta-llama/Meta-Llama-3.1-8B-Instruct \
    --host 0.0.0.0 \
    --enable-lora \
    --lora-modules \
        sql-adapter=path/to/sql-lora \
        code-adapter=path/to/code-lora \
        chat-adapter=path/to/chat-lora \
    --max-lora-rank 64

मॉडल नाम द्वारा एक विशिष्ट LoRA एडाप्टर क्वेरी करें:

# SQL एडाप्टर का उपयोग करें
response = client.chat.completions.create(
    model="sql-adapter",
    messages=[{"role": "user", "content": "शीर्ष 10 ग्राहकों को खोजने के लिए SQL क्वेरी लिखें"}]
)

# कोड एडाप्टर का उपयोग करें
response = client.chat.completions.create(
    model="code-adapter",
    messages=[{"role": "user", "content": "एक सूची को सॉर्ट करने के लिए Python फ़ंक्शन लिखें"}]
)

DeepSeek-R1 समर्थन (v0.7+)

vLLM v0.7+ में DeepSeek-R1 डिस्टिल मॉडलों के लिए नेटिव समर्थन है। ये तर्कशील मॉडल <think> उनकी तर्क प्रक्रिया दिखाने वाले टैग उत्पन्न करते हैं।

DeepSeek-R1-Distill-Qwen-7B (सिंगल GPU)

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
    --host 0.0.0.0 \
    --port 8000 \
    --max-model-len 16384

DeepSeek-R1-Distill-Qwen-32B (डुअल GPU)

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B \
    --host 0.0.0.0 \
    --port 8000 \
    --tensor-parallel-size 2 \
    --max-model-len 32768 \
    --gpu-memory-utilization 0.90

DeepSeek-R1-Distill-Llama-70B (क्वाड GPU)

vllm serve deepseek-ai/DeepSeek-R1-Distill-Llama-70B \
    --host 0.0.0.0 \
    --port 8000 \
    --tensor-parallel-size 4 \
    --max-model-len 32768

DeepSeek-R1 क्वेरी करना

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="not-needed")

response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-R1-Distill-Qwen-32B",
    messages=[
        {
            "role": "user",
            "content": "समाधान: यदि एक ट्रेन 1.5 घंटे में 120km यात्रा करती है, तो इसकी गति m/s में क्या है?"
        }
    ],
    max_tokens=2048,
    temperature=0.6
)

content = response.choices[0].message.content
# प्रतिक्रिया में <think>...</think> तर्क ब्लॉक और उसके बाद उत्तर शामिल होता है
print(content)

think टैग पार्स करना:

import re

def parse_deepseek_r1_response(content: str) -> dict:
    """DeepSeek-R1 प्रतिक्रिया से सोच और उत्तर निकाले।"""
    think_match = re.search(r'<think>(.*?)</think>', content, re.DOTALL)
    thinking = think_match.group(1).strip() if think_match else ""
    answer = re.sub(r'<think>.*?</think>', '', content, flags=re.DOTALL).strip()
    return {"thinking": thinking, "answer": answer}

result = parse_deepseek_r1_response(content)
print("Thinking:", result["thinking"][:200], "...")
print("Answer:", result["answer"])

API उपयोग

चैट कम्पलीशन्स (OpenAI अनुकूल)

from openai import OpenAI

# बाहरी पहुँच के लिए अपने http_pub URL का उपयोग करें:
client = OpenAI(
    base_url="https://your-http-pub.clorecloud.net/v1",
    api_key="not-needed"
)

# या SSH टनल के माध्यम से:
# client = OpenAI(base_url="http://localhost:8000/v1", api_key="not-needed")

response = client.chat.completions.create(
    model="mistralai/Mistral-7B-Instruct-v0.2",
    messages=[
        {"role": "user", "content": "क्वांटम कंप्यूटिंग समझाइए"}
    ],
    max_tokens=500,
    temperature=0.7
)

print(response.choices[0].message.content)

स्ट्रीमिंग

stream = client.chat.completions.create(
    model="mistralai/Mistral-7B-Instruct-v0.2",
    messages=[{"role": "user", "content": "एक कविता लिखें"}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="")

cURL

curl https://your-http-pub.clorecloud.net/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mistralai/Mistral-7B-Instruct-v0.2",
    "messages": [{"role": "user", "content": "नमस्ते!"}],
    "max_tokens": 100
  }'

टेक्स्ट पूर्णताएँ

curl https://your-http-pub.clorecloud.net/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mistralai/Mistral-7B-Instruct-v0.2",
    "prompt": "फ्रांस की राजधानी है",
    "max_tokens": 50
  }'

पूर्ण API संदर्भ

vLLM OpenAI-अनुकूल endpoints के साथ अतिरिक्त उपयोगिता endpoints भी प्रदान करता है।

मानक एंडपॉइंट्स

एंडपॉइंट

विधि

विवरण

/v1/models

GET

उपलब्ध मॉडल सूचीबद्ध करें

/v1/chat/completions

POST

चैट कम्पलीशन

/v1/completions

POST

टेक्स्ट कम्पलीशन

/health

GET

हेल्थ चेक (खाली परिणाम भी दे सकता है)

अतिरिक्त एंडपॉइंट्स

एंडपॉइंट

विधि

विवरण

/tokenize

POST

टेक्स्ट को टोकनाइज़ करें

/detokenize

POST

टोकन को टेक्स्ट में बदलें

/version

GET

vLLM संस्करण प्राप्त करें

/docs

GET

Swagger UI दस्तावेज़ीकरण

/metrics

GET

Prometheus मेट्रिक्स

टेक्स्ट टोकनाइज़ करें

अनुरोध भेजने से पहले टोकन की गिनती के लिए उपयोगी:

curl https://your-http-pub.clorecloud.net/tokenize \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mistralai/Mistral-7B-Instruct-v0.2",
    "prompt": "Hello world"
  }'

प्रतिक्रिया:

{"count": 2, "max_model_len": 32768, "tokens": [9707, 1879]}

डिटोकनाइज़

टोकन IDs को वापस टेक्स्ट में बदलें:

curl https://your-http-pub.clorecloud.net/detokenize \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mistralai/Mistral-7B-Instruct-v0.2",
    "tokens": [9707, 1879]
  }'

प्रतिक्रिया:

{"prompt": "Hello world"}

वर्ज़न प्राप्त करें

curl https://your-http-pub.clorecloud.net/version

प्रतिक्रिया:

{"version": "0.7.3"}

Swagger दस्तावेज़ीकरण

इंटरऐक्टिव API डॉक्स के लिए ब्राउज़र में खोलें:

https://your-http-pub.clorecloud.net/docs

Prometheus मेट्रिक्स

मॉनिटरिंग के लिए:

curl https://your-http-pub.clorecloud.net/metrics

तर्कशील मॉडल: DeepSeek-R1 और समान मॉडल उत्तर देने से पहले मॉडल की तर्क प्रक्रिया दिखाने वाले <think> टैग्स शामिल करते हैं।

बेंचमार्क्स

थ्रूपुट (टोकन/सेकंड प्रति उपयोगकर्ता)

मॉडल

RTX 3090

RTX 4090

A100 40GB

A100 80GB

Mistral 7B

100

170

210

230

Llama 3.1 8B

150

200

220

Llama 3.1 8B (AWQ)

130

190

260

280

Mixtral 8x7B

Llama 3.1 70B

25 (2x)

45 (2x)

DeepSeek-R1 7B

145

190

210

DeepSeek-R1 32B

70 (2x)

बेंचमार्क जनवरी 2026 में अपडेट किए गए।

संदर्भ लंबाई बनाम VRAM

मॉडल

4K ctx

8K ctx

16K ctx

32K ctx

8B FP16

18GB

22GB

30GB

46GB

8B AWQ

8GB

10GB

14GB

22GB

70B FP16

145GB

160GB

190GB

250GB

70B AWQ

42GB

50GB

66GB

98GB

Hugging Face प्रमाणीकरण

गेटेड मॉडलों के लिए (Llama आदि):

# कमांड में टोकन सेट करें
vllm serve meta-llama/Meta-Llama-3.1-8B-Instruct \
    --host 0.0.0.0 \
    --env HUGGING_FACE_HUB_TOKEN=hf_xxxxx

या इसे परिवेश चर के रूप में सेट करें:

export HUGGING_FACE_HUB_TOKEN=hf_xxxxx

GPU आवश्यकताएँ

मॉडल

न्यूनतम VRAM

न्यूनतम RAM

अनुशंसित

7-8B

16GB

16GB

24GB VRAM, 32GB RAM

13B

26GB

32GB

40GB VRAM

34B

70GB

32GB

80GB VRAM

70B

140GB

64GB

2x80GB

लागत अनुमान

सामान्य CLORE.AI मार्केटप्लेस दरें:

GPU

VRAM

प्राइस/दिन

उत्तम हेतु

RTX 3090

24GB

$0.30–1.00

7-8B मॉडल

RTX 4090

24GB

$0.50–2.00

7-13B, तेज

A100

40GB

$1.50–3.00

13-34B मॉडल

A100

80GB

$2.00–4.00

34-70B मॉडल

मूल्य USD/दिन में हैं। दरें प्रदाता के अनुसार बदलती हैं — जांचें CLORE.AI मार्केटप्लेस वर्तमान दरों के लिए।

समस्याओं का निवारण

लंबे समय के लिए HTTP 502

RAM जाँच करें: सर्वर में 16GB+ RAM होना चाहिए
VRAM जाँच करें: मॉडल में फिट होना चाहिए
मॉडल डाउनलोडिंग: पहली बार चलाने पर HuggingFace से डाउनलोड होता है (5-15 मिनट)
HF टोकन: गेटेड मॉडलों के लिए प्रमाणीकरण आवश्यक है

आउट ऑफ़ मेमोरी

# मेमोरी उपयोग कम करें
--gpu-memory-utilization 0.8
--max-model-len 4096
--max-num-seqs 64

# या क्वांटाइज़ेशन का उपयोग करें
--quantization awq

मॉडल डाउनलोड विफल होता है

# HF टोकन जाँचें
echo $HUGGING_FACE_HUB_TOKEN

# मॉडल पहले से डाउनलोड करें
huggingface-cli download mistralai/Mistral-7B-Instruct-v0.2

vLLM बनाम अन्य

फ़ीचर

vLLM

llama.cpp

Ollama

थ्रूपुट

सर्वोत्तम

अच्छा

VRAM उपयोग

उच्च

कम

मध्यम

उपयोग में सरलता

मध्यम

आसान

स्टार्टअप समय

5-15 मिनट

1-2 मिनिट

30 सेकंड

मल्टी-GPU

नेटिव

सीमित

टूल कॉलिंग

हाँ (v0.7+)

सीमित

मल्टी-LoRA

हाँ (v0.7+)

नहीं

vLLM का उपयोग तब करें जब:

उच्च थ्रूपुट प्राथमिकता हो
कई उपयोगकर्ताओं की सेवा कर रहे हों
पर्याप्त VRAM और RAM हो
उत्पादन तैनाती
टूल कॉलिंग / संरचित आउटपुट चाहिए हों

Ollama का उपयोग तब करें जब:

तेज़ सेटअप चाहिए
एकल उपयोगकर्ता
कम संसाधन उपलब्ध हों

अगले कदम

Ollama - तेज स्टार्टअप के साथ सरल विकल्प
DeepSeek-R1 - तर्कशील मॉडल मार्गदर्शिका
DeepSeek-V3 - सर्वश्रेष्ठ सामान्य मॉडल
Qwen2.5 - बहुभाषी मॉडल
Llama.cpp - कम VRAM विकल्प

PreviousOpen WebUI NextLlama.cpp सर्वर

Last updated 22 days ago

Was this helpful?

hashtagसर्वर आवश्यकताएँ

hashtagक्यों vLLM?

hashtagCLORE.AI पर त्वरित डिप्लॉय

hashtagजांचें कि यह काम कर रहा है

hashtagअपनी सेवा तक पहुँचना

hashtagइंस्टॉलेशन

hashtagDocker का उपयोग (अनुशंसित)

hashtagpip का उपयोग

hashtagसमर्थित मॉडल

hashtagसर्वर विकल्प

hashtagबेसिक सर्वर

hashtagउत्पादन सर्वर

hashtagक्वांटाइज़ेशन के साथ (कम VRAM)

hashtagसंरचित आउटपुट और टूल कॉलिंग (v0.7+)

hashtagमल्टी-LoRA सर्विंग (v0.7+)

hashtagDeepSeek-R1 समर्थन (v0.7+)

hashtagDeepSeek-R1-Distill-Qwen-7B (सिंगल GPU)

hashtagDeepSeek-R1-Distill-Qwen-32B (डुअल GPU)

hashtagDeepSeek-R1-Distill-Llama-70B (क्वाड GPU)

hashtagDeepSeek-R1 क्वेरी करना

hashtagAPI उपयोग

hashtagचैट कम्पलीशन्स (OpenAI अनुकूल)

hashtagस्ट्रीमिंग

hashtagcURL

hashtagटेक्स्ट पूर्णताएँ

hashtagपूर्ण API संदर्भ

hashtagमानक एंडपॉइंट्स

hashtagअतिरिक्त एंडपॉइंट्स

hashtagटेक्स्ट टोकनाइज़ करें

hashtagडिटोकनाइज़

hashtagवर्ज़न प्राप्त करें

hashtagSwagger दस्तावेज़ीकरण

hashtagPrometheus मेट्रिक्स

hashtagबेंचमार्क्स

hashtagथ्रूपुट (टोकन/सेकंड प्रति उपयोगकर्ता)

hashtagसंदर्भ लंबाई बनाम VRAM

hashtagHugging Face प्रमाणीकरण

hashtagGPU आवश्यकताएँ

hashtagलागत अनुमान

hashtagसमस्याओं का निवारण

hashtagलंबे समय के लिए HTTP 502

hashtagआउट ऑफ़ मेमोरी

hashtagमॉडल डाउनलोड विफल होता है

hashtagvLLM बनाम अन्य

hashtagअगले कदम

सर्वर आवश्यकताएँ

क्यों vLLM?

CLORE.AI पर त्वरित डिप्लॉय

जांचें कि यह काम कर रहा है

अपनी सेवा तक पहुँचना

इंस्टॉलेशन

Docker का उपयोग (अनुशंसित)

pip का उपयोग

समर्थित मॉडल

सर्वर विकल्प

बेसिक सर्वर

उत्पादन सर्वर

क्वांटाइज़ेशन के साथ (कम VRAM)

संरचित आउटपुट और टूल कॉलिंग (v0.7+)

मल्टी-LoRA सर्विंग (v0.7+)

DeepSeek-R1 समर्थन (v0.7+)

DeepSeek-R1-Distill-Qwen-7B (सिंगल GPU)

DeepSeek-R1-Distill-Qwen-32B (डुअल GPU)

DeepSeek-R1-Distill-Llama-70B (क्वाड GPU)

DeepSeek-R1 क्वेरी करना

API उपयोग

चैट कम्पलीशन्स (OpenAI अनुकूल)

स्ट्रीमिंग

cURL

टेक्स्ट पूर्णताएँ

पूर्ण API संदर्भ

मानक एंडपॉइंट्स

अतिरिक्त एंडपॉइंट्स

टेक्स्ट टोकनाइज़ करें

डिटोकनाइज़

वर्ज़न प्राप्त करें

Swagger दस्तावेज़ीकरण

Prometheus मेट्रिक्स

बेंचमार्क्स

थ्रूपुट (टोकन/सेकंड प्रति उपयोगकर्ता)

संदर्भ लंबाई बनाम VRAM

Hugging Face प्रमाणीकरण

GPU आवश्यकताएँ

लागत अनुमान

समस्याओं का निवारण

लंबे समय के लिए HTTP 502

आउट ऑफ़ मेमोरी

मॉडल डाउनलोड विफल होता है

vLLM बनाम अन्य

अगले कदम