Whisper ट्रांसक्रिप्शन

Clore.ai GPUs पर OpenAI Whisper के साथ ऑडियो और वीडियो का ट्रांसक्राइब करें

OpenAI के Whisper का उपयोग करके CLORE.AI GPUs पर ऑडियो और वीडियो फ़ाइलों का प्रतिलेखन करें।

circle-check

सर्वर आवश्यकताएँ

पैरामीटर
न्यूनतम
अनुशंसित

RAM

8GB

16GB+

VRAM

4GB (छोटा)

10GB+ (large-v3)

नेटवर्क

200Mbps

500Mbps+

स्टार्टअप समय

~1-2 मिनट

-

Whisper क्या है?

OpenAI Whisper एक स्पीच रिकग्निशन मॉडल है जो कर सकता है:

  • 99 भाषाओं में ऑडियो का प्रतिलेखन करना

  • अंग्रेजी में अनुवाद करना

  • टाइमस्टैम्प बनाना

  • शोर वाले ऑडियो को संभालना

मॉडल आकार

मॉडल
VRAM
स्पीड
गुणवत्ता
नोट्स

tiny

1GB

~32x वास्तविक समय

बेसिक

सबसे तेज़, सबसे कम सटीकता

base

1GB

~16x वास्तविक समय

अच्छा

त्वरित कार्यों के लिए अच्छा संतुलन

small

2GB

~6x वास्तविक समय

बेहतर

अधिकांश उपयोग मामलों के लिए अनुशंसित

medium

5GB

~2x वास्तविक समय

बहुत अच्छा

उच्च सटीकता, मध्यम गति

large-v3

10GB

~1x वास्तविक समय

सर्वोत्तम

उच्चतम सटीकता

large-v3-turbo

6GB

~8x वास्तविक समय

सर्वोत्तम

large-v3 की तुलना में 8x तेज़, समान गुणवत्ता

💡 सिफारिश: उपयोग करें large-v3-turbo सर्वोत्तम गति/गुणवत्ता संतुलन के लिए। यह तुलनीय सटीकता प्रदान करता है large-v3 8x गति पर और कम VRAM आवश्यकताओं के साथ।

large-v3-turbo का उपयोग करना

Faster-Whisper के साथ:


WhisperX: संवर्धित विकल्प

के लिए शब्द-स्तरीय टाइमस्टैम्प, स्पीकर डायराइज़ेशन, और 70x तक तेज़ प्रोसेसिंग के लिए विचार करें WhisperX:

➡️ पूरा देखें WhisperX गाइड स्पीकर डायराइज़ेशन और उन्नत विशेषताओं के लिए।

त्वरित तैनाती (अनुशंसित)

तत्क्षण तैनाती के लिए पूर्व-निर्मित Faster-Whisper सर्वर का उपयोग करें:

Docker इमेज:

पोर्ट:

किसी कमांड की आवश्यकता नहीं - सर्वर अपने आप शुरू हो जाता है।

जांचें कि यह काम कर रहा है

डिप्लॉयमेंट के बाद, अपना खोजें http_pub URL में मेरे ऑर्डर और परीक्षण करें:

circle-exclamation

API के माध्यम से प्रतिलेखन करें

पूर्ण API संदर्भ (Faster-Whisper-Server)

एंडपॉइंट्स

एंडपॉइंट
विधि
विवरण

/v1/audio/transcriptions

POST

ऑडियो का प्रतिलेखन (OpenAI-अनुकूल)

/v1/audio/translations

POST

ऑडियो का अंग्रेजी में अनुवाद

/v1/models

GET

सभी उपलब्ध मॉडल सूचीबद्ध करें

/v1/models/{model_name}

GET

विशिष्ट मॉडल जानकारी प्राप्त करें

/api/ps

GET

वर्तमान में लोड किए गए मॉडल सूचीबद्ध करें

/api/ps/{model_name}

GET

जांचें कि विशिष्ट मॉडल लोड है या नहीं

/api/pull/{model_name}

POST

एक मॉडल डाउनलोड और लोड करें

/health

GET

हेल्थ चेक एंडपॉइंट

/docs

GET

Swagger UI दस्तावेज़ीकरण

/openapi.json

GET

OpenAPI विनिर्देश

उपलब्ध मॉडल सूचीबद्ध करें

प्रतिक्रिया:

Swagger दस्तावेज़ीकरण

इंटरैक्टिव API परीक्षण के लिए ब्राउज़र में खोलें:

प्रतिलेखन विकल्प

पैरामीटर
प्रकार
विवरण

file

फ़ाइल

प्रतिलेखन के लिए ऑडियो फ़ाइल

model

String

उपयोग करने के लिए मॉडल (डिफ़ॉल्ट: Systran/faster-whisper-large-v3)

language

String

विशेष भाषा लॉक करें (उदा., en, ja, ru)

response_format

String

json, text, srt, vtt, verbose_json

temperature

Float

सैंपलिंग टेम्परेचर (0.0-1.0)

timestamp_granularities[]

Array

word या segment टाइमस्टैम्प के लिए

प्रतिक्रिया स्वरूप

JSON (डिफ़ॉल्ट):

विस्तृत JSON:

SRT:

वैकल्पिक: मैनुअल इंस्टॉलेशन

यदि आपको अधिक नियंत्रण चाहिए, तो मैनुअल इंस्टॉलेशन के साथ तैनात करें:

Docker इमेज:

पोर्ट:

कमांड:

circle-info

मैनुअल इंस्टॉलेशन में 3-5 मिनट लगते हैं। तेज़ स्टार्टअप के लिए ऊपर दिया गया पूर्व-निर्मित इमेज अनुशंसित है।

बुनियादी उपयोग (SSH)

टाइमस्टैम्प के साथ प्रतिलेखन

ऑडियो फ़ाइलें अपलोड करें

Python API

Faster-Whisper (अनुशंसित)

Faster-Whisper 4x तेज़ है और कम VRAM उपयोग करता है:

भाषा विकल्प

अंग्रेजी में अनुवाद

CLI:

सबटाइटल जनरेशन

SRT फ़ॉर्मैट

VTT फ़ॉर्मैट

शब्द-स्तरीय टाइमस्टैम्प

स्पीकर डायराइज़ेशन

किसने क्या कहा (pyannote आवश्यक):

REST API सर्वर

एक प्रतिलेखन API बनाएं:

प्रदर्शन बेंचमार्क

मॉडल
GPU
1घंटे का ऑडियो

large-v3

RTX 3090

~5 मिनट

large-v3

RTX 4090

~3 मिनट

large-v3

A100

~2 मिनट

medium

RTX 3090

~2 मिनट

मेमोरी-कुशल प्रोसेसिंग

बहुत लंबे ऑडियो के लिए:

परिणाम डाउनलोड करें

समस्याओं का निवारण

triangle-exclamation
  • छोटा मॉडल उपयोग करें (large के बजाय medium)

  • उपयोग करें compute_type="int8" faster-whisper के लिए

  • छोटे ऑडियो सेगमेंट प्रोसेस करें

http_pub URL पर HTTP 502

सेवा अभी भी शुरू हो रही है। 1-2 मिनट प्रतीक्षा करें और पुनः प्रयास करें:

खराब सटीकता

  • बड़ा मॉडल उपयोग करें

  • भाषा निर्दिष्ट करें: --language English

  • faster-whisper के लिए beam_size बढ़ाएँ

धीमा प्रोसेसिंग

  • सुनिश्चित करें कि GPU उपयोग हो रहा है: nvidia-smi

  • मूल की बजाय faster-whisper का उपयोग करें

  • मौन छोड़ने के लिए VAD सक्षम करें

लागत अनुमान

सामान्य CLORE.AI मार्केटप्लेस दरें:

GPU
VRAM
प्राइस/दिन
उपयुक्त के लिए

RTX 3060

12GB

$0.15–0.30

small/medium मॉडल

RTX 3090

24GB

$0.30–1.00

large-v3

RTX 4090

24GB

$0.50–2.00

large-v3, तेज़

A100

40GB

$1.50–3.00

बैच प्रोसेसिंग

मूल्य USD/दिन में हैं। दरें प्रदाता के अनुसार बदलती हैं — जांचें CLORE.AI मार्केटप्लेसarrow-up-right वर्तमान दरों के लिए।

Last updated

Was this helpful?