Whisper Transkription

Transkribiere Audio und Video mit OpenAI Whisper auf Clore.ai-GPUs

Transkribiere Audio- und Videodateien mit OpenAIs Whisper auf CLORE.AI-GPUs.

circle-check

Serveranforderungen

Parameter
Minimum
Empfohlen

RAM

8GB

16GB+

VRAM

4GB (klein)

10GB+ (large-v3)

Netzwerk

200Mbps

500Mbps+

Startzeit

~1–2 Minuten

-

Was ist Whisper?

OpenAI Whisper ist ein Spracherkennungsmodell, das:

  • Audio in 99 Sprachen transkribieren kann

  • ins Englische übersetzen kann

  • Zeitstempel erzeugen kann

  • mit lauter/rauschender Audioaufnahme umgehen kann

Modellgrößen

Modell
VRAM
Geschwindigkeit
Qualität
Hinweise

tiny

1GB

~32x Echtzeit

Basic

Am schnellsten, geringste Genauigkeit

base

1GB

~16x Echtzeit

Gut

Guter Kompromiss für schnelle Aufgaben

small

2GB

~6x Echtzeit

Besser

Empfohlen für die meisten Anwendungsfälle

medium

5GB

~2x Echtzeit

Großartig

Hohe Genauigkeit, moderate Geschwindigkeit

large-v3

10GB

~1x Echtzeit

Am besten

Höchste Genauigkeit

large-v3-turbo

6GB

~8x Echtzeit

Am besten

8x schneller als large-v3, vergleichbare Qualität

💡 Empfehlung: Verwenden Sie large-v3-turbo für das beste Geschwindigkeits-/Qualitätsverhältnis. Es liefert vergleichbare Genauigkeit zu large-v3 bei 8x der Geschwindigkeit mit geringeren VRAM-Anforderungen.

Verwendung von large-v3-turbo

Mit Faster-Whisper:


WhisperX: Verbesserte Alternative

Für Wortgenaue Zeitstempel, Sprecher-Diarisation, und bis zu 70x schnellere Verarbeitung, ziehe in Betracht WhisperX:

➡️ Siehe das vollständige WhisperX-Handbuch für Sprecher-Diarisation und erweiterte Funktionen.

Schnelle Bereitstellung (empfohlen)

Verwende den vorgefertigten Faster-Whisper-Server für sofortige Bereitstellung:

Docker-Image:

Ports:

Kein Befehl erforderlich - Server startet automatisch.

Überprüfen, ob es funktioniert

Nach der Bereitstellung finden Sie Ihre http_pub URL in Meine Bestellungen und testen:

circle-exclamation

Transkribieren über API

Vollständige API-Referenz (Faster-Whisper-Server)

Endpunkte

Endpunkt
Methode
Beschreibung

/v1/audio/transcriptions

POST

Audio transkribieren (OpenAI-kompatibel)

/v1/audio/translations

POST

Audio ins Englische übersetzen

/v1/models

GET

Alle verfügbaren Modelle auflisten

/v1/models/{model_name}

GET

Spezifische Modellinformationen abrufen

/api/ps

GET

Derzeit geladene Modelle auflisten

/api/ps/{model_name}

GET

Prüfen, ob ein bestimmtes Modell geladen ist

/api/pull/{model_name}

POST

Ein Modell herunterladen und laden

/health

GET

Health-Check-Endpunkt

/docs

GET

Swagger-UI-Dokumentation

/openapi.json

GET

OpenAPI-Spezifikation

Verfügbare Modelle auflisten

Antwort:

Swagger-Dokumentation

Im Browser öffnen für interaktives API-Testen:

Transkriptionsoptionen

Parameter
Typ
Beschreibung

file

Datei

Audiodatei zur Transkription

model

String

Zu verwendendes Modell (Standard: Systran/faster-whisper-large-v3)

language

String

Erzwinge eine spezifische Sprache (z. B., en, ja, ru)

response_format

String

json, text, srt, vtt, verbose_json

temperature

Float

Sampling-Temperatur (0.0–1.0)

timestamp_granularities[]

Array

word oder segment für Zeitstempel

Antwortformate

JSON (Standard):

Ausführliches JSON:

SRT:

Alternative: Manuelle Installation

Wenn du mehr Kontrolle benötigst, setze mit manueller Installation bereit:

Docker-Image:

Ports:

Befehl:

circle-info

Manuelle Installation dauert 3–5 Minuten. Das oben genannte vorgefertigte Image wird für schnelleren Start empfohlen.

Grundlegende Nutzung (SSH)

Mit Zeitstempeln transkribieren

Audiodateien hochladen

Python-API

Faster-Whisper (empfohlen)

Faster-Whisper ist 4x schneller mit geringerem VRAM-Verbrauch:

Sprachoptionen

Übersetzung ins Englische

CLI:

Untertitelgenerierung

SRT-Format

VTT-Format

Wortgenaue Zeitstempel

Sprecher-Diarisation

Wer hat was gesagt (erfordert pyannote):

REST-API-Server

Erstelle eine Transkriptions-API:

Leistungsbenchmarks

Modell
GPU
1 Stunde Audio

large-v3

RTX 3090

~5 Min

large-v3

RTX 4090

~3 Min

large-v3

A100

~2 Min

medium

RTX 3090

~2 Min

Speicherplatzsparende Verarbeitung

Für sehr lange Audiodateien:

Ergebnisse herunterladen

Fehlerbehebung

triangle-exclamation
  • Verwende ein kleineres Modell (medium statt large)

  • Verwenden Sie compute_type="int8" für faster-whisper

  • Verarbeite kürzere Audioabschnitte

HTTP 502 auf http_pub-URL

Der Dienst startet noch. Warte 1–2 Minuten und versuche es erneut:

Schlechte Genauigkeit

  • Verwende ein größeres Modell

  • Sprache angeben: --language English

  • Erhöhe beam_size für faster-whisper

Langsame Verarbeitung

  • Stelle sicher, dass die GPU verwendet wird: nvidia-smi

  • Verwende faster-whisper statt des Originals

  • Aktiviere VAD, um Stille zu überspringen

Kostenabschätzung

Typische CLORE.AI-Marktplatzpreise:

GPU
VRAM
Preis/Tag
Geeignet für

RTX 3060

12GB

$0.15–0.30

kleine/medium-Modelle

RTX 3090

24GB

$0.30–1.00

large-v3

RTX 4090

24GB

$0.50–2.00

large-v3, schnell

A100

40GB

$1.50–3.00

Batch-Verarbeitung

Preise in USD/Tag. Die Tarife variieren je nach Anbieter — prüfen Sie CLORE.AI Marketplacearrow-up-right auf aktuelle Preise.

Zuletzt aktualisiert

War das hilfreich?