Transcripción con Whisper

Transcribe audio y video con OpenAI Whisper en las GPUs de Clore.ai

Transcribe archivos de audio y video usando Whisper de OpenAI en GPUs de CLORE.AI.

circle-check

Requisitos del servidor

Parámetro
Mínimo
Recomendado

RAM

8GB

16GB+

VRAM

4GB (pequeño)

10GB+ (large-v3)

Red

200Mbps

500Mbps+

Tiempo de inicio

~1-2 minutos

-

¿Qué es Whisper?

OpenAI Whisper es un modelo de reconocimiento de voz que puede:

  • Transcribir audio en 99 idiomas

  • Traducir al inglés

  • Generar marcas de tiempo

  • Manejar audio con ruido

Tamaños de modelos

Modelo
VRAM
Velocidad
Calidad
Notas

tiny

1GB

~32x tiempo real

Básico

Más rápido, menor precisión

base

1GB

~16x tiempo real

Bueno

Buen equilibrio para tareas rápidas

small

2GB

~6x tiempo real

Mejor

Recomendado para la mayoría de los casos de uso

medium

5GB

~2x tiempo real

Genial

Alta precisión, velocidad moderada

large-v3

10GB

~1x tiempo real

Mejor

Mayor precisión

large-v3-turbo

6GB

~8x tiempo real

Mejor

8x más rápido que large-v3, calidad similar

💡 Recomendación: Usa large-v3-turbo para la mejor relación velocidad/calidad. Ofrece una precisión comparable a large-v3 a 8x la velocidad con requisitos de VRAM más bajos.

Usando large-v3-turbo

Con Faster-Whisper:


WhisperX: Alternativa mejorada

Para marcas de tiempo a nivel de palabra, diarización de hablantes, y hasta 70x más rápido procesamiento, considera WhisperX:

➡️ Ver la guía completa de WhisperX para diarización de hablantes y funciones avanzadas.

Despliegue rápido (Recomendado)

Usa el servidor Faster-Whisper preconstruido para despliegue instantáneo:

Imagen Docker:

Puertos:

No se necesita comando - el servidor se inicia automáticamente.

Verificar que funciona

Después del despliegue, encuentra tu http_pub URL en Mis Pedidos y probar:

circle-exclamation

Transcribir vía API

Referencia completa de la API (Faster-Whisper-Server)

Endpoints

Endpoint
Método
Descripción

/v1/audio/transcriptions

POST

Transcribir audio (compatible con OpenAI)

/v1/audio/translations

POST

Traducir audio al inglés

/v1/models

GET

Listar todos los modelos disponibles

/v1/models/{model_name}

GET

Obtener información de un modelo específico

/api/ps

GET

Listar modelos actualmente cargados

/api/ps/{model_name}

GET

Verificar si un modelo específico está cargado

/api/pull/{model_name}

POST

Descargar y cargar un modelo

/health

GET

Endpoint de verificación de estado

/docs

GET

Documentación Swagger UI

/openapi.json

GET

Especificación OpenAPI

Listar modelos disponibles

Respuesta:

Documentación Swagger

Abrir en el navegador para pruebas interactivas de la API:

Opciones de transcripción

Parámetro
Tipo
Descripción

file

Archivo

Archivo de audio para transcribir

model

Cadena

Modelo a usar (predeterminado: Systran/faster-whisper-large-v3)

language

Cadena

Forzar un idioma específico (p. ej., en, ja, ru)

response_format

Cadena

json, text, srt, vtt, verbose_json

temperature

Float

Temperatura de muestreo (0.0-1.0)

timestamp_granularities[]

Array

word o segment para marcas de tiempo

Formatos de respuesta

JSON (predeterminado):

JSON detallado:

SRT:

Alternativa: Instalación manual

Si necesitas más control, despliega con instalación manual:

Imagen Docker:

Puertos:

Comando:

circle-info

La instalación manual toma 3-5 minutos. La imagen preconstruida anterior es recomendada para un inicio más rápido.

Uso básico (SSH)

Transcribir con marcas de tiempo

Subir archivos de audio

API de Python

Faster-Whisper (Recomendado)

Faster-Whisper es 4x más rápido con menor uso de VRAM:

Opciones de idioma

Traducción al inglés

CLI:

Generación de subtítulos

Formato SRT

Formato VTT

Marcas de tiempo a nivel de palabra

Diarización de hablantes

Quién dijo qué (requiere pyannote):

Servidor REST API

Crear una API de transcripción:

Benchmarks de rendimiento

Modelo
GPU
Audio de 1 hora

large-v3

RTX 3090

~5 min

large-v3

RTX 4090

~3 min

large-v3

A100

~2 min

medium

RTX 3090

~2 min

Procesamiento eficiente en memoria

Para audio muy largo:

Descargar resultados

Solución de problemas

triangle-exclamation
  • Usar un modelo más pequeño (medium en lugar de large)

  • Usa compute_type="int8" para faster-whisper

  • Procesar segmentos de audio más cortos

HTTP 502 en la URL http_pub

El servicio todavía se está iniciando. Espera 1-2 minutos y reintenta:

Precisión baja

  • Usa un modelo más grande

  • Especifica el idioma: --language English

  • Aumenta beam_size para faster-whisper

Procesamiento lento

  • Asegúrate de que se use la GPU: nvidia-smi

  • Usa faster-whisper en lugar del original

  • Habilita VAD para omitir silencios

Estimación de costos

Tarifas típicas del mercado de CLORE.AI:

GPU
VRAM
Precio/día
Bueno para

RTX 3060

12GB

$0.15–0.30

modelos small/medium

RTX 3090

24GB

$0.30–1.00

large-v3

RTX 4090

24GB

$0.50–2.00

large-v3, rápido

A100

40GB

$1.50–3.00

procesamiento por lotes

Precios en USD/día. Las tarifas varían según el proveedor: consulte CLORE.AI Marketplacearrow-up-right para las tarifas actuales.

Última actualización

¿Te fue útil?