Whisper 转录

在 Clore.ai GPU 上使用 OpenAI Whisper 转录音频和视频

使用 CLORE.AI GPU 和 OpenAI 的 Whisper 转录音频和视频文件。

circle-check

服务器要求

参数
最低
推荐

内存

8GB

16GB+

显存

4GB(小型)

10GB+(large-v3)

网络

200Mbps

500Mbps+

启动时间

约 1-2 分钟

-

什么是 Whisper?

OpenAI Whisper 是一个语音识别模型,能够:

  • 转录 99 种语言的音频

  • 翻译为英文

  • 生成时间戳

  • 处理噪声音频

模型规模

A100
显存
性能
质量
注意事项

tiny

1GB

约 32 倍实时

基础

最快,准确率最低

base

1GB

约 16 倍实时

良好

适合快速任务的良好平衡

small

2GB

约 6 倍实时

更好

推荐用于大多数用例

medium

5GB

约 2 倍实时

很棒

高准确率,速度适中

large-v3

10GB

约 1 倍实时

最佳

最高准确率

large-v3-turbo

6GB

约 8 倍实时

最佳

比 large-v3 快 8 倍,质量相似

💡 建议: 使用 large-v3-turbo 用于最佳速度/质量权衡。它提供与 large-v3 相当的准确率,速度为其 8 倍且显存需求更低。

使用 large-v3-turbo

使用 Faster-Whisper:


WhisperX:增强的替代方案

用于 词级时间戳, 说话人分离,和 高达 70 倍更快的 处理,请考虑 WhisperX:

➡️ 参见完整的 WhisperX 指南 了解说话人分离和高级功能。

快速部署(推荐)

使用预构建的 Faster-Whisper 服务器即可即时部署:

Docker 镜像:

端口:

无需命令 - 服务器会自动启动。

验证是否正常运行

部署后,在以下位置查找您的 http_pub URL: 我的订单 并测试:

circle-exclamation

通过 API 转录

完整 API 参考(Faster-Whisper-Server)

端点

端点
方法
4s

/v1/audio/transcriptions

POST

转录音频(兼容 OpenAI)

/v1/audio/translations

POST

将音频翻译为英文

/v1/models

GET

列出所有可用模型

/v1/models/{model_name}

GET

获取特定模型信息

/api/ps

GET

列出当前已加载的模型

/api/ps/{model_name}

GET

检查特定模型是否已加载

/api/pull/{model_name}

POST

下载并加载模型

/health

GET

健康检查端点

/docs

GET

Swagger UI 文档

/openapi.json

GET

OpenAPI 规范

列出可用模型

响应:

Swagger 文档

在浏览器中打开以进行交互式 API 测试:

转录选项

参数
类型
4s

file

文件

要转录的音频文件

model

字符串

要使用的模型(默认: Systran/faster-whisper-large-v3)

language

字符串

强制指定语言(例如, en, ja, ru)

response_format

字符串

json, text, srt, vtt, verbose_json

temperature

浮点数

采样温度(0.0-1.0)

timestamp_granularities[]

数组

wordsegment 用于时间戳

响应格式

JSON(默认):

详细 JSON:

SRT:

可选:手动安装

如果需要更多控制,请手动安装部署:

Docker 镜像:

端口:

命令:

circle-info

手动安装需 3-5 分钟。上面推荐使用预构建镜像以加快启动。

基础用法(SSH)

带时间戳的转录

上传音频文件

Python API

Faster-Whisper(推荐)

Faster-Whisper 速度快 4 倍且显存使用更少:

语言选项

翻译为英文

命令行:

字幕生成

SRT 格式

VTT 格式

词级时间戳

说话人分离

谁说了什么(需要 pyannote):

REST API 服务器

创建一个转录 API:

性能基准

A100
GPU
1 小时音频

large-v3

速度

约 5 分钟

large-v3

512x512

约 3 分钟

large-v3

2s

约 2 分钟

medium

速度

约 2 分钟

节省内存的处理

对于非常长的音频:

下载结果

# 使用固定种子以获得一致结果

triangle-exclamation
  • 使用更小的模型(用 medium 代替 large)

  • 使用 compute_type="int8" 用于 faster-whisper

  • 处理更短的音频片段

http_pub URL 返回 HTTP 502

服务仍在启动。请等待 1-2 分钟后重试:

准确率低

  • 使用更大的模型

  • 指定语言: --language English

  • 增加 faster-whisper 的 beam_size

处理缓慢

  • 确保使用 GPU: nvidia-smi

  • 使用 faster-whisper 而不是原始版本

  • 启用 VAD 以跳过静音

下载所有所需的检查点

典型 CLORE.AI 市场价格:

GPU
显存
价格/天
适合

按小时费率

12GB

$0.15–0.30

small/medium 模型

速度

24GB

$0.30–1.00

large-v3

512x512

24GB

$0.50–2.00

large-v3,快速

2s

40GB

$1.50–3.00

批量处理

价格以美元/天计。费率因提供商而异——请查看 CLORE.AI 市场arrow-up-right A100 40GB

最后更新于

这有帮助吗?