WhisperX:22K+ 星 — 生产环境 ASR 设置指南 2026

WhisperX is an open-source ASR toolkit with word-level timestamps and speaker diarization. Compatible with faster-whisper, pyannote.audio, and OpenAI Whisper models. Covers Docker deployment, Python API, benchmarks, and production hardening.

  • BSD-2-Clause
  • 更新于 2026-05-19

{{< 资源信息 >}} 转录音频很容易。 获得单词级时间戳精确到 100 毫秒以下并了解 确切地说每个单词的人是很困难的。 OpenAI Whisper 为您提供以秒为单位漂移的分段级时间戳。 对于播客编辑、视频字幕、会议记录和法律证词来说,这种精度是无法使用的。 输入 WhisperX — 一个 22,000 星开源工具包,它通过 wav2vec2 强制音素对齐和通过 pyannote.audio 扬声器二值化包装“faster-whisper”。 结果:70 倍的实时转录,带有单词级时间戳和多说话者标签。 已在 INTERSPEECH 2023 上获得接受,并在全球生产线上经过实际检验。 本指南将介绍完整的 WhisperX 教程,涵盖安装、完整的 WhisperX Docker 设置、Python API 集成、生产强化以及 WhisperX 与 Whisper 与更快的 Whisper 和 DeepSpeech 比较中的诚实基准测试。

带有字级时间戳的 WhisperX 示例输出
## 什么是 WhisperX? WhisperX 是一个自动语音识别 (ASR) 管道,它通过三种生产关键功能扩展了 OpenAI 的 Whisper 模型:通过 wav2vec2 强制对齐进行字级时间戳对齐,通过 pyannote.audio 进行说话人二值化**,以及通过更快的 Whisper 后端进行批量推理。 它由牛津大学视觉几何组的 Max Bain 维护,并根据 BSD-2-Clause 获得许可。 与 Whisper 的分段级时间戳(漂移 1-3 秒)不同,WhisperX 将每个单词固定到其精确的音频位置,精度低于 100 毫秒。 与独立的二值化工具不同,WhisperX 为单个单词分配说话者标签,而不仅仅是 30 秒的块。 这使其成为多讲话者转录工作流程的首选。 ## WhisperX 的工作原理 WhisperX 作为一个三级管道运行,每个阶段都会产生逐渐丰富的输出: ```` ┌──────────────────┐ ┐────────────────┐ ┐──────────────────┐ │ 第 1 阶段:ASR │ → │ 第 2 阶段:对齐 │ → │ 第 3 阶段:分类 │ │(更快的耳语)│ │(wav2vec2 强制)│ │ (pyannote.audio) │ └──────────────────┘ └────────────────┘ └──────────────────┘ │ │ │ 分段文本 单词时间戳 演讲者标签 (无时间戳)(低于 100 毫秒)(每个字)

|

📦 出现在以下合集中

💬 留言讨论