OpenAI Whisper:99.8K+ 星标

OpenAI Whisper (ASR) robust speech recognition via large-scale weak supervision. Compatible with WhisperX, faster-whisper, LibreTranslate. Covers whisper tutorial, whisper vs whisperx, speech recognition setup, whisper python, whisper docker.

  • MIT
  • 更新于 2026-05-19

{{< 资源信息 >}} ## 介绍 Speech recognition is the bridge between human conversation and machine-readable data, yet most developers have wrestled with APIs that charge per minute, miss domain terminology, or fail entirely on accented speech. 2022 年底,OpenAI 发布了 Whisper 作为 MIT 许可的开源替代方案,并立即得到了采用——在 GitHub 上获得了 99,800 颗星,它成为生产中采用最多的开源 ASR 系统。 本指南将介绍完整的 Whisper 设置,将其与 WhisperX、faster-whisper 和 DeepSpeech 进行比较,并为您提供可以立即部署的生产强化配置。 ## OpenAI Whisper 是什么? OpenAI Whisper 是一种通用自动语音识别 (ASR) 模型,经过 680,000 小时的多语言和多任务监督数据的训练。 它可以执行 99 种语言的语音到文本转录、语音翻译成英语、口语识别和带时间戳的片段对齐。 与纯云 API 不同,Whisper 在消费者硬件上完全离线运行,使其成为医疗保健、媒体、呼叫中心和辅助工具中转录管道的支柱。 ## 耳语如何运作 Whisper 遵循编码器-解码器 Transformer 架构。 音频输入被转换为对数梅尔频谱图并通过编码器。 然后,解码器以告诉模型是否转录、翻译或检测语言的特殊任务标记为条件,以自回归方式预测文本标记。

Whisper架构图
核心设计决策: - 大规模弱监督:在带有噪声标签的不同网络规模音频上进行训练,而不是在小型原始数据集上进行训练

  • 多任务训练:单个模型通过任务标记处理转录、翻译和语言 ID
  • 分块处理:长音频被分成 30 秒的片段,独立处理,然后重新组合
  • 以先前文本为条件:解码器接收先前的片段标记,以实现跨边界的一致格式 | 型号| 参数| 英语WER | 多语言 WER | 显存(GPU)| 相对速度| |

📦 出现在以下合集中

💬 留言讨论