本地 TTS 的true问题 #

过去很多年，“好用的多语种 TTS"基本等价于调别人家的云 API——Google Cloud TTS、Amazon Polly、ElevenLabs、OpenAI Voice。声音自然，宽带下延迟可以接受，按字符计费的单价小到没人在意，直到月底账单出来。

裂缝出现在三个地方。隐私——医疗、法律、任何受监管的场景，不可能把每段脚本都发给第三方。延迟抖动——网络一卡，声音就断。规模成本——一旦每月合成超过 100 小时音频，按字符计费的账单立刻变成大头。再加上离线场景——车载、飞行中、偏远厂区、自助终端，必须本地推理，没得商量。

Open Source本地 TTS 一直在追赶，但权衡很扎眼：要么是英文专用的小模型（Piper、Coqui 的小变体），要么是必须上 GPU 才能跑出实用速度的多语种巨无霸（XTTS-v2、Bark）。“又快、又多语种、又轻量、还是trueOpen Source权重"这个甜蜜点一直没人击中。

Supertonic（GitHub：supertone-inc/supertonic，11,551+ stars）由韩国语音 AI 公司 Supertone Inc. 推出，是 2026 年最有希望补上这块缺口的项目。11551 万参数、31 种语言、ONNX runtime、CPU 上跑得很舒服——README 里甚至给出在飞行模式下的电纸书上跑出 0.3× 实时因子的数据。

Supertonic 到底是什么 #

一个 flow-matching 文本到 latent 模块，配上一个语音 autoencoder，整体导出为 ONNX。具体看：

总参数 11551 万——加载只要几秒，普通 CPU 上实时跑。作为参照，XTTS-v2 约 15 亿、Bark 约 9 亿。
开箱即用 31 种语言：阿拉伯语、保加利亚语、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、德语、希腊语、印地语、匈牙利语、印尼语、意大利语、日语、韩语、拉脱维亚语、立陶宛语、波兰语、葡萄牙语、罗马尼亚语、俄语、斯洛伐克语、斯洛文尼亚语、西班牙语、瑞典语、土耳其语、乌克兰语、越南语。
44.1kHz 音频输出——true正的录音棚级采样率，不是大多数"够用就行” TTS 妥协的 22kHz。
10 个表情标签——<laugh>、<breath>、<sigh> 等。直接内联在文本里，无需重训声音克隆就能让语气更自然。
lang="na" 模式——不想指定语言代码时的语言无关生成。

协议：代码 MIT，模型权重 OpenRAIL-M。两边分开很关键：OpenRAIL-M 是"负责任 AI"协议，限制部分有害用途，但允许商业部署。发产品前请先读 model card。

性能数字 #

Supertone Inc. 在 benchmark 和 README 里给出的数字：

| 指标 | Supertonic | 常见基准 | |—

|—

| | 参数量 | 99M | 0.7B–2B | | 朗读准确率（Minimax-MLS-test WER/CER） | 与大很多的模型相当 | — | | 运行时内存 | 显著低于 GPU 基准 | — | | Onyx Boox Go 6 电纸书飞行模式 RTF | 0.3× | n/a（跑不动） | | CPU 延迟 | 可与 A100 GPU 基准抗衡 | — |

电纸书那个 benchmark 是头号宣传数字——这种数字传达的信号是"对，它true的哪都能跑”。现代手机 CPU 应该完全无压力。

运行时覆盖 #

Supertonic 是少数几个true正提供 SDK 绑定的Open Source TTS，不是"你大概可以自己包一层"那种。截至 v2.0.0：

Python（pip install supertonic）——主要集成方式
Node.js——server 和 Electron app
浏览器——WebGPU 可用时优先，WebAssembly 兜底
Java——Android 和 JVM 后端
C++、C#、Go、Rust——系统级集成
Swift / iOS——一等公民原生绑定
Flutter——跨平台移动

基本覆盖了 2026 年应用开发者可能想嵌 TTS 的所有地方。重活由 ONNX runtime 扛，Supertonic 提供模型相关的胶水代码。

快速上手（Python） #

a
s
h
pip install supertonic

依赖就这一个。模型在首次调用时下载：

h
o
n
from supertonic import TTS

tts = TTS(auto_download=True)
style = tts.get_voice_style(voice_name="M1")

text = "Supertonic is a lightning fast, on-device TTS system."

wav, duration = tts.synthesize(
    text=text,
    lang="en",
    voice_style=style,
    total_steps=8,
    speed=1.05,
)
tts.save_audio(wav, "output.wav")

中文把 lang="en" 换成 lang="zh"，韩语 ko、日语 ja、越南语 vi。声音风格（这里的 M1）跨语言保持一致——做多语种角色配音时很有用。

表情标签的用法：

h
o
n
text = "I can't believe it. <laugh> That's incredible. <breath> Let me explain."

模型会内联解释标签，并在音频里产出对应的表达。

横向对比 #

2026 年的本地 TTS 战场，按实际交付能力排序：

对比 Piper（40K+ stars） #

Piper 是本地 TTS 的老牌选手。Piper 赢在：单 voice 模型更小（几 MB），纯英文场景部署更简单。Supertonic 赢在：语种多得多、表情控制好得多、采样率更高、一个模型搞定所有语言而不是一种语言一个模型。

对比 XTTS-v2（Coqui） #

XTTS-v2 有声音克隆，Supertonic 没主打这个。XTTS-v2 赢在：声音克隆质量。Supertonic 赢在：CPU 上的可用性、多运行时 SDK、模型体积、协议清晰度。

对比 Bark（Suno） #

Bark 在非语音音频（音乐、音效）上有亮点。Bark 赢在：超越语音的风格化范围。Supertonic 赢在：速度、可部署性、31 种语言 vs Bark 的英文为主。

对比 ElevenLabs / OpenAI / Google Cloud #

云端 TTS 在声音克隆保true度和顶级语音的纯自然度上仍然领先。Supertonic 赢在：没 API key、没按字符账单、不依赖网络、完整隐私。

Supertonic 做不到什么 #

把期待校准好：

不支持从样本克隆声音。 只能从内置 voice style 里选。需要克隆请看 XTTS-v2 或商业 API。
没有 token-by-token 流式合成（公开版本里）——合成以片段为单位。
微调工具有限。 模型权重以 OpenRAIL-M 开放，但训练 pipeline 没完全公开。
没有 22kHz 降级输出。 永远是 44.1kHz。要低带宽你自己重采样。

Supertonic true正发光的场景 #

带语音功能的移动 app——新手引导旁白、无障碍朗读、语言学习。打包一个 ONNX 文件，支持 31 种语言，二进制里也不用塞 API key。
医疗和法律工具——敏感文档的语音播报，数据不出设备。
车载和机载系统——完全离线，不用考虑网络降级。
韩语 / 日语 / 越南语 / 中文本地化——Open Source TTS 在亚洲语言上的窟窿一直很疼；Supertonic 用一个模型补掉了一大块。
边缘 IoT 设备——自助终端、数字标牌、不连云端的智能音箱。

谁该用 #

装上 Supertonic，如果你：

发的 app 需要语音输出，又不想要随用量增长的云账单。
需要隐私（受监管行业）或离线（移动、机载、边缘）。
做非英语市场本地化，宁愿一个模型搞定也不想要 30 个。
想在没 GPU 的情况下拿到 44.1kHz 录音棚级音质。

继续用云 TTS，如果你：

需要从 30 秒样本克隆声音。
做超写实单角色内容，ElevenLabs 顶级线还领先。
需要流式部分音频（Supertonic 公开版还没开放）。

结论 #

Supertonic 是 2026 年最有说服力的"一个模型走天下"Open Source TTS。11551 万参数足迹、31 种语言、多运行时 SDK，再加上电纸书上 0.3× RTF，把它牢牢钉在"是的，可以塞进移动 app 发版"这一档——几乎没有哪个之前的Open Source TTS true正做到。

对韩国、日本、越南或任何 TTS 长期被冷落的语言市场的开发者来说，更大的故事是：Open Source TTS 与云 API 之间的质量差距正在急速收窄。五年前，英语是唯一一个Open Source TTS true能上生产的语言。2026 年，靠 Supertonic，这份名单终于true的覆盖了世界上大部分语言。

再搭一个本地 LLM 运行时处理 prompt 侧，你就拥有了一套完全本地、零云依赖的语音 agent 栈。

GitHub：supertone-inc/supertonic · 协议：MIT（代码）/ OpenRAIL-M（权重）· 最新：v2.0.0（2026-01-06）· Stars：9.9K+ · 维护方：Supertone Inc.

Supertonic Review: 99M-Parameter On-Device TTS in 31 Languages

本地 TTS 的true问题 #

Supertonic 到底是什么 #

性能数字 #

运行时覆盖 #

快速上手（Python） #

横向对比 #

对比 Piper（40K+ stars） #

对比 XTTS-v2（Coqui） #

对比 Bark（Suno） #

对比 ElevenLabs / OpenAI / Google Cloud #

Supertonic 做不到什么 #

Supertonic true正发光的场景 #

谁该用 #

结论 #

推荐自托管基础设施 #

📦 出现在以下合集中

💬 留言讨论

本地 TTS 的true问题 #

Supertonic 到底是什么 #

性能数字 #

运行时覆盖 #

快速上手（Python） #

横向对比 #

对比 Piper（40K+ stars） #

对比 XTTS-v2（Coqui） #

对比 Bark（Suno） #

对比 ElevenLabs / OpenAI / Google Cloud #

Supertonic 做不到什么 #

Supertonic true正发光的场景 #

谁该用 #

结论 #

推荐自托管基础设施 #

🔗 相关资源推荐

📦 出现在以下合集中

💬 留言讨论