ElevenLabs Scribe v2 指南 2026:更好的说话人分离、实时 API 扩展和更低成本

2026/03/17

ElevenLabs 于 2026 年 3 月 11 日发布了 Scribe v2。根据官方信息,新版本在 99 种语言中提升了转录准确率,达到 98% 说话人标签准确率,改进了语句级时间戳,将实时 API 扩展至 57 种语言,并且价格降低了 40%

要点概述:为什么 Scribe v2 重要

Scribe v2 不是小幅刷新,而是面向依赖字幕和转录的视频/音频制作工作流的实质性更新。

官方发布中最有用的改进:

  • 更好的多语言转录准确率
  • 更强的说话人标签
  • 改进的语句级时间戳
  • 更广泛的实时 API
  • 更低的价格

这使它与构建字幕、转录、会议记录、播客或语音搜索工作流的团队高度相关。

相关阅读:查看 AI 语音生成器,在 AI 音乐生成器 中比较音频工作流,或阅读 Suno Studio 1.2 指南 2026

2026 年 3 月 11 日发布了什么

官方 Scribe v2 发布内容包括:

  • 99 种语言的更高准确率
  • 98% 说话人标签准确率
  • 改进的语句级时间戳
  • 价格降低 40%
  • 实时 API 扩展至 57 种语言

ElevenLabs 还将 Scribe v2 与 FLEURSCommon Voice 基准进行了对比,这表明该更新面向可衡量的生产质量,而非单纯的营销包装。

Scribe v2 最适合的场景

长视频字幕

对于剪辑访谈、网络研讨会或播客的用户,更好的时间戳和说话人标签比任何产品宣传都更重要。

多说话人转录

说话人分离升级在需要清晰区分说话人的场景中非常有用,适用于编辑、客户研究或可搜索存档。

实时语音和字幕工作流

扩展后的实时 API 对需要近实时多语言转录的产品很有价值。

如何使用 Scribe v2

  1. 先确定批量还是实时 - 处理录制内容用批量转录,需要实时字幕或信号用实时 API
  2. 从最清晰的音频开始 - Scribe v2 提升了准确率,但源音频质量仍然重要
  3. 发布前检查说话人转换 - 说话人标签升级是使用 Scribe v2 的最强理由,在使用前请检查转换点
  4. 将转录推入编辑工作流 - 转录清理完成后,将其导入字幕、剪辑、搜索或归档工作流

实际应用场景

播客和访谈编辑

更好的时间戳和说话人分段减少了从原始对话到字幕和片段的清理时间。

客户通话分析

更清晰的说话人分离有助于团队构建可搜索的转录,用于支持、销售或研究。

多语言字幕流水线

更广泛的实时 API 和多语言改进在一个工作流需要支持多个市场时非常有用。

Scribe v2 不能替代的工作

Scribe v2 不能替代语音生成、配音翻译审校或编辑判断。它是更强的转录和说话人分离层,不是所有语音制作任务的替代品。

常见问题

Scribe v2 有什么变化?

ElevenLabs 表示 Scribe v2 在 99 种语言中提升了转录准确率,达到 98% 说话人标签准确率,改进了语句级时间戳,将实时 API 扩展至 57 种语言,价格降低 40%。

Scribe v2 改进了说话人分离吗?

是的。官方发布强调了 98% 说话人标签准确率,直接提升多说话人音频的分离质量。

实时 API 现在支持多少种语言?

ElevenLabs 表示实时 API 现在支持 57 种语言

Scribe v2 更便宜了吗?

是的。ElevenLabs 表示 Scribe v2 比之前的版本便宜 40%

官方来源

在工作流中探索 ElevenLabs

AIVidPipeline

编辑团队

AIVidPipeline 专注发布 AI 视频、图片和音乐创作相关的教程、模型对比与工作流指南。我们的编辑流程会跟踪产品更新,核验能力与定价信息,再整理成可执行的实用建议。

探索 AI 视频工具

并排对比最新的 AI 视频、图片和音乐生成器。