ElevenLabs가 2026년 3월 11일에 Scribe v2를 발표했습니다. 공식 발표에 따르면 새 버전은 99개 언어에서 전사 정확도를 향상시키고, 98% 화자 라벨 정확도를 달성했으며, 턴 레벨 타임스탬프를 개선하고, 라이브 API를 57개 언어로 확장했으며, 가격을 40% 인하했습니다.
요약: Scribe v2가 중요한 이유
Scribe v2는 소규모 업데이트가 아니라, 자막과 전사에 의존하는 영상/오디오 제작 워크플로를 위한 실질적인 개선입니다.
공식 발표의 주요 변경 사항:
- 다국어 전사 정확도 향상
- 화자 라벨링 강화
- 턴 레벨 타임스탬프 개선
- 라이브 API 확장
- 가격 인하
자막, 전사, 회의록, 팟캐스트, 음성 검색 워크플로를 구축하는 팀에게 관련됩니다.
관련 글: AI 음성 생성기 확인, AI 음악 생성기에서 오디오 워크플로 비교, 또는 Suno Studio 1.2 가이드 2026 참조.
2026년 3월 11일 발표 내용
공식 Scribe v2 릴리스 내용:
- 99개 언어에서 더 높은 정확도
- 98% 화자 라벨 정확도
- 개선된 턴 레벨 타임스탬프
- 40% 가격 인하
- 라이브 API 57개 언어 지원
ElevenLabs는 FLEURS와 Common Voice 벤치마크와의 비교도 제시하여, 마케팅이 아닌 측정 가능한 품질 향상을 목표로 하고 있음을 보여줍니다.
Scribe v2의 최적 활용 분야
장편 영상 자막
인터뷰, 웨비나, 팟캐스트 편집 시 타임스탬프와 화자 라벨의 정확성이 핵심입니다.
다중 화자 전사
화자 분리 업그레이드는 편집, 고객 리서치, 검색 가능한 아카이브를 위해 화자를 명확히 구분해야 할 때 유용합니다.
실시간 음성 및 자막 워크플로
확장된 라이브 API는 더 많은 언어에서 준실시간 전사가 필요한 제품에 가치를 제공합니다.
Scribe v2 사용 방법
- 배치와 실시간 중 먼저 선택 - 녹음된 미디어는 배치 전사, 실시간 자막은 라이브 API
- 가능한 깨끗한 오디오로 시작 - 정확도는 향상되었지만 소스 품질은 여전히 중요
- 게시 전 화자 전환 확인 - 화자 라벨링 개선은 Scribe v2를 사용하는 가장 강력한 이유
- 전사를 편집 워크플로에 통합 - 자막, 클리핑, 검색, 아카이브에 활용
실제 활용 사례
- 팟캐스트 및 인터뷰 편집: 타임스탬프와 화자 구분 개선으로 원본 대화에서 자막과 클립으로의 정리 시간 단축
- 고객 통화 분석: 화자 분리 정확도 향상으로 지원, 영업, 리서치용 검색 가능 전사 구현
- 다국어 자막 파이프라인: 라이브 API 확장과 다국어 개선으로 여러 시장 대응
Scribe v2가 대체하지 못하는 것
Scribe v2는 음성 생성, 더빙 번역 검토, 편집 판단을 대체하지 않습니다. 더 강력한 전사 및 화자 분리 레이어이지, 모든 음성 제작 작업의 대체품은 아닙니다.
FAQ
Scribe v2에서 무엇이 바뀌었나요?
99개 언어에서의 전사 정확도 향상, 98% 화자 라벨 정확도, 턴 레벨 타임스탬프 개선, 라이브 API 57개 언어 지원, 40% 가격 인하가 포함됩니다.
Scribe v2가 화자 분리를 개선했나요?
예. 공식 발표에서 98% 화자 라벨 정확도를 강조했습니다.
라이브 API는 몇 개 언어를 지원하나요?
ElevenLabs에 따르면 라이브 API는 현재 57개 언어를 지원합니다.
Scribe v2가 더 저렴해졌나요?
예. ElevenLabs는 Scribe v2가 이전 버전보다 40% 저렴하다고 밝혔습니다.
공식 소스
- ElevenLabs 릴리스: Scribe v2: fast, accurate and 40% more affordable
- ElevenLabs 문서: Speech to Text
워크플로에서 ElevenLabs 활용
- 음성 도구 비교: AI 음성 생성기
- 오디오를 더 넓은 제작에 통합: AI 음악 생성기
- 관련 워크플로 업데이트: Suno Studio 1.2 가이드 2026

