請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

延遲超低,正確率更高!ElevenLabs 推出 Scribe v2 Realtime 即時 AI 語音轉文字服務

硬是要學

更新於 2025年11月13日17:29 • 發布於 2025年11月12日16:59 • 手哥 HANDBRO

別再手動逐字啦!ElevenLabs 推出新版 Scribe v2 Realtime 服務,把你說的話即時轉成文字,只要約 150 毫秒的延遲,全面超越人類打字速度。不論你是做直播、語音助理、或會議轉錄,這項技術都能大幅提升效率。現在就來了解這款即時語音轉文字 API 有多猛!

手哥實測超低延遲、高精度

Scribe v2 Realtime 是目前市面上準確率最高的即時語音轉文字模型之一,支援超過 90 種語言,平均延遲僅約 150 毫秒。這讓語音應用不再只是「錄音後再處理」,而是「講了馬上知道你說什麼」。這項服務特別為語音代理人(agents)、會議助理與對話式 AI 而設計,讓他們可以即時理解並快速回應,提升互動效率。

根據手哥實際使用中文聲音以每秒約 4 個中文字的講話速度進行測試,字對字的延遲約 1.5 秒,總共辨識 205 個中文字,只有 2 個字辨識錯誤,正確率高達 99%。

由 Scribe v1 進化而來,準確率大幅提升

新一代的 Scribe v2 模型建立在 Scribe v1 的基礎上,經過大量全球語音資料訓練,並針對自然語音微調,使其在多種語言與口音環境中,都能保持極高的正確率。根據官網表示,它在主要語言的錯詞率上表現優於其他語音辨識模型。

此外,它支援預測性轉錄(predictive transcription),能預測下一個最有可能出現的詞或標點,加速文字輸出的同時維持準確性。

▲ Scribe v2 Realtime 辨識正確性比 Gemini Flash 2.5 更高

開發者友善的語音 API,整合超簡單

Scribe v2 Realtime 可透過 WebSocket 或 REST API 串接,讓開發者可以即時串流音訊並接收準確文字,不需等待,不需緩衝。

它支援多種音訊格式,包括 PCM(8–48 kHz)與 μ-law 編碼,能應用在電話語音、網頁瀏覽器或專業錄音室設備中。

同時,它也提供語音活動偵測(Voice Activity Detection)、自訂手動提交控制(Manual Commit)等開發工具,便於進一步客製化你的應用場景。

👉 註冊使用:註冊 ElevenLabs 帳號
👉 體驗 Scribe v2 Realtime:點這邊

精準處理各種語音與環境條件

Scribe v2 Realtime 針對以下挑戰情境也都能應對自如:

  • 自然語音特徵:填詞、停頓與情緒語氣辨識能力強。

  • 低品質音訊:在背景噪音或低頻寬條件下仍維持穩定辨識。

  • 多種口音/方言:無論是印度腔英文還是台式國語,都能有效辨識。

  • 專業術語:可辨識複雜詞彙,像是藥品名稱、技術名詞與品牌專有名詞。

企業級安全與可擴展性

安全與隱私也是重點!ElevenLabs 提供:

  • 資料加密(傳輸中與靜態資料)

  • 支援 SOC 2、HIPAA、GDPR 合規

  • EU 資料託管選項與零保留模式(Zero Retention Mode)

此外,它提供詳細的團隊權限管理功能,可讓不同成員共用資源與內容。企業用戶還能獲得高併發處理能力(30+ 並發上限),與專人支援及客製部署服務。

價格彈性,適合各種規模

Scribe v2 Realtime 的定價設計具彈性,適用於新創到大型企業。根據官網顯示,在年繳 Business 方案中,每小時語音轉錄的價格可低至 $0.28 美元,性價比極高。

等級 價格/月 包含時間 每小時價格 每額外小時價格 免費 0 美元 無 無 無 Starter 5 美元 10小時 0.48 美元 無法提供 Creator 22 美元 48小時 0.46 美元 0.63 美元 Pro 99 美元 225小時 0.44 美元 0.53 美元 Scale 330元 786 小時 0.42 美元 0.46 美元 Business 1,320 美元 3,385 小時 0.39 美元 0.39 美元 ▲ Scribe v2 Realtime API 價格 (來源:開發文件)

若你有超高併發需求(例如每秒數百個請求),ElevenLabs 也可提供專案評估與支援。

哪些功能還在開發中?

雖然目前支援已非常完整,但根據 FAQ 表示,目前還不支援雙聲道(Dual channel)及說話人分辨(Speaker Diarization)。這些功能目前主要針對非即時情境較常見的應用,未來可能會再擴充。

總結來說,ElevenLabs 的 Scribe v2 Realtime 是一款真正做到了「即時、高準確、多語言、易整合」的語音轉文字工具。不管你是開發者、直播主、客服助理,還是記者或講者,這套工具都能讓語音資料更快速地變成文字內容,提升效率與準確度。如果你對語音應用有需求,不妨考慮把這套工具納入你的開發工具箱中!

👉 註冊使用:註冊 ElevenLabs 帳號
👉 體驗 Scribe v2 Realtime:點這邊

更多相關文章推薦 »

查看原始文章

更多理財相關文章

01

立委提跨行轉帳手續費15元應調降 金管會允研議

中央通訊社
02

賣藍莓先看台灣!外媒曝市場的秘密

自由電子報
03

年薪破300萬!黃仁勳點未來搶手「3職業」成金飯碗:寫程式不是唯一出路

三立新聞網
04

「陶朱隱園」沒有蓋牌! 17樓見實登「單價飆364萬」

ETtoday新聞雲
05

政府打房建商慘1/新舊青安累計撥款2.55兆 兩顆未爆彈全民挫咧等

鏡週刊
06

電子嗨翻、傳產垂淚 金管會將研議「遺珠」ETF

中央廣播電臺
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...