請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

Google開源即時轉錄原始編碼,讓更多開發者以此打造豐富語音工具

MashDigi

發布於 2019年08月18日03:25 • 楊又肇 (Mash Yang)

Google在今年2月推出名為「即時轉錄 (Live Transcribe)」的語音工具,讓使用者能即時將口說或播放的語句內容快速識別轉換為文字內容,讓聽力有問題的人也能快速知曉。而在稍早時候,Google更進一步將此項語音工具開源,讓更多開發者能藉此打造便利的應用工具。

「即時轉錄」的技術源自Google Cloud Platform所提供的Cloud Speech API,除了藉由雲端協同運算提高語音內容識別精準度,同時也能藉由Android裝置進行前期運算,讓實際識別轉換效果更好。

其實在今年準備釋出正式版本更新的Android Q (10.0)所搭載的Live Caption功能,在背後運作其實也採用相同運作模式,但可藉由Android裝置進行簡單運算,即便在沒有連網情況下也能完成一定程度的語音內容識別、轉換,而配合連網運作則可讓實際識別正確率提高,同時也能以更快效率完成轉換。

目前Google進一步將「即時轉錄」工具編碼內容開源,自然希望能藉由更多開發者已此打造更豐富的實用語音工具。

而為了讓「即時轉錄」有更好應用表現,Google更進一步降低背後需要使用網路頻寬,在不影響識別轉換精準度情況下,約讓網路頻寬使用量縮減為原本的10%,同時為了讓即時語音識別效率提昇,並且減少反應延遲表現,Google也藉由自訂Opus編碼器降低延遲問題。

在現階段裡,「即時轉錄」已經支援中文、日文、英文在內70種語言,但部分語言在內容識別仍有其侷限,例如日文暫時還難以判斷完整語句的結尾,因此實際辨識結果可能會變成所有語句均連接在一起,難以分辨前後句的情況。

0 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0