請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

幻覺率狂降70%!阿里巴巴發布新AI語音辨識模型FunAudio-ASR 解決行業兩大難題

anue鉅亨網

更新於 2025年09月16日05:40 • 發布於 2025年09月16日05:40
圖:Pixabay/Unsplash/Pexel

阿里巴巴 (09988-HK)(BABA-US)通義實驗室在 AI 語音技術領域取得重大突破,周一 (15 日) 正式發表 FunAudio-ASR 端對端語音辨識大模型,該模型的問世為語音辨識技術的發展帶來了新的曙光,並有望在多個領域引發深刻變革。

FunAudio-ASR 模型透過創新的 Context 模組,成功解決了語音辨識中的兩大關鍵難題—「幻覺」和「串語種」。在高噪音場景下,幻覺率從 78.5% 大降至 10.7%,降幅接近 70%。這一卓越表現得益於該模型使用了數千萬小時的音訊資料進行訓練,並融合了大語言模型 (LLM) 的語義理解能力,進而顯著提升了語音識別的上下文一致性與跨語言切換能力。

阿里巴巴通義實驗室精心打造了 5 大類測試,重點聚焦語音辨識在遠場、吵雜背景等極具挑戰性場景下的表現,同時結合開源測試集對模型效能進行全面評估。結果顯示,FunAudio-ASR 超越了 Seed-ASR、KimiAudio-8B 等業界知名模型。

在實際應用方面,FunAudio-ASR 進行了全方位優化。它支援低延遲串流識別、跨中英文自然切換以及用戶可自訂的熱詞識別,能廣泛涵蓋視訊會議、即時字幕、智慧終端等多樣化的應用場景。

FunAudio-ASR 模型提供滿血版和輕量的 nano 版本,滿血版由 0.7B 參數量的編碼器和 7B 參數量的 LLM 組成,追求最高精度,而輕量的 nano 版本由 0.2B 參數量的編碼器和 0.6B 參數量的 LLM 組成,平衡了效率與精度。

目前,FunAudio-ASR 已在釘釘的「AI 聽記」、視訊會議、DingTalk A1 硬體等多個場景中得到應用。

值得一提的是,FunAudio-ASR 已上線阿里雲百煉平台,API 定價為每秒 0.00022 元 (人民幣,下同),轉錄一段一小時的音訊大約只需 8 毛錢,其技術報告已發布,開發者可在魔搭社群體驗其效果。

在解決「幻覺」問題方面,通義實驗室設計了 Context 增強模組,透過 CTC 解碼器快速生成第一遍解碼文本,並將其作為上下文資訊輸入 LLM,輔助理解音訊內容。為因應高雜訊場景,還在訓練資料中加入大量模擬數據,有效降低了幻覺率。

對於「串語種」問題,透過 CTC 解碼器的最佳化和將解碼結果作為提示詞輸入 LLM,緩解了模型「自動啟動」翻譯功能的現象。

此外,FunAudio-ASR 在支援術語客製化識別方面也有顯著提升,透過引入 RAG 機制,在不增加推理複雜度的前提下,擴充了客製化上文數量,並保持了較高的客製化識別效果。

在技術實現上,FunAudio-ASR 模型包含四個核心組件,預訓練使用了數千萬小時的音頻數據,經過多個階段的優化和強化學習,最終在各項性能上達到優異水平。

基於生成式 AI 的新一代語音識別模型,正從「能聽清楚」邁向「能理解」,FunAudio-ASR 在幻覺抑制、跨語種識別、上下文一致性等關鍵問題上取得的進展,使其有望成為終端智能交互的重要入口,為智能語音交互領域帶來新的發展機遇。

更多鉅亨報導

點我加鉅亨網LINE好友🔥財經大事不漏接

查看原始文章

更多理財相關文章

01

中華電信馬拉松式股東會邁入第十個小時 股東喊「開到半夜」

anue鉅亨網
02

「最強妖股」尚茂發重訊!澄清借殼傳聞:純屬臆測

EBC 東森新聞
03

仍有86萬戶未報稅 財政部:善用網路在6/1截止前完成申報

太報
04

逾31萬人「辭職炒股」!專家驚「4貸同堂」示警歷史慘劇:會痛10年

鏡報
05

黃仁勳MGX背板「報明牌」了!新增臻鼎、可成

自由電子報
06

星宇發1個月年終獎金被罵翻!張國煒直球回應全說了

自由電子報
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...