請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

AI 科技大擂台的競賽資料,AI 語音數據資料集即將由科技部釋出

科技新報

更新於 2019年06月25日19:03 • 發布於 2019年06月25日10:27

超高首獎達台幣 2,000 萬元吸引不少好手競逐,但複賽資格嚴格沒有團隊能符合資格的爭議下,「科技大擂台 與 AI 對話」競賽,複賽時團隊時所運用的語音辨識資料集,即將要釋出。儘管因先前爭議籠罩陰影,這次資料集除了初賽混入雜訊的訓練集,以及複賽及決賽當中,採用廣播電台咬字清楚的語音檔案,總共 400 小時長度,搭配標記開放研究者和企業申請使用。

今日 (6/25) 在 2019 在語音訊號處理研討會上,科技部與合作兩大政府廣播電台,教育廣播電台與警察廣播電台,攜手宣布 AI 語音數據集資料集即將上線釋出。台北科技大學廖元甫副教授協助語音資料的標記,而國網中心則提供資料集的儲存空間與連線頻寬。

科技部次長許有進期許語音資料集有助於民生應用,像是各界開發 Chatbot,並且說到這次科技大擂台與 AI 對話競賽,很可惜沒有團隊能符合首獎資格。比賽主辦單位科政中心表示,這 400 小時是先期的測試資料,後續還會有更多資料釋出,現在還在釐清適當的授權,等到確定會有說明頁面,解釋如何下載和運用這些語音資料。

▲ 國網中心資料集平台目前頁面內容有先前競賽釋出的資料集,以及需要申請取得的 400 小時資料集,仍需要補上說明文字。(Source:國網中心截圖)

要弄語言辨識 AI,相比對岸中國成果相當豐富,原因在有不少有資源的大公司,能解決資料取得上,還有後續標記作業的障礙,台灣要有單一企業弄基基礎的訓練資料,是蠻困難的事情。因此由政府推一把,統合各方建置語音 AI 所必須的訓練資料集,看來是趕上這波 AI 風潮所必須做的事情。

(首圖來源:科技新報)

查看原始文章

更多科技相關文章

01

CNBC:OpenAI目標2030年運算支出達6000億美元

路透社
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...