AI 科技大擂台的競賽資料，AI 語音數據資料集即將由科技部釋出

超高首獎達台幣 2,000 萬元吸引不少好手競逐，但複賽資格嚴格沒有團隊能符合資格的爭議下，「科技大擂台與 AI 對話」競賽，複賽時團隊時所運用的語音辨識資料集，即將要釋出。儘管因先前爭議籠罩陰影，這次資料集除了初賽混入雜訊的訓練集，以及複賽及決賽當中，採用廣播電台咬字清楚的語音檔案，總共 400 小時長度，搭配標記開放研究者和企業申請使用。

今日 (6/25) 在 2019 在語音訊號處理研討會上，科技部與合作兩大政府廣播電台，教育廣播電台與警察廣播電台，攜手宣布 AI 語音數據集資料集即將上線釋出。台北科技大學廖元甫副教授協助語音資料的標記，而國網中心則提供資料集的儲存空間與連線頻寬。

科技部次長許有進期許語音資料集有助於民生應用，像是各界開發 Chatbot，並且說到這次科技大擂台與 AI 對話競賽，很可惜沒有團隊能符合首獎資格。比賽主辦單位科政中心表示，這 400 小時是先期的測試資料，後續還會有更多資料釋出，現在還在釐清適當的授權，等到確定會有說明頁面，解釋如何下載和運用這些語音資料。

▲ 國網中心資料集平台目前頁面內容有先前競賽釋出的資料集，以及需要申請取得的 400 小時資料集，仍需要補上說明文字。(Source：國網中心截圖)

要弄語言辨識 AI，相比對岸中國成果相當豐富，原因在有不少有資源的大公司，能解決資料取得上，還有後續標記作業的障礙，台灣要有單一企業弄基基礎的訓練資料，是蠻困難的事情。因此由政府推一把，統合各方建置語音 AI 所必須的訓練資料集，看來是趕上這波 AI 風潮所必須做的事情。

(首圖來源：科技新報)

請更新您的瀏覽器

科技

科技新報

更多科技相關文章

CNBC：OpenAI目標2030年運算支出達6000億美元

請更新您的瀏覽器啟用Javascript

AI 科技大擂台的競賽資料，AI 語音數據資料集即將由科技部釋出

科技新報

更多科技相關文章

CNBC：OpenAI目標2030年運算支出達6000億美元

請更新您的瀏覽器