特別企畫》AI 智慧錄音裝置大評比,轉錄品質是唯一王道(上)
當前標榜 AI 轉錄功能的錄音裝置雖然五花八門,但基本操作方式與功能大同小異,而且各家莫不致力讓初次啟用的程序極盡親和、簡單之能事。但會買這類產品的使用者,最終在乎的莫過於錄音檔轉錄成文字的準確性。有鑑於此,筆者將對手上 3.1 支(1 支無法登錄,只有 3 支可測)使用過的錄音裝置進行評測,以供讀者今後採購上的參考依據。
筆者是重度智慧錄音裝置使用者,除了線上 AI 轉錄工具外,分別使用過搜狗 Sogou AI 智能錄音筆 C1 C18D、Wooask 錄音翻譯筆 S01、Philips 智能錄音筆 VTR5102 Pro,以及最新的 Plaud NotePin AI 智慧賿囊(以下分別簡稱搜狗 C1、Wooask S01、Philips 5102 及 Plaud NotePin)。
▲ 多 AI 模型加持的 Plaud NotePin AI 智慧膠囊。
外型有如膠囊狀,重量只有 16 克的 Plaud NotePin,自我宣稱是全球最小的錄音裝置,該機一拿在手中,很難感受不到該產品出色的做工及質感。針對錄音檔,除了轉錄成文字外,該產品還可以生成摘要和心智圖。該產品剛發表時便以 GPT 4o 及 Claude 3.5 雙 AI 模型驅動的宣傳噱頭造成話題,如今不但進一步更新至 GPT 4.1 及 Claude 4,還新增了 o3-mini 及 Gemini 2.5 Pro/Flash 等 AI 模型。40 天待機、20 小時連續錄音能力,再加上提供無限雲端儲存容量,十分適合有大量且頻繁錄音需求的使用者。再者,在強大專業範本的加持下,即使是中英文夾雜的訪談,該機也能展現一流的辨識度。
▲ 轉錄文字、同步翻譯兩相宜的 Philips 智能錄音筆 VTR5102 Pro。
比起當前動輒超過新台幣 5,000 元的主流智慧錄音筆,第一代 Philips 5102 錄音筆 3,500 元的價格算是相當親民。比起錄音檔轉錄文字功能,該機同步翻譯似乎更吸睛,但又比不過更專業的雙向語音翻譯機。基本上,其轉錄品質尚可,但面對專業詞彙的辨識精準度似乎不盡理想。至於在中英夾雜對談的測試中,其英文轉錄品質只能用「全軍覆沒」來形容。令人困惑的是,每一筆轉錄完的文字中幾乎都會出現許多莫名奇妙的空格,所以每一回都必須透過「尋找/取代」的方式來移除空格。更無奈的是,每次開機都會出現 5 秒的廣告頁面,雖然使用者可以點擊畫面立即加以停止,但在緊急錄音需求時,絕對是個困擾。
▲ 支援邊轉邊綠功能的 Wooask 錄音翻譯筆 S01。
Wooask S01 最大特點就是邊錄音邊轉文字,但它有一個極大的缺點,就是偶爾會出現錄音錄到一半就無預警中斷的狀況。這對記者來說,在採訪過程中有一大段受訪內容沒錄到,無異末日災難。也因為如此,筆者從那時起便開始養成時不時檢查錄音筆是否還在錄音的習慣。雖然該機子支援本機錄音(亦即不藉助 App 錄音)功能,但有鑑於該機有錄音中斷的可怕前科,再加上很難分辨該機錄音時所亮綠燈(竟然不是其他競品常見的紅燈)和開機亮藍燈的差別,所以更加不敢使用。
▲ 需要搭配微信帳號的搜狗 Sogou AI 智能錄音筆C1 C18D。
由於搜狗 C1 的「搜狗錄音助手」App 需要搭配微信帳號,但自從微信被官方莫明被封鎖後便無法登錄使用,所以無法參加這次評測。就轉錄品質而言,該產品不但便宜,而且實際表現不差,尤其在採訪來自大陸公司且操北京話的受訪者,其轉錄表現更加完美。不過,該產品所轉錄的文字皆為簡體字,所以使用上會多一道簡轉繁的工序。最令人詬病的是,其錄音檔轉錄成文字的速度時快時慢(尤其易受網路訊號強弱的影響),而且多半需要冗長的時間才能完成,甚至還出現過轉錄失敗的情況。
分現場/喇叭人聲兩大測試標的,另立中英夾雜及中文術語專項測試
雖然透過開箱文可以搶先知道有哪些值得關注的新產品,但畢竟「有比較才有傷害」,透過評比才知道自己中意的錄音裝置有多好。一般來說,錄音對象大致分成現場人聲(例如採訪或會議時,實際面對面的人聲)與喇叭人聲(例如研討會、遠端會議時經由喇叭放出來的人聲)兩種。
針對前者,筆者特別現場朗誦有關美國總統川普中東之行的新聞稿(共 1,187 字),同時啟動三台機子進行本機錄音,然後再各自上傳到自家 App 進行轉錄。針對喇叭人聲則播放 YouTube 頻道《曲博科技教室》有關拓璞量子位元驅動之量子晶片的影片(長度 7 分 36 秒),來進行三台機子的錄音與轉錄。
Plaud NotePin 整體性表現奪魁,Wooask S01 專項能力突出
首先就現場人聲之整體性轉錄結果來說,轉錄表現最佳的是 Plaud NotePin,錯誤率只有 2.59%,表現居末的是 Philips 5102,錯誤率竟然高達 11.11%。
一般錄音筆通常都不太擅長處理中英文夾雜的談話內容,在這次現場朗誦中,Wooask S01 的中英文夾雜辨識能力表現最好,52 個英文單子竟然只有 2 個錯誤(3.85%),Plaud NotePin 的表現也不差,只拼錯 3 個單字(5.77%)。Philips 5102 表現不佳,錯誤率超過一半,高達 57.69%。
面對現場朗誦中的中文專業術語(比較多國/地名及人名,例如川普、沙烏地阿拉伯、阿布達比、阿聯、資料中心叢集、利雅德等),Plaud NotePin 和 Wooask S01 表現一樣好,27 個術語只錯 3 個,Philips 5102 也不差,只錯 4 個。
在喇叭人聲評比方面,整體錯誤率最低的還是 Plaud NotePin(3.51%),原本人在現場人聲勝出許多的 Wooask S01(9.6%),反而在這裡被 Philips 5102 反超(8.9%)。
關於喇叭人聲的中英夾雜英文轉錄精準度的專項測試,Wooask S01 再度以 5.4% 的成績拔得頭籌,在一共 37 個英文字中,只有 2 個字轉錄錯誤,Plaud NotePin 則轉錯了 4 個字。不意外的是,Philips 5102 再度以高達 64.86% 的錯誤率(錯了 24 個字)墊底。
再就另一個喇叭人聲專項測試(中文專業術語,例如拓璞量子處理器、馬約納拉零模態、奇偶校驗等)而言,勝出的還是 Wooask S01,在一共 72 個中文專業詞彙中,只錯了 8 個字。僅次在後的 Plaud NotePin 則錯了 10 個字,表現最差的 Philips 5102 共錯了 34 個字(47.22%)。
▲ AI 智慧錄音裝置轉錄評比結果表。
可惜的是,Wooask S01 出類拔萃的中英文夾雜及中文專業術語轉錄能力,對於整體轉錄品質的提升幫助不大,結果仍在整體轉錄品質評比中吊車尾。和 Wooask 形成強烈對比的是Philips 5102,前者是專項超強,整體表現不佳;後者則是整體表現尚可,專項慘不忍賭,這一點可以從明明專項測試「一塌糊塗」,但整體評比卻超越 Wooask 可以說明。
至於 Plaud NotePin 的整體轉錄品質始終保持第一,其專項測試能力也很穩定,僅略遜於第一名。事實上,該產品內建「我的業界術語表」,使用者可以針對行業別自訂術語。這次測試並沒有事先進行業界術語的設定與新增,相信設定好之後,整體表現會更加亮麗。
(圖片來源:科技新報)