之前你睇 YouTube 影片好多自動產生的中文字幕都古靈精怪,錯漏百出。AI 工具發展迅速,現在要將錄音轉換文字變得更輕易,而且更加準確。今次介紹 MacWhisper 是一款基於 OpenAI Whisper 技術的語音轉文字工具,特別適合需要處理大量錄音檔的使用者。 它能夠辨識超過 100 種語言,包括中文和英文,並將音訊檔案、YouTube 語音、甚至即時錄音轉換為文字。軟件好處是運用 AI 大模型辨識語音內容,辨識準確度大大提升之餘,軟件更是在你的電腦上運行這些大模型,資料毋須上傳互聯網,保障你的個人私隱、企業機密。
MacWhisper 支援多種音訊格式,如 MP3、WAV、M4A、MP4 和 MOV,使用者只需將音訊檔案拖放至應用程式,即可開始轉錄。 MacWhisper 更可讀取 YouTube 網址,即時轉錄 YouTube 外語、廣東話、中文影片,還具備即時錄音功能,適合用於會議記錄轉錄文字之用。MacWhisper 提供免費版和付費版。 免費版包含 Tiny、Base 和 Small 三種模型,轉換速度較快,但準確率相對較低;付費版則增加了 Medium 和 Large 模型,雖然轉換速度較慢,但準確率有顯著提升。
應用場景:
語音轉錄文字功能,非常適合經常要處理文字、從文字中獲取資料的朋友,例如:
・人物訪談--將訪問錄音轉換成文字,方便後續處理
・會議記錄--會議完成後內容可一目了然,甚至可再用AI總結
・學習--將老師課堂轉換成文字,之後用AI總結
・語言學習--將外語轉化成文字,方便學習外語
・總結YouTube影片--將外語YouTube影片轉換文字再翻譯,幫你輕鬆整理資料
・備忘--將重要記事轉換成文字
・拍攝影片後需要製作字幕--不用自己打字幕
・多國語言交流
MacWhisper 收費版可使用大型 AI 語言模型,而免費版就可使用它的基本功能。軟件提供學生、媒體優惠,選擇學生或媒體記者可以用 29 歐元(約港幣HK$238)購買一個授權。
官方網站:https://goodsnooze.gumroad.com/l/macwhisper
下載語音轉換 AI 模型
MacWhisper 支援電腦本地語音轉文字,也就是說無需將音訊上傳到網絡,即可在電腦上完成所有轉錄工作。有效保護個人私隱和企業機密,特別適合需要處理敏感資訊的用戶。在第一次使用時,你要下載 AI 模型,而日後也可透過設定選單來加入。
在模型列表中,你會看到不同版本的模型,每個模型旁邊都有「Quality」和「Speed」指標,例如:
- Large V3 (3.1 GB):準確度最高,但轉錄速度稍慢。
- Turbo (OpenAI) (1.6 GB):速度較快,但準確度略低。
▲較大的模型處理上需要較大的電腦效能,或需要更多時間
▲較小的模型處理速度可以更快,但有時候可能影響文字辨識的準繩度
點擊 「Download」 按鈕開始下載。確保你的電腦有足夠的儲存空間,因為大型模型如 Large V3 需要大約 3.1 GB 空間。下載後的模型將存儲在本地,即可隨時使用。
實際應用 1:將音訊檔案、YouTube 音訊轉錄成文字
MacWhisper 支援多種音訊格式,如 MP3、WAV、M4A、MP4 和 MOV,使用者只需將音訊檔案拖放至應用程式,即可開始轉錄。 用戶也可直接輸入YouTube連結或預先下載YouTube影片聲音檔,放入 MacWhisper 轉錄成文字。好處是無需CC 字幕,即使影片沒有內建字幕,MacWhisper 也能識別語音並轉錄成文字,更支援廣東話轉錄。
Step 1
首先第一步請先選擇文字轉錄 AI 模型。點擊右上角的模型選單。根據需求選擇合適的模型:
- Large v3:只有這個模型才支援廣東話,如有需要請用這個
- Distil Large v3 (English Only):準確度高,適合英文、長篇內容。
- Small:速度較快,但準確度稍低。
▲先選取 AI 模型,今次選取可以處理廣東話的「Large v3」模型
▲再選擇語言,直接選取廣東話,會比自動偵測效果更好
Step 2
在 MacWhisper 主畫面中,找到 URL 輸入框,貼上 YouTube 影片連結。如果你準備好語音檔案,可將之拖放到 MacWhisper 視窗。按下「Transcribe」按鈕即時轉錄文字。
Step 3
很多 YouTube 影片的自動字幕(CC 字幕)往往以書面白話文顯示,而非真正的廣東話口語。MacWhisper 提供強大的廣東話轉寫功能,幫助用戶將影片或音訊內容轉錄成真正的廣東話,並可輸出香港字、中間夾雜的英文。但有些同音字可能出現誤差。例如「書出」,英文字也可能有誤差,例如 M、N 等,有時需要你在轉錄後自行覆核。
▲有些同音字需要自行覆核,不過還好出現錯誤的頻度還不是很多
另外我們也嘗試用英文大模型去轉錄 YouTube 影片的文字。發現英文模型準確度非常高,有時比起 YouTube 內置的轉錄功能更加準確。如果你極有語音轉錄的需要,MacWhisper 便是一個你很值得的投資。
輸出成 SRT 字幕檔案
轉錄完成後,轉錄文字結果可輸出成字幕檔。MacWhisper 支援 SRT、VTT、MD 格式字幕檔,亦可輸出成 Dote 動態文字處理的 script。輸出的檔案可作後續用途。但我們測試後發現有時程式不一定能成功分句,有時一大段文字會變成一句,用家需自行再調整。
實際應用 2:將系統聲音錄音並轉換成文字
MacWhisper 支援錄取 Mac 電腦的系統聲音,或指定應用程式的聲音,並將音訊即時轉錄成文字。這項功能不單能使用於視像或電話會議,還適合各種不同應用場景,例如:網上課程、影片播放、Podcast 等。它支援 Mac 電腦任何播放音訊的 App,錄製 Mac 系統內音訊內容,記錄筆記或保存資料。
測試:錄音 Zoom 視像會議,轉錄成為文字
Step 1
以下會示範將 Zoom 視像會議的內容轉換成文字。首先打開 MacWhisper 並在主頁啟動「Record System Audio」功能。
Step 2
選擇錄音來源。如需錄取整個系統音訊:選擇 「Record All System Audio」。如指定App 錄音:選擇特定應用程式,例如 Zoom、Safari、YouTube、Notes 等。開始錄音。點擊 「Record [App Name]」 按鈕開始錄音。錄音進行中時,MacWhisper 將即時轉錄音訊內容。
Step 3
停止錄音並查看轉錄結果。點擊 「Stop」 完成錄音,系統會自動顯示轉錄文字。你可看到整個會議的內容會轉換成為文字。
AI 摘要功能
在轉錄完成後,使用 MacWhisper 的 AI 功能生成摘要,快速提取關鍵資訊。
▲這是最初測試的 YouTube 影片,轉錄文字後都可用 AI 摘要
初始設定 AI 摘要功能
MacWhisper 內置強大 AI 功能(用戶需自備有 AI 帳戶,例如 OpenAI, Gemini),可以在轉錄文字後生成摘要、重點提取,甚至翻譯內容。要啟用這些功能,必須先設定 AI 服務並提供 API Key。只要設定一次,你的 MacWhisper 便能連接 AI 引擎。
Step 1
在 MacWhisper 主畫面,點擊左側功能欄的 「AI Services」。你可以選擇不同的 AI 服務商,例如:OpenAI、Anthropic、Google、Groq、Azure 等,選取後按 Configure 按鈕;
Step 2
以 OpenAI 為例,請按照以下步驟取得 API Key。登入 OpenAI 官方網站,進入 「API keys」 頁面,點擊 「Create new secret key」,然後複製生成的 API Key。
Step 3
回到 MacWhisper 的設定畫面,將複製的 API Key 貼入輸入框,然後點擊 「Done」 確認設定。
AI 摘要應用:總結 YouTube 影片內容
有時外語影片十分之長,花十多廿分鐘去聽,也不一定能理解內容。而有了 AI 摘要,就能先用 MacWhisper 轉錄影片,然後用 AI 翻譯並為你寫出摘要,你只要花 1、2 分鐘就能吸收影片中的內容。
MacWhisper 所有功能都能使用 AI。例如這次轉錄了一段 YouTube 影片。它是介紹兩部相機的分別,以及介紹如何選擇相機。
▲將影片的 YouTube 網址輸入到 MacWhisper 文字欄位便可。
▲首先我們會得到英文的文字轉錄
只要你完成文字轉錄,就可打開 AI 選單。設定到 AI Service 後,按一下「Summary」便可輸出摘要。我們建議你在下方輸入特別要求,例如圖中「Please use Traditional Chinese」令 AI 懂得將任何語言的影片,都輸出繁體中文摘要。
▲切換到 AI 處理頁面,設定好使用的 AI 服務,並寫入摘要時 AI 要注意的地方。最後便能輸出你需要的影片摘要
實際應用 3:電腦咪高鋒即時轉錄文字
MacWhisper 具有電腦咪高鋒即時錄音,並即時轉換文字的功能。程式放置了一個圖示在畫面右上方的系統選單列。點擊按鈕,設定好 AI 模型按「Record」就可開始錄音,錄音完成後,收音的文字會轉錄成為文字。
▲操作方法:按動 MacWhisper 圖示,在彈出的選單中設定好 AI 模型,再按錄音按鈕;
實際應用 4:實時 AI 處理的語音輸入功能
MacWhisper 提供一個結合 AI 的 Dictation 文字讀取功能,即時將你的語音轉換成文字,兼實時進行 AI 處理。此功能可用來發送訊息之用。實際操作上,只要按住事先設定好的快捷鍵,例如按住 Fn 按鍵,就可觸動語音輸入,放手之後,就可將語音內容變成文字輸入。
▲從 App 主頁打開 Dictation 讀寫功能,設定一個快捷鍵
語音輸入更可結合 AI 處理。在程式選單中,輸入你想 AI 為你做的事,例如筆者輸入了「將口語轉換成白話文」,並將之設定成 Active Prompt。然後我在語音輸入後,小編向著咪高鋒說出「你好,唔該你幫我整返好部電腦」,AI 處理後便會將我的說話變成了白話文輸入到文字欄。
▲先打開設定畫面的「Dictation」選單,加入你的 AI 指令,並設定成為 Active Prompt
▲結合 AI,將口語變成白話文
總結:處理文字者非常不錯的投資
如果你的工作是需要隨時整理文字,例如利用錄音筆記錄資料、記者將訪問變成文字稿,甚至是同學們在網上課程中錄音,MacWhisper 都是一個極可靠的文字轉錄工具。重點是它的處理都在電腦內進行,毋須將含有私密資料的錄音上傳互聯網,加強資料的保密性。此 App 屬於一次性付費,如以學生或記者身份購買的話更有特價,雖然最平都要二百多元,但屬於不錯的投資。
• 不想錯過新科技 ? 請 Follow unwire.hk FB 專頁http://facebook.com/unwirehk/
• 要入手生活科技潮物 即上 unwire store
https://store.unwire.hk/