隨著語音辨識技術迅速進步,OpenAI 推出的「Whisper」已經成為眾多使用者心中的語音辨識首選。Whisper 以其強大的準確性和開源特性,成為免費且高效的自動生成字幕工具。然而安裝過程和操作方式仍然稍顯困難。今日小編會和大家分享一個全新的方法——WhisperDesktop。這個方法工具簡化原本繁瑣的操作流程,用戶無需再使用指令,也能輕鬆進行語音辨識,自動生成字幕、文字稿等。
▲原本沒有字幕的影片
▲使用今日介紹的 WhisperDesktop 後
▲即可一鍵影片語音轉文字,還可以幫你加上 Timecode
Step 1 下載 WhisperDesktop
要使用 WhisperDesktop GUI,首先需要在 GitHub 下載桌面程式,截稿前最新版本為 1.12。
▲請下載標明「Lastest」最新版本之程式
下載「WhisperDesktop.zip」壓縮檔(下圖綠框示)。
▲下載「WhisperDesktop.zip」
下載完畢後你需要解壓縮,解壓縮後你會看見文件夾內一共有 3 個檔案,其中有向日葵圖案的就是 WhisperDesktop 程式,不要移動其餘檔案,點擊即可開始設定,不過目前為止仍然未需要開啟「WhisperDesktop.exe」。
▲以後只需點擊「向日葵」圖案即可使用
Step 2 下載語言模組
下載完 WhisperDesktop 後,並不代表我們可以立即使用這個程式語音轉文字。接下來我們需要到 Hugging Face 下載相關語言模型。(下載連結)。甫打開模型庫會發覺琳瑯滿目,但如果你和小編一樣是業餘用途,就只需要選擇「Medium」模型。「Medium」模型兼顧準確性、生成速度及硬件需求,對一般用家來講算是夠用。
▲打開模型庫時的畫面
同時按下 Ctrl+F,輸入 medium 後就可以馬上找到全部 medium 模型。今次小編會示範使用 ggml-medium.bin,點擊下圖紅色箭嘴指住的下載鍵即可開始下載「ggml-medium.bin」。
▲點擊紅色箭嘴指住的下載鍵下載 ggml-medium.bin(綠框示)
下載完成後,將「ggml-medium.bin」檔案移動至剛才有向日葵圖案「WhisperDesktop.exe」的文件夾。
▲將 bin 檔移至 WhisperDesktop 的文件夾
Step 3 開始設定 WhisperDesktop
將「ggml-medium.bin」移動至 WhisperDesktop 文件夾後,你就可以開始設定 WhisperDesktop。
▲點擊「向日葵」圖案使用
接下來你需要點擊「…」(紅箭嘴示)開啟你的 ggml。
▲點擊「…」
載入剛才的 ggml-medium 模型。
▲雙擊選擇剛才的模型
現時回到 WhisperDesktop,檢查 Model Path 是否剛才選擇的 ggml 模型,如正確就不要調整任何設定,保留其他設定為預設值後點擊「ok」
▲檢查 Model Path 是否剛才選擇的 ggml 模型,如正確就點擊 ok
Step 4 開始使用
稍等一陣就可載入完模型,之後你會看見下圖畫面,點擊「Language」選項,選擇「Chinese」。
▲選擇「Chinese」
之後你可以在「Output Format」選擇輸出甚麼格式的文字稿:
- 如果你要純文字逐字稿,可選擇「Text file」;
- 如果你想要生成 YouTube 的「CC 字幕」(有 Time Code),那麼就需要選擇「Subrip subtitles」輸出 SRT 檔案。
▲選擇所需格式
之後點擊「…」,選擇你需要轉為文字的影片。
▲點擊「…」
▲選擇所需影片
▲選擇所需影片
選擇完影片後,點擊「Transcribe」開始語音轉文字。
▲點擊「Transcribe」開始語音轉文字
實測:轉換 15 分 25 秒 mp4 影片需時
以下小編會使用一條 15 分 25 秒的 MP4 測試 WhisperDesktop 語音轉換文字的速度。小編使用的電腦為 ASUS Zenbook Flip 14,採用內置顯示卡。
▲小編測試影片長度為 15:25
▲點擊「Transcribe」開始語音轉文字
▲可在進度條檢查轉換進度
完成後會彈出一個提示視窗,告訴你耗時多久。WhisperDesktop 主要使用 GPU 轉錄為純文字,而由於小編的電腦沒有獨立顯示卡,因此耗時約 14 分鐘方完成。如果你的電腦顯示卡比較厲害,那麼可以用更短時間完成轉錄工作。
▲完成後會彈出視窗提示你
現在開啟影片所在文件夾,你會看見 .srt 檔案,這個就是你的 CC 字幕檔。
▲生成的 .srt 字幕檔
普通點擊無法開啟 .srt 檔案,你需要選擇以「記事本」開啟。
▲選擇以「記事本」開啟 .srt 字幕檔
▲現在你就可以看見你的 CC 字幕文字稿了
總結:無須使用大量指令 圖形介面直觀完成工作
對於那些不熟悉終端機指令的用戶來說,WhisperDesktop 顯然是一個更具親和力的選擇。WhisperDesktop 簡化了安裝和操作過程,並將繁瑣的步驟圖像化,讓每個人都能輕鬆上手。
總結來說,Whisper GUI 是一款實用的工具,適合各類需求的用戶。如果你曾因為難度較高的安裝或操作流程而放棄使用 Whisper,那麼這款 GUI 介面將無疑大幅簡化你的使用體驗,讓語音辨識過程更加順暢,無需過高電腦技術。
======
加入 unwire thread 傾傾科技背後黑暗事
========
• 不想錯過新科技 ? 請 Follow unwire.hk FB 專頁http://facebook.com/unwirehk/
• 要入手生活科技潮物 即上 unwire store
https://store.unwire.hk/