請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

本地科企 Votee AI 採 AWS 平台開發廣東話大模型 冀傳承語言背後豐富文化

Unwire.hk

發布於 2025年01月13日10:49

Gen AI 大模型由去年開始成為科技界熱話。由去年以主力處理英文的大模型,到今年陸續有不同廠商開發書寫中文以至廣東話大模型。

於香港成立 10 載的科企 Votee AI (下稱 Votee) 曾為金融業及不同上市公司服務,累積豐富 AI 案例項目經驗,從網絡採集過不少廣東話語料。建立大模型需要大量數據,同時需要大量 GPU 資源。Votee 與 AWS 因此一拍即合,由 Votee 處理數據及訓練,採用 AWS 雲端平台開發廣東話大模型,冀能保留及傳承香港文化。

看準 AWS 平台技術領先 實現無縫「上雲」開發 AI 模型

自 2023 年開始,Votee 已收到不少客戶希望採用 AI 大模型。他們亦開始接觸 AWS 專家並了解有何雲端服務能滿足開發所需。Votee 在開發期間利用了 AWS Trainium 機器學習晶片,而去年底 AWS 推出了託管式服務 SageMaker Hyperpod,讓客戶一鍵建立集群 (cluster),合併大量 AI 晶片資源。這項服務完全符合 Votee 的要求,加上開發環境採用 slurm,與 Votee 原本使用的開發環境相同,完全無需花額外時間進行代碼遷移,無縫「上雲」開發 AI 模型。
開發大模型更需要高性能運算檔案系統,用以在不同階段高效儲存檔案。而 AWS 的 FSx for Lustre 亦滿足到 Votee 的需要,令他們開發過程順利無阻。

Votee CTO Jacky Chan 於 AWS Dev Day 2024 與開發者分享 Votee 如何利用Amazon SageMaker HyperPod 及 AWS Tranium 開發廣東話 LLM

廣東話資源稀缺成開發障礙 文化傳承乃開發源動力

據 2023 年統計,廣東話在全世界母語人口共有 8,600 萬人,在2024年更跌出世界排名20 位外,而網絡數據亦以英語較為主流,廣東話則面對數據稀缺的情況。Votee 在訓練大模型的過程中,無論採集或處理數據都面對不少挑戰。在採集數據方面,電影對白、書本等數據都有版權問題,不能隨意採集。收集得來的數據亦需要進行標註、刪除重覆重據等。以訓練大模型認識勞工法例為例,如以廣東話提問如「大肚」的勞工權益,它原本並不能了解廣東話「大肚」乃指懷孕的意思,經廣東話訓練後則可以應付此類問題。

語言乃文化載體,隨著大模型的普及,將來人機互動亦會越見普遍。Votee 認為投資開發廣東話大模型有助廣東話文化傳承。而隨著大模型發展成熟,今年 AI 更開始朝多模態模型發展,亦即不限文字,同時支援處理圖片、語音、影像的大模型。Votee 亦朝此方向發展,並認為多模態更能展現廣東話文化,因很多發音都甚少以文字書寫出來,例如「虢礫緙嘞」(粵音:撠溺卡勒)。

Votee 確信 AI 模型開源比專有更安全 更能通過企業審查把關

最近 AI 大模型掀起熱潮後,有論調認為大模型應以專有

(proprietary) 形式部署。而 Votee 則確信開源模型反而更加安全。尤其有研究發現,一些閉源的大模型如同黑盒一樣,輸入特別指令有機會觸發後門,令其表現有別於正常問題。其不可預測性絕對會令企業卻步。相反,如能公開大模型,企業則對其作答表現更加可控,更能通過公司合規要求,最終落地使用。

遠赴美國拉斯維加斯 AWS re:Invent 做深入技術分享

Votee AI CTO Jacky Chan亦是 AWS Community Builder, 在 2024 年十二月於美國拉斯維加斯的 AWS re:Invent 中深入分享使用 Amazon SageMaker HyperPod 和 AWS Trainium 為資源稀缺語言(Low-resource language)訓練大型語言模型的過程,與開發者交流討論訓練此類大型語言模型的關鍵組成部分,包括資料準備、模型架構、超參數調整和評估技術,">詳情可在此重溫。

• 不想錯過新科技 ? 請 Follow unwire.hk FB 專頁http://facebook.com/unwirehk/
• 要入手生活科技潮物 即上 unwire store
https://store.unwire.hk/

iPhone 18 Pro 系列蓄勢待發 傳聞將帶來 12 項新特點

流動日報

蘋果新 Studio Display 或 Pro Display XDR 現身監管資料庫

流動日報

系列最新作「惡靈古堡 安魂曲」大量新情報公開!怏將2月27日發售

Saiga NAK
查看更多
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...