科技

本地科企 Votee AI 採 AWS 平台開發廣東話大模型 冀傳承語言背後豐富文化

Unwire.hk
發布於 1天前

Gen AI 大模型由去年開始成為科技界熱話。由去年以主力處理英文的大模型,到今年陸續有不同廠商開發書寫中文以至廣東話大模型。

於香港成立 10 載的科企 Votee AI (下稱 Votee) 曾為金融業及不同上市公司服務,累積豐富 AI 案例項目經驗,從網絡採集過不少廣東話語料。建立大模型需要大量數據,同時需要大量 GPU 資源。Votee 與 AWS 因此一拍即合,由 Votee 處理數據及訓練,採用 AWS 雲端平台開發廣東話大模型,冀能保留及傳承香港文化。

廣告(請繼續閱讀本文)

看準 AWS 平台技術領先 實現無縫「上雲」開發 AI 模型

自 2023 年開始,Votee 已收到不少客戶希望採用 AI 大模型。他們亦開始接觸 AWS 專家並了解有何雲端服務能滿足開發所需。Votee 在開發期間利用了 AWS Trainium 機器學習晶片,而去年底 AWS 推出了託管式服務 SageMaker Hyperpod,讓客戶一鍵建立集群 (cluster),合併大量 AI 晶片資源。這項服務完全符合 Votee 的要求,加上開發環境採用 slurm,與 Votee 原本使用的開發環境相同,完全無需花額外時間進行代碼遷移,無縫「上雲」開發 AI 模型。
開發大模型更需要高性能運算檔案系統,用以在不同階段高效儲存檔案。而 AWS 的 FSx for Lustre 亦滿足到 Votee 的需要,令他們開發過程順利無阻。

廣告(請繼續閱讀本文)

Votee CTO Jacky Chan 於 AWS Dev Day 2024 與開發者分享 Votee 如何利用Amazon SageMaker HyperPod 及 AWS Tranium 開發廣東話 LLM

廣東話資源稀缺成開發障礙 文化傳承乃開發源動力

據 2023 年統計,廣東話在全世界母語人口共有 8,600 萬人,在2024年更跌出世界排名20 位外,而網絡數據亦以英語較為主流,廣東話則面對數據稀缺的情況。Votee 在訓練大模型的過程中,無論採集或處理數據都面對不少挑戰。在採集數據方面,電影對白、書本等數據都有版權問題,不能隨意採集。收集得來的數據亦需要進行標註、刪除重覆重據等。以訓練大模型認識勞工法例為例,如以廣東話提問如「大肚」的勞工權益,它原本並不能了解廣東話「大肚」乃指懷孕的意思,經廣東話訓練後則可以應付此類問題。

廣告(請繼續閱讀本文)

語言乃文化載體,隨著大模型的普及,將來人機互動亦會越見普遍。Votee 認為投資開發廣東話大模型有助廣東話文化傳承。而隨著大模型發展成熟,今年 AI 更開始朝多模態模型發展,亦即不限文字,同時支援處理圖片、語音、影像的大模型。Votee 亦朝此方向發展,並認為多模態更能展現廣東話文化,因很多發音都甚少以文字書寫出來,例如「虢礫緙嘞」(粵音:撠溺卡勒)。

Votee 確信 AI 模型開源比專有更安全 更能通過企業審查把關

最近 AI 大模型掀起熱潮後,有論調認為大模型應以專有

(proprietary) 形式部署。而 Votee 則確信開源模型反而更加安全。尤其有研究發現,一些閉源的大模型如同黑盒一樣,輸入特別指令有機會觸發後門,令其表現有別於正常問題。其不可預測性絕對會令企業卻步。相反,如能公開大模型,企業則對其作答表現更加可控,更能通過公司合規要求,最終落地使用。

遠赴美國拉斯維加斯 AWS re:Invent 做深入技術分享

Votee AI CTO Jacky Chan亦是 AWS Community Builder, 在 2024 年十二月於美國拉斯維加斯的 AWS re:Invent 中深入分享使用 Amazon SageMaker HyperPod 和 AWS Trainium 為資源稀缺語言(Low-resource language)訓練大型語言模型的過程,與開發者交流討論訓練此類大型語言模型的關鍵組成部分,包括資料準備、模型架構、超參數調整和評估技術,">詳情可在此重溫。

• 不想錯過新科技 ? 請 Follow unwire.hk FB 專頁http://facebook.com/unwirehk/
• 要入手生活科技潮物 即上 unwire store
https://store.unwire.hk/

更多 科技 相關文章

DJI Flip 試飛 Neo強化版 + LiDAR避障
Unwire.hk
【評測】DJI Flip vs DJI Neo 詳細分析 8 大重點
Unwire.hk
朱克伯格:Apple產品長期欠缺創新 「20 年後仍在吃喬布斯老本」
Unwire.hk
馬斯克出動特斯拉Cybertruck救災 加州大火災區獲星鏈支持
VOCO News
ChatGPT 新增「任務」功能 讓 AI 幫你管理日常提醒
流動日報
Nokia 品牌 Smartphone 再次終結 僅餘下功能手機
流動日報
善用 iOS18 家長監控功能 防小朋友沉迷打機、交損友、亂課金下載
Unwire.hk
美國收緊 AI 晶片出口規定 NVIDIA 警告影響技術領導地位
Unwire.hk
Adobe AI 工具效能再提升 可以一次過處理大批圖片
Unwire.hk
Xiaomi 推 165W 總輸出行動電源!$249 帶線雙埠供電,彩芒顯示剩餘電量
Mobile Magazine
Sonos 總裁辭職 去年 App 更新成為公關災難
Unwire.hk
2025 年 AI 八大趨勢預測 代理式 AI、無限記憶、人機協作將成主流,Amazon Nova 引領技術革新
Unwire.hk
iPhone USB-C 控制器被破解 或加快越獄工具出現
流動日報
「快打旋風6」Year 2第三彈追加角色「不知火舞」確定於2月5日參戰!遊戲預告片正式公開
Saiga NAK
宣佈不再推出 NOKIA 智能手機 HMD 將專注自家品牌發展
Unwire.hk
獎金超過 3 億日圓的「Apex Legends」世界錦標賽「ALGS Championship」將在北海道・札幌舉辦為亞洲首次!1月29日起
Saiga NAK
傳中方考慮出售 TikTok 美國業務給 Elon Musk 引發熱議
流動日報
TikTok 下架前夕 小紅書成為美國 App Store 下載榜冠軍
流動日報
美不賣就禁令將生效 「TikTok難民」轉戰小紅書
VOCO News
小米年貨節手機家電大減價 買滿$1000送$1000、特價加購及每日秒殺等優惠
am730
WhatsApp 測試全新設計 AI 聊天機械人將獲獨立介面
Unwire.hk
room6 與ヨカゼ(YOKAZE)將參加台北國際電玩展2025!繁體中文版《Rogue with the Dead -亡途轉生》確定製作!
Saiga NAK
完全新作PvPvE射擊遊戲「奇異賢伴 愛達之歌」公開最新劇情預告影片!並公開直播節目的紀錄檔影片
Saiga NAK
Google 與 Linux 基金會合作 推動 Chromium 瀏覽器生態維護計劃
Unwire.hk
【教學】不想在 Mac 顯示 iPhone 通知? 兩個簡單設定方法保障私隱 + 增強專注力
Unwire.hk
OPPO 新摺機二月發佈 劉作虎:全球最薄摺疊旗艦!
Unwire.hk
「大金剛」首次一番抽籤1月17日發售!部分羅森便利店舉辦特別裝飾活動!還贈送原創貼圖!
Saiga NAK
香港頂尖企業 AI 轉型實錄 拆解贏家兵法
Unwire.hk
Vision Pro 2 最快要 2026 推出 低價版正在加速開發
流動日報
PyCon HK 2024 以 Python 編寫合作交流 AWS 大力支持技術社群發展
Unwire.hk
兩千頭玩夜視鏡5G三防, Armor X31 Pro 實試!
Mobile Magazine