以開放精神引領 AI 技術突破 Meta FAIR 基礎 AI 研究團隊成立十週年

長期以來，Meta 秉持開放且負責的態度，持續推動 AI 技術的發展，分享各類論文、程式碼、模型等內容。今日，Meta 歡慶其基礎 AI 研究團隊（FAIR）成立十週年，並公布於 AI 領域的最新突破，包含兼具第一人稱及外部視角的 AI 模型 Ego-Exo4D、語音生成模型 Audiobox，以及翻譯模型 Seamless Communication。

廣告（請繼續閱讀本文）

過去十年中，Meta 於各類 AI 領域取得重大進展：研發出可辨識圖像中個別單一物體的 Segment Anything 技術、建立在不仰賴英文的前提下翻譯 100 種語言的 NLLB （No Language Left Behind 絕不拋下任何語言）模型，且近期將「文字轉語音」及「語音轉文字」技術擴展至逾1,000 種語言、發布開放且可預先訓練的大型語言模型 Llama 後，接著推出可供免費用於研究與商用的 Llama 2 ，以及在 Connect 大會上，介紹已開放給數百萬大眾使用的全新 AI 產品與體驗。以下將分享 Meta 基礎 AI 研究團隊的最新進展：

l 賦予 AI 第一人稱與外部的雙重視角

為教導 AI 模擬以人類的視角辨識事物，Meta 改良 Ego-Exo 技術，研發出可同時捕捉穿戴者第一人稱（以主角為自我中心）視角，及穿戴者四周的外部（旁觀的、非以主角為自我中心的）視角的 Ego-Exo4D 技術，在兩個視角的結合下，AI 模型能透過更完整的環境資訊，充分理解人類的所見所聞。未來，這項 AI 創新技術可結合智慧眼鏡，讓虛擬 AI 教練透過教學影片，引導觀看者快速學習新技能，像是觀看技術人員修理機器的操作過程，並將指導步驟與自身動作進行比對。

廣告（請繼續閱讀本文）

l Audiobox 助力生成語音及音效

年初，Meta 發布生成式 AI 模型 Voicebox，協助語音編輯、樣本採集及語音風格塑造，而更新版的 Audiobox 進一步升級生成式 AI 技術，使用者可藉由語音指令或文字說明描述欲生成的聲音或語音類型，例如：利用文字「潺潺的溪水與鳥鳴」即可建立配樂、以口頭描述「一名年輕女性以高音及快速的語調說話」來產出語音，讓客製化音訊的打造更加輕鬆。

l 解鎖無隔閡語言翻譯

以SeamlessM4T 技術為基礎，新推出的翻譯模型 Seamless Communication 在跨語言表現上更忠實地呈現原意，並能達到同步翻譯的效果。既有的翻譯服務往往難以捕捉協助人們傳達目的與情緒的重要訊號，如語調、停頓與抑揚頓挫等，SeamlessExpressive 是第一個開放且可生動地跨語言溝通的系統，模型將保留講者的情緒與風格，並分析說話速度及節奏，目前支援英文、西班牙文、德文、法文、義大利文及中文；不同於傳統的逐句翻譯，SeamlessStreaming 功能則可更即時、高效地翻譯，在講者說話時即時翻譯，使資訊傳達更有效率。

Meta 具備獨特的優勢以迎擊 AI 領域的艱鉅挑戰，透過在軟硬體與基礎設施架構上投注的大量心力，並從中擷取研究知識應用於產品中，以造福數十億人類。基礎 AI 研究團隊（FAIR）是 Meta 成功的關鍵，也是世上少數具備所有突破性成功要素的團隊，集結業界一流人才、擁有開放式文化，更重要的是具備探索性研究的自由，使他們能以靈活的姿態，為構建社會連結的未來貢獻心力。

負責任的 AI 研究

Meta 非常重視負責任地研究 AI 及開放性，在同業的嚴格審視下發表考量周全的應用，有助於 Meta 更卓越地發展，在創新技術上贏得信賴，並與廣泛的社群合作，從而加速科技進展及吸引更多元的協作者。欲深入瞭解 Meta 如何負責任地進行 AI 研究，請點擊連結。

這篇文章以開放精神引領 AI 技術突破 Meta FAIR 基礎 AI 研究團隊成立十週年最早出現於電腦DIY。

更多科技相關文章

查看更多電腦DIY 的文章

以開放精神引領 AI 技術突破 Meta FAIR 基礎 AI 研究團隊成立十週年

更多 科技 相關文章

查看更多 電腦DIY 的文章

更多科技相關文章

查看更多電腦DIY 的文章