請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

NVIDIA 推出全新生成式 AI 模型「Fugatto」,輸入文字和音訊即可創造音樂、語音、聲音的任意組合

TechOrange 科技報橘

更新於 11月26日11:41 • 發布於 11月26日03:41 • 產業動態
NVIDIA 推出全新生成式 AI 模型「Fugatto」,輸入文字和音訊即可創造音樂、語音、聲音的任意組合

NVIDIA 生成式人工智慧(AI)研究人員打造一把聲音的瑞士刀,讓使用者只要使用文字就能控制音訊輸出。雖然某些 AI 模型可以用於作曲或修改聲音,但都沒有像這款新產品在使用上如此靈活。

這款產品被稱作 Fugatto,為 Foundational Generative Audio Transformer Opus 1 的縮寫,可以使用文字與音訊檔案的任何組合,產生或轉換提示描述的音樂、語音與聲音任意組合。例如,它可以根據文字提示創作音樂片段、從現有歌曲中增減樂器、改變聲音的口音或情感,甚至讓人們發出從未聽過的聲音。

曾多次拿下白金唱片的製作人兼詞曲創作者 Ido Zmishlany 表示:「這個技術太瘋狂了。聲音是我的靈感來源。是它打動我創作音樂。我可以在錄音室裡即時創作出全新聲音,這實在讓人感到不可思議。」Zmishlany 同時也是 One Take Audio 的共同創辦人,而 One Take Audio 為針對尖端新創公司成立的 NVIDIA Inception 計畫一員。

Fugatto 深刻理解聲音

NVIDIA 應用音訊研究部門經理 Rafael Valle 指出:「我們希望創造一個能夠像人類一樣理解和生成聲音的模型。」Valle 是 Fugatto 數十位幕後推手之一,同時也是一位管弦樂指揮家與作曲家。

Fugatto 支援多種音訊產生與轉換任務,是第一個能展現突現性質(emergent property)的基礎生成式 AI 模型,也就是由各種經過訓練的能力進行互動所產生的能力,以及結合自由形式指令的能力。Valle 表示:「Fugatto 是我們邁向未來的第一步,未來,音訊合成與轉換的無監督多任務學習將從資料與模型規模中浮現。」

在音樂、廣告、教育、電玩遊戲領域開創應用場景

音樂製作人可以使用 Fugatto 快速製作聲音的原型或編輯歌曲的構想,嘗試各種風格、聲音和樂器。他們也能夠加入效果並提升現有曲目的整體音訊品質。Zmishlany 表示:「音樂史也是一部科技史。電吉他為這個世界帶來了搖滾樂。當採樣器出現時,嘻哈音樂便誕生了。借助 AI,我們正在譜寫音樂的下一個篇章。我們有了一種新的樂器、一種製作音樂的新工具,這實在是太讓人期待了。」

廣告公司可以運用 Fugatto 快速針對多個地區或情境的現有廣告內容,對配音套用不同的口音和情感;語言學習工具可以變得個人化,可使用說話者選擇的任何聲音,想像一下,線上課程將以任何一個家人或朋友的聲音所講授;電玩遊戲開發人員可以使用這個模型來修改遊戲裡預先錄好的資產,以配合玩家在玩遊戲時不斷變化的動作,又或是他們可以根據文字指令及可選用的音訊輸入方式,即時動態創造出新的資產。

Fugatto 能夠生成喇叭、薩克斯風聲音

Valle 表示:「酪梨椅(avocado chair)是我們特別引以為傲的模型功能之一。」Valle 這裡指的是一種由生成式 AI 模型所創造出的新穎視覺成像技術。

例如 Fugatto 可以做出喇叭或是薩克斯風的聲音。不管使用者描述什麼,模型就能創造出什麼。只要經過微調和少量的歌唱資料,研究人員發現它可以處理未經過預先訓練的任務,例如從文字提示產生高品質的歌聲。

使用者可以進行藝術性控制

Fugatto 的新奇之處還包括幾項功能。模型在推論的時候,會使用一種稱為 ComposableART 的技術,將只在訓練期間單獨出現的指令組合起來。舉例來說,提示的組合可以要求用法國口音說出帶有傷感情懷的文字。此模型在指令之間進行插值的能力,讓使用者可以極細微地控制文字指令,在這個例子中即是可以控制口音的輕重或悲傷的程度。

設計該模型這些方面的 AI 研究員 Rohan Badlani 表示:「我想讓使用者以主觀或藝術的方式結合屬性,選擇他們對每個屬性的重視程度。」擁有史丹佛大學電腦科學碩士學位且主攻 AI 的 Badlani 指出:「在我的測試中,結果時常令人驚訝,讓我覺得自己有點像是個藝術家,儘管我是一名電腦科學家。」

這個模型還能產生隨時間變化的聲音,Badlani 將這項功能稱為時間插值(temporal interpolation)。譬如它可以產生出暴風雨經過某個區域時的聲音,而漸強的雷聲則慢慢消失在遠方。它還能讓使用者精細控制聲景的演變方式。此外,與大多數模型只能重現所接觸過的訓練資料不同,Fugatto 能讓使用者創作出從未見過的聲景,例如雷雨伴隨著鳥鳴聲緩緩進入黎明。

Fugatto 開發團隊通力合作,讓生成多種口音及語言的功能更強大

Fugatto 是一個基礎的生成式轉換器模型,建立在團隊先前在語音建模音訊聲碼處理音訊理解等領域的工作基礎上。完整版本使用 25 億個參數,在搭載 32 個 NVIDIA H100 Tensor 核心 GPUNVIDIA DGX 系統上進行訓練。

Fugatto 的開發團隊由來自印度、巴西、中國、約旦和韓國等全球各地的不同人士所組成。他們的通力合作使得 Fugatto 生成多種口音及語言的能力變得更加強大。最困難的部分是產生一個混合資料集,其中包含數百萬個用於訓練的音訊樣本。該團隊採用多方面的策略來產生資料和指令,顯著擴大模型可以執行的任務範圍,同時實現更加精確的執行表現,並在無需額外資料的情況下完成新的任務。他們還仔細研究現有的資料集,以揭示資料之間新的關係。整個工作歷時超過一年。

Valle 記得有兩個時刻,團隊知道自己做出了一些成果。他表示:「第一次按照提示產生音樂時,突破了我們所有人的想像。」隨後,團隊示範 Fugatto 回應一個提示,創造出狗隨著節拍吠叫的電子音樂,「當團隊哄堂大笑時,我的心真的暖暖的。」

深入探索 Fugatto:https://youtu.be/qj1Sp8He6e4

(本文訊息由 NVIDIA 提供,內文與標題經 TechOrange 修訂後刊登。新聞稿 / 產品訊息提供,可寄至:pr@fusionmedium.com,經編輯檯審核並評估合宜性後再行刊登。首圖來源:NVIDIA。)

加入『 TechOrange 官方 LINE 好友』 掌握最新科技資訊!

0 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0

留言 0

沒有留言。