NVIDIA 推出全新生成式 AI 模型「Fugatto」，輸入文字和音訊即可創造音樂、語音、聲音的任意組合

NVIDIA 生成式人工智慧（AI）研究人員打造一把聲音的瑞士刀，讓使用者只要使用文字就能控制音訊輸出。雖然某些 AI 模型可以用於作曲或修改聲音，但都沒有像這款新產品在使用上如此靈活。

這款產品被稱作 Fugatto，為 Foundational Generative Audio Transformer Opus 1 的縮寫，可以使用文字與音訊檔案的任何組合，產生或轉換提示描述的音樂、語音與聲音任意組合。例如，它可以根據文字提示創作音樂片段、從現有歌曲中增減樂器、改變聲音的口音或情感，甚至讓人們發出從未聽過的聲音。

曾多次拿下白金唱片的製作人兼詞曲創作者 Ido Zmishlany 表示：「這個技術太瘋狂了。聲音是我的靈感來源。是它打動我創作音樂。我可以在錄音室裡即時創作出全新聲音，這實在讓人感到不可思議。」Zmishlany 同時也是 One Take Audio 的共同創辦人，而 One Take Audio 為針對尖端新創公司成立的 NVIDIA Inception 計畫一員。

Fugatto 深刻理解聲音

NVIDIA 應用音訊研究部門經理 Rafael Valle 指出：「我們希望創造一個能夠像人類一樣理解和生成聲音的模型。」Valle 是 Fugatto 數十位幕後推手之一，同時也是一位管弦樂指揮家與作曲家。

Fugatto 支援多種音訊產生與轉換任務，是第一個能展現突現性質（emergent property）的基礎生成式 AI 模型，也就是由各種經過訓練的能力進行互動所產生的能力，以及結合自由形式指令的能力。Valle 表示：「Fugatto 是我們邁向未來的第一步，未來，音訊合成與轉換的無監督多任務學習將從資料與模型規模中浮現。」

在音樂、廣告、教育、電玩遊戲領域開創應用場景

音樂製作人可以使用 Fugatto 快速製作聲音的原型或編輯歌曲的構想，嘗試各種風格、聲音和樂器。他們也能夠加入效果並提升現有曲目的整體音訊品質。Zmishlany 表示：「音樂史也是一部科技史。電吉他為這個世界帶來了搖滾樂。當採樣器出現時，嘻哈音樂便誕生了。借助 AI，我們正在譜寫音樂的下一個篇章。我們有了一種新的樂器、一種製作音樂的新工具，這實在是太讓人期待了。」

廣告公司可以運用 Fugatto 快速針對多個地區或情境的現有廣告內容，對配音套用不同的口音和情感；語言學習工具可以變得個人化，可使用說話者選擇的任何聲音，想像一下，線上課程將以任何一個家人或朋友的聲音所講授；電玩遊戲開發人員可以使用這個模型來修改遊戲裡預先錄好的資產，以配合玩家在玩遊戲時不斷變化的動作，又或是他們可以根據文字指令及可選用的音訊輸入方式，即時動態創造出新的資產。

Fugatto 能夠生成喇叭、薩克斯風聲音

Valle 表示：「酪梨椅（avocado chair）是我們特別引以為傲的模型功能之一。」Valle 這裡指的是一種由生成式 AI 模型所創造出的新穎視覺成像技術。

例如 Fugatto 可以做出喇叭或是薩克斯風的聲音。不管使用者描述什麼，模型就能創造出什麼。只要經過微調和少量的歌唱資料，研究人員發現它可以處理未經過預先訓練的任務，例如從文字提示產生高品質的歌聲。

使用者可以進行藝術性控制

Fugatto 的新奇之處還包括幾項功能。模型在推論的時候，會使用一種稱為 ComposableART 的技術，將只在訓練期間單獨出現的指令組合起來。舉例來說，提示的組合可以要求用法國口音說出帶有傷感情懷的文字。此模型在指令之間進行插值的能力，讓使用者可以極細微地控制文字指令，在這個例子中即是可以控制口音的輕重或悲傷的程度。

設計該模型這些方面的 AI 研究員 Rohan Badlani 表示：「我想讓使用者以主觀或藝術的方式結合屬性，選擇他們對每個屬性的重視程度。」擁有史丹佛大學電腦科學碩士學位且主攻 AI 的 Badlani 指出：「在我的測試中，結果時常令人驚訝，讓我覺得自己有點像是個藝術家，儘管我是一名電腦科學家。」

這個模型還能產生隨時間變化的聲音，Badlani 將這項功能稱為時間插值（temporal interpolation）。譬如它可以產生出暴風雨經過某個區域時的聲音，而漸強的雷聲則慢慢消失在遠方。它還能讓使用者精細控制聲景的演變方式。此外，與大多數模型只能重現所接觸過的訓練資料不同，Fugatto 能讓使用者創作出從未見過的聲景，例如雷雨伴隨著鳥鳴聲緩緩進入黎明。

Fugatto 開發團隊通力合作，讓生成多種口音及語言的功能更強大

Fugatto 是一個基礎的生成式轉換器模型，建立在團隊先前在語音建模、音訊聲碼處理及音訊理解等領域的工作基礎上。完整版本使用 25 億個參數，在搭載 32 個 NVIDIA H100 Tensor 核心 GPU 的 NVIDIA DGX 系統上進行訓練。

Fugatto 的開發團隊由來自印度、巴西、中國、約旦和韓國等全球各地的不同人士所組成。他們的通力合作使得 Fugatto 生成多種口音及語言的能力變得更加強大。最困難的部分是產生一個混合資料集，其中包含數百萬個用於訓練的音訊樣本。該團隊採用多方面的策略來產生資料和指令，顯著擴大模型可以執行的任務範圍，同時實現更加精確的執行表現，並在無需額外資料的情況下完成新的任務。他們還仔細研究現有的資料集，以揭示資料之間新的關係。整個工作歷時超過一年。

Valle 記得有兩個時刻，團隊知道自己做出了一些成果。他表示：「第一次按照提示產生音樂時，突破了我們所有人的想像。」隨後，團隊示範 Fugatto 回應一個提示，創造出狗隨著節拍吠叫的電子音樂，「當團隊哄堂大笑時，我的心真的暖暖的。」

深入探索 Fugatto：https://youtu.be/qj1Sp8He6e4

（本文訊息由 NVIDIA 提供，內文與標題經 TechOrange 修訂後刊登。新聞稿 / 產品訊息提供，可寄至：pr@fusionmedium.com，經編輯檯審核並評估合宜性後再行刊登。首圖來源：NVIDIA。）

加入『 TechOrange 官方 LINE 好友』掌握最新科技資訊！

請更新您的瀏覽器

理財

TechOrange 科技報橘

Fugatto 深刻理解聲音

在音樂、廣告、教育、電玩遊戲領域開創應用場景

Fugatto 能夠生成喇叭、薩克斯風聲音

使用者可以進行藝術性控制

Fugatto 開發團隊通力合作，讓生成多種口音及語言的功能更強大