記者/Linus
NVIDIA研究團隊公布一項針對聲音的生成式AI,稱為Fugatto,為Foundational Generative Audio Transformer Opus 1的縮寫,能夠輸入文字或音訊檔案並進行組合,藉此產生或轉換提示所敘述的音樂、語音與聲音的組合,比起現行用於作曲或修改聲音的音訊AI更為靈活,如可依據文字題式創作音樂片段、自既有音樂增減樂器、改變聲音的曲調或情感,或創作出未曾聽過的聲音,表示能將一首帶有感傷的音樂轉化為輕快的風格。
Fugatto具體能做些甚麼?取得白金唱片的製作人暨詞曲創作者Ido Zmishalany、同時也是NVIDIA Inception計畫的新創公司One Take Audio共同創辦人指出,音樂製作人能夠利用Fugatto快速產生聲音的原型或編輯歌曲的構想,並嘗試各種風格、聲音與樂器,或是添加效果改變既有樂曲,並表示音樂史也同樣是科技史,如電吉他帶來搖滾樂,採樣器則催生嘻哈,AI也將再次為音樂提供全新的樂器與製作工具。
對於廣告公司而言,Fugatto可將作為廣告的基礎音樂針對不同地區或情境的廣告內容,套用不同的口音與情感;對於遊戲開發者,則可利用Fugatto更改遊戲預錄的資產,配合玩家在遊戲中不同的操作,或是以既有資產創作全新的資產;Fugatto也可用於語言學習工具,如將線上課程轉化為明星的口音與語調。
Fugatto專案幕後推手之一的NVIDIA應用音訊研究部門經理Rafael Valle本身也是管弦樂指揮家與作曲家,Fugatto的目的是希望創作與人類一樣理解與產生音樂的模型,透過支援多種音訊的產生與轉換任務,是全球第一個能展現突現性質(emergent property)的基礎生成式AI模型,可藉由各種訓練能力進行互動並結合自由行式指令的能力,Fugatto未來的目標音訊合成與轉換的無監督多任務學習將自資料與模型中浮現。
圖片取自:NVIDIA官網
Rafael Valle表示,Fugatto當中的「acocado Chair(酪梨椅)」是開發團隊相當自豪的模型功能,是一項透過生成式AI創造出新穎式覺得成像技術,如Fugatto可做出類似喇叭或薩克斯風的聲音,只要使用者進行描述,酪梨椅就能製作出甚麼,且僅需經過微調與少量歌唱資料,就可處理未經預先訓練的任務,如自文字敘述產生高品質的歌聲。
此外,Fugatto還具備多項新穎的功能,可使操作者進行藝術性的控制;例如Fugatto可在推論時使用稱為CompossableART技術,將只在訓練期間單獨出現的指令組合,例如可要求使用法國口吻說出帶有傷感情懷的文字;此模型於指令之間進行插值,允許使用者極細微控制指令。此外還能產生依據時間變化的聲音,例如可產生暴風雨經過某個區域時雷聲遠去的漸弱現象,或是創作出雷雨伴隨鳥鳴進入雨後的黎明
Fugatto是一個基礎的生成式轉換器模型,團隊先在語音建模、音訊聲碼處理、音訊理解等工作為基礎,當前的完整版本為25億個參數,並於具備32個NVIDIA H100 Tensor Core的NVIDIA DGX系統進行訓練,開發團隊來自印度、巴西、中國、約旦與韓國,協力使Fugatto可產生多種口音與語言能力。Fugatto開發過程最大的難題是產生一個具備百萬個音訊樣本在內的混合資料集,透過多元策略產生資料與指令,使模型可執行範圍擴大並實現精確的執行表現。
(資料來源:電子商務時報)
【本訊息文字圖片未經原提供單位許可,不得任意轉載及連結,如有需求,請洽原資料提供單位。】