英偉達(dá)發(fā)布全新 AI 音頻模型 Fugatto
編譯/前方智能
英偉達(dá)近日推出了一款名為 Fugatto(全稱為 Foundational Generative Audio Transformer Opus 1)的 AI 音頻模型。這款模型不僅能通過文字提示生成音樂和音效,還能對現(xiàn)有音頻進(jìn)行修改和轉(zhuǎn)換,創(chuàng)造出前所未有的聲音組合。
圖源:英偉達(dá)
據(jù)英偉達(dá)介紹,F(xiàn)ugatto 具備多項(xiàng)獨(dú)特功能,比如可以將鋼琴演奏的音樂轉(zhuǎn)換為人聲演唱,能夠調(diào)整語音的口音和情緒,甚至可以創(chuàng)造出"尖叫的薩克斯"或"犬吠般的小號聲"等超現(xiàn)實(shí)音效。該模型采用了創(chuàng)新的 ComposableART 技術(shù),能夠?qū)⒂?xùn)練過程中分別出現(xiàn)的音頻特征進(jìn)行組合,從而產(chǎn)生全新的聲音效果。
在技術(shù)層面,研究團(tuán)隊(duì)使用了來自全球多個(gè)開源數(shù)據(jù)集的約 2000 萬個(gè)音頻樣本進(jìn)行訓(xùn)練,形成了一個(gè)擁有 25 億參數(shù)的大規(guī)模模型。該項(xiàng)目由來自印度、巴西、中國、約旦和韓國等多個(gè)國家的研究人員共同開發(fā),這種多元化的團(tuán)隊(duì)構(gòu)成也使得模型在處理多語言和多重口音方面表現(xiàn)出色。
英偉達(dá)應(yīng)用深度學(xué)習(xí)研究副總裁 Bryan Catanzaro 表示,生成式 AI 技術(shù)將為音樂、游戲和普通創(chuàng)作者帶來全新的創(chuàng)作可能性。不過,考慮到生成式技術(shù)可能帶來的潛在風(fēng)險(xiǎn),英偉達(dá)目前尚未計(jì)劃對外發(fā)布這項(xiàng)技術(shù)。
原文標(biāo)題 : 英偉達(dá)發(fā)布全新 AI 音頻模型 Fugatto

發(fā)表評論
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
最新活動(dòng)更多
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身智能機(jī)器人產(chǎn)業(yè)技術(shù)創(chuàng)新應(yīng)用論壇
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
-
8月5日立即報(bào)名>> 【在線會(huì)議】CAE優(yōu)化設(shè)計(jì):醫(yī)療器械設(shè)計(jì)的應(yīng)用案例與方案解析
推薦專題