NVIDIA 最近宣布推出了一款全新的生成式 AI 模型 Fugatto(Foundational Generative Audio Transformer Opus 1),這款模型被稱作「音頻界的瑞士軍刀」。Fugatto 能夠根據文字提示生成音頻,甚至可以修改現有的音樂、語音或聲音檔案。這款模型由來自全球的 AI 研究團隊開發,其多語言及多口音能力尤為強大。
NVIDIA 的應用音頻研究經理 Rafael Valle 表示,該項目旨在設計一個能像人類一樣理解和生成聲音的模型。Fugatto 的潛在應用場景十分廣泛,例如音樂製作人可以利用該技術快速為歌曲創意生成原型,並輕鬆嘗試不同的風格、聲音和樂器。此外,語言學習工具也可採用 Fugatto 生成特定聲音的語音素材,而遊戲開發者則能根據玩家的選擇和行動,創建適配遊戲變化的音效變體。
Fugatto 的功能甚至超越了其預訓練任務。經過微調後,它可以結合不同的指令,例如生成具有特定口音的憤怒語音,或模擬雷雨聲中鳥類歌唱的場景。該模型還能生成隨時間變化的聲音,如模擬雨勢逐漸移動的音效,進一步提升了其靈活性與創造力。
儘管 NVIDIA 尚未透露是否會向公眾開放 Fugatto,但這並不是第一款能根據文字生成聲音的生成式 AI 技術。Meta 此前曾推出一套開源 AI 工具,能根據文字描述生成聲音,而 Google 也擁有名為 MusicLM 的文字轉音樂 AI,並提供給用戶通過其 AI Test Kitchen 網站試用。