[XF 新聞] NVIDIA 推出 Fugatto AI 模型　從文字生成音頻的創新突破

- 辛尼 - 2024-11-26

NVIDIA 最近宣布推出了一款全新的生成式 AI 模型 Fugatto（Foundational Generative Audio Transformer Opus 1），這款模型被稱作「音頻界的瑞士軍刀」。Fugatto 能夠根據文字提示生成音頻，甚至可以修改現有的音樂、語音或聲音檔案。這款模型由來自全球的 AI 研究團隊開發，其多語言及多口音能力尤為強大。

NVIDIA 的應用音頻研究經理 Rafael Valle 表示，該項目旨在設計一個能像人類一樣理解和生成聲音的模型。Fugatto 的潛在應用場景十分廣泛，例如音樂製作人可以利用該技術快速為歌曲創意生成原型，並輕鬆嘗試不同的風格、聲音和樂器。此外，語言學習工具也可採用 Fugatto 生成特定聲音的語音素材，而遊戲開發者則能根據玩家的選擇和行動，創建適配遊戲變化的音效變體。

Fugatto 的功能甚至超越了其預訓練任務。經過微調後，它可以結合不同的指令，例如生成具有特定口音的憤怒語音，或模擬雷雨聲中鳥類歌唱的場景。該模型還能生成隨時間變化的聲音，如模擬雨勢逐漸移動的音效，進一步提升了其靈活性與創造力。

儘管 NVIDIA 尚未透露是否會向公眾開放 Fugatto，但這並不是第一款能根據文字生成聲音的生成式 AI 技術。Meta 此前曾推出一套開源 AI 工具，能根據文字描述生成聲音，而 Google 也擁有名為 MusicLM 的文字轉音樂 AI，並提供給用戶通過其 AI Test Kitchen 網站試用。

Fugatto Nvidia XF 新聞

[XF 新聞] NVIDIA 推出 Fugatto AI 模型 從文字生成音頻的創新突破

最新文章

[XF 新聞] NVIDIA 推出 Fugatto AI 模型　從文字生成音頻的創新突破