當 OpenAI 於上週推出了一款名為 Sora 的新 AI 模型,能夠根據文字提示生成高解析度的影片片段時,這些影片都還缺少了一個重要元素:聲音。現在,ElevenLabs 帶來了突破性的技術,為 Sora 創建的影片添加了背景音效。
由前谷歌機器學習工程師 Piotr Dabkowski 和前 Palantir 部署策略師 Mati Staniszewski 於 2022 年共同創辦的 AI 語音克隆初創公司 ElevenLabs,已經推出了 AI 驅動的文字轉語音軟體和 AI 配音工具。這些工具不僅能自動將影片中的語音翻譯成 20 多種語言,還能保持原始的聲音調性和風格。
現在,該公司正致力於開發全新的技術,據報導,這項技術可以基於用戶對場景的描述生成相應的音效。這簡直就是一個隨身攜帶的音效團隊,為了展示其威力,ElevenLabs 將其應用於一些由 Sora 生成的內容上。
ElevenLabs 在一篇博客文章中解釋說:「我們使用了像『海浪拍岸』、『金屬碰撞』、『鳥鳴』和『賽車引擎』等文字提示,來生成音頻,然後將其覆蓋在 OpenAI Sora 公布時我們最喜歡的一些影片剪輯上。」
目前,ElevenLabs 即將推出的音效技術的細節尚未披露,但演示影片展示了一些由 Sora 生成的影片剪輯,伴隨著相當逼真的背景聲音,從繁忙街道上的腳步聲和都市的嗡嗡聲,到未來雙足機器人的嘟嘟聲和蜂鳴聲,再到荷里活風格宣傳片中的電影旁白。所有這些都出自文字至音頻提示。
就像 Sora 一樣,無疑在技術成熟的過程中需要解決一些問題,也需要制訂防欺詐和安全協議,但隨著 AI 發展的步伐如此之快,我們或許可以期待在不久的將來,所有最佳獎項將頒給 AI 嗎?前方是既有趣又可能令人恐懼的時代。
資料來源:ATLAS 消息來源:ElevenLabs (X/Twitter)