在人工智能領域持續創新的 OpenAI,於 2024 年 5 月 13 日宣布推出最新旗艦生成模型 GPT-4o。這款新模型不僅在智能層面達到了 GPT-4 的水平,而且在多種媒體和模態上進行了顯著的改進。GPT-4o 的「o」代表「全能(omni)」,意味著這款模型能夠處理文本、語音和視覺信息。
OpenAI 的首席技術官 Mira Murati 在舊金山 OpenAI 辦公室的直播演示中表示,GPT-4o 能夠跨聲音、文本和視覺進行推理,這對於未來我們與機器的互動至關重要。隨著這款模型的迭代式推出,未來幾周將逐步應用於公司的開發者和消費者面向產品中。
GPT-4o 在 OpenAI 的 AI 聊天機器人 ChatGPT 中大幅提升了體驗。平台不僅提供了語音模式,還能夠透過文字轉語音模型轉寫聊天機器人的回答,而 GPT-4o 的加入使得用戶能夠更加類似於與助理互動。例如,用戶可以在 ChatGPT 回答問題時中斷它,並且模型能夠以「即時」回應性提供服務,甚至能捕捉到用戶聲音中的細微差別,以不同的情感風格進行回應。
此外,GPT-4o 還提升了 ChatGPT 的視覺處理能力。無論是照片還是桌面屏幕,ChatGPT 現在都可以迅速回答相關問題,範圍從「這段軟件代碼是怎麼回事?」到「這個人穿的是什麼牌子的衬衫?」等。
未來,這些功能將進一步演化。Murati 表示,雖然今 天GPT-4o 可以查看不同語言的菜單並進行翻譯,未來可能會允許 ChatGPT「觀看」現場體育比賽並向您解釋規則。
GPT-4o 不僅在多語言處理上表現更佳,據 OpenAI 稱,其性能在約 50 種語言中都有所增強。此外,在 OpenAI 的 API 和 Microsoft 的 Azure OpenAI Service 中,GPT-4o 的速度是 GPT-4 Turbo 的兩倍,價格只有一半,並且具有更高的速率限制。
資料來源:techcrunch