OpenAI於13日舉行線上發表會,推出新型人工智慧(AI)模型「GPT-4o」,能進行語言、文本和視覺推理,該模型不僅更聰明、更易於使用,且能評估使用者情緒,意味著其將更加像是真人。
OpenAI發表會於13日登場,由該公司技術總監穆拉蒂(Mira Murati)主持,揭曉了三項ChatGPT的更新,其一是一般用戶將可以免費造訪GPT Store,另外是推出適用於Mac電腦的桌機版App以及新模型「GPT-4o」。
其中尤以GPT-4o最為受到矚目,GPT-4o為GPT-4的進階版本,改進了GPT-4的能力,可透過文字、圖像、音訊的任意輸入組合來進行推理,並將即時生成文字、圖像、音訊的組合輸出內容,大大地改善了使用者體驗,讓對話更像與真人交談。
OpenAI執行長奧特曼(Sam Altman)更發文表示,與電腦交談從來沒有真正自然過,現在卻可以了。
穆拉蒂在演示時指出,相比於GPT-4 Turbo,GPT-4o的速度快了兩倍、成本降低了50%,而API速率限制、即用戶可發出的請求數量則提高了五倍。此外, GPT-4o最快可在232毫秒的時間內回應音訊輸入,而其平均反應時間也僅有320毫秒,與人類在對話中的反應時間相似。
在先前的GPT-3.5和GPT-4模型中,OpenAI使用三個獨立的模型實現對話,包含一個將音訊轉換為文字的模型、一個接收並輸出文字的模型,最後則是一個將文字轉換回音訊的模型,上述過程會使GPT失去大量訊息,因而無法直接觀察音調、多個說話者或背景噪音,亦無法輸出笑聲、歌唱或表達情感。
該公司在GPT-4o模型對此進行了調整,其所有輸入和輸出都由同一神經網路處理,因此延遲時間縮短,且能夠以自然、聽起來像人類的聲音進行對話,也能模仿機器人說話,甚至還能高歌一曲。
值得一提的是,新模型能依指令改變語調,擬人講睡前床邊故事,或以歌唱方式說故事。此外,該模型更可「聽聲翻譯」,穆拉蒂與Mark Chen分別以義大利文和英文交談,最後新模型成功將內容翻譯成更自語言,OpenAI團隊也展示新模型解決數學方程式、輔助編寫程式碼的能力。
OpenAI稱,GPT-4o為該公司第一個結合所有模式的版本,目前仍只在淺嚐並探索該模型的功能及局限性。
穆拉蒂在活動上宣布,GPT-4o模型將開放所有用戶免費使用,自今日起支援ChatGPT,一般用戶可免費使用,並針對付費用戶提供5倍的容量上限。未來幾周將會為ChatGPT Plus的用戶推出具新版語音模式的GPT-4o alpha版。
OpenAI本次發表會的另外一項更新是宣布增添桌面版ChatGPT App,將優先適用於Mac電腦,至於Windows電腦的版本則會於今年稍晚推出。此外,GPT Store將改為向一般用戶開放,不再僅限於付費用戶。
對於GPT-4o模型的問世,穆拉蒂除了感謝OpenAI專業團隊之外,更點名黃仁勳及輝達團隊提供的先進GPU,使GPT-4o模型演示成真。
OpenAI推新模型「GPT-4o」 可理解圖文語音、解決數學題目
在生成式AI競爭白熱化之際,美國人工智慧公司OpenAI在13日推出新的人工智慧模型「GPT-4o」和ChatGPT桌機版的App。GPT-4o除了可讓使用者輸入文字、圖像、音訊等資訊後即時產生文字字,它還能與使用者進行即時互動與判讀使用者當下情緒。
OpenAI解釋,GPT-4o中的「o」源自「Omnimodel」(全能模型)的首個字母,意味將能應對各種應用互動,它能接受文字、聲音和圖像3種格式及任何組合的輸入,令人驚艷的是GPT-4O,能在232亳鈔之內,回應輸入的語音資料,反應時間之快,已經很接近,真實生活中人與人的對話。
在展示過程中,新模型讓使用者在與ChatGPT對話時,能毫無延遲獲得即時回答,此外新增的語音助理能力,讓使用者能透過視覺及語音與ChatGPT進行對話,甚至能協助解答寫在紙上的數學問題。
研究人員還展現新模型的即時語言翻譯能力,比如測試人員分別以義大利文和英文說話,隨後新模型就把雙方交談的內容翻譯成各自的語言。
OpenAI科技長穆拉提(Mira Murati)表示,這次更新將把GPT-4o帶給所有人包括免費用戶,不過GPT-4o的付費用戶能獲得更大容量。
(工商時報 蕭麗君)