2月15日,一手締造了ChatGPT的OpenAI再放“大招”,發布了其第一個文生視頻大模型Sora。在官方分享的演示視頻中,該模型可以根據用戶輸入的提示詞,生成長達一分鐘連貫穩定的高清視頻。
雖然Sora還未公開應用,但已引發大量關注。原因無他,OpenAI發布的演示視頻一度讓人們無法分辨這是人為攝制的還是人工智能(AI)生成的作品,以至于許多人評價它們“毫無AI感”。
國內外的圈內“大佬”紛紛下場對Sora給出肯定的回應。2月16日,360公司創始人周鴻祎發表千字長文點贊,指出Sora展現的是大模型對真實世界有了理解和模擬之后,會帶來新的成果和突破……這就離AGI(通用人工智能)真的不遠了,不是10年或20年的問題,可能一兩年就可以實現。埃隆·馬斯克則在一條分享Sora生成視頻的帖子下回復:“gg humans(人類完蛋了)。”
媒體紛紛引用這些評價,并將Sora與“世界模型”“通用人工智能”等詞語聯系起來,大有Sora已掃清通往AGI障礙之勢。
筆者翻看了OpenAI發布的Sora生成的48個演示視頻,被其逼真的畫面、富有想象力的場景、多視角的流暢切換等所震撼。相比2023年Runway、Pika等發布的AI視頻,Sora在時長、精細度、真實性等方面均取得了長足進步。
但這就是“世界模型”乃至AGI的終章嗎?筆者認為言之尚早。
首先,盡管Sora能夠生成真假難辨的視頻內容,但這并不能證明AI已經掌握物理規律、理解運動中的物理世界。換言之,Sora的出色僅體現在它作為文生視頻工具的能力方面,并不代表它具備了實現AGI的潛力。
根據OpenAI官網介紹,Sora的成功,在于OpenAI團隊對如何在視頻數據上進行大規模生成模型訓練進行了探索。團隊從大語言模型(LLM)中汲取了靈感——將各種類型的視覺數據轉化為統一的表示方法“patch”(類似于LLM中的token),以便進行大規模生成模型的訓練。
這種工程技術上的進步,使得大模型能夠輸出讓人眼前一亮的結果。但這并不能證明Sora在視覺數據訓練中掌握了人類世界的全部知識,更無法佐證其“煉成”了“世界模型”。
細心的網友肯定發現了Sora演示視頻中一些有違常理的畫面,如動物無緣無故增加或消失、物體反重力上升等,這正符合其作為生成式AI工具“不會對發現知識、生成數據中的錯誤風險負責”的預期。
OpenAI也稱,Sora模型還存在許多不足,比如它無法準確模擬諸如玻璃碎裂、人們吃東西等許多基本交互的物理效應。顯然,Sora并沒有掌握世界的運轉規律,比如動量守恒、摩擦作用、不同材料的密度不同、物質不可瞬移等,可見它并非“世界模型”。事實上,目前學界對“世界模型”的定義眾說紛紜,更不要提“煉成”了。
其次,Sora的生成效果和效率有待商榷。目前,出于多方面的考慮,Sora僅面向少數藝術家和開發者開放,并未面向公眾開放應用。當前OpenAI發布的演示視頻大概率是精挑細選出來的“優品”,并不能代表Sora的真實表現。
一類工具或一種生產方式是否可用、好用,并不取決于它是否產生了令人眼前一亮的效果,而是取決于它能否給出消滅不確定性的保證、降低工作產出的方差。人們往往更愿意為了保證穩定性而換取一些效果的下降。而以Sora為代表的AI工具是否能夠持續減少不確定性,目前還存在巨大疑問。從這個角度來說,Sora盡管表現亮眼,但我們仍應觀其后效。
AGI是AI領域科學家為之奮斗的最高目標。北京通用人工智能研究院院長朱松純這樣描述AGI:它需要在復雜動態的物理和社會環境中滿足3個關鍵要求——處理無限任務、具備自主性、具備價值系統(由價值驅動完成各類任務)。這背后的核心是AI系統要具備相當的“認知架構”,即人類所熟知的常識、共同的行動規范和價值觀。
從這些描述中可知,當下實現AGI的難度巨大。事實上,OpenAI在提及AGI時的用詞十分考究:“Sora是理解和模擬現實世界模型的基礎,而這一能力將是實現AGI的重要里程碑。”
對AI技術的階段性突破表示高度贊賞是人之常情,但動輒言及“實現AGI”“人類gg”這類溢美之詞,反而可能產生副作用,稍不留神就會造成誤讀。AI的確是非常開放的空間,人們對通過這一技術路線開發出的產品充滿想象,但是如今AI已經與人類的經濟、政治、文化、倫理等系統深度融合,因此對AI技術突破的評價,還是嚴謹為宜。
近日,賽默飛世爾科技公司宣布與OpenAI達成戰略合作,借助其先進的人工智能技術,推動科學創新和藥物開發的進程。此次合作將OpenAI的應用程序編程接口(API)整合到賽默飛世爾的核心業務領域,包括產......
近日,賽默飛世爾科技公司宣布與OpenAI達成戰略合作,借助其先進的人工智能技術,推動科學創新和藥物開發的進程。此次合作將OpenAI的應用程序編程接口(API)整合到賽默飛世爾的核心業務領域,包括產......
8月28日,美國人工智能公司OpenAI發布了其所謂“最先進的語音到語音模型”GPT-realtime,以及配套的Realtime API(實時應用程序接口)。據OpenAI公司介紹,該模型......
8月28日,美國人工智能公司OpenAI發布了其所謂“最先進的語音到語音模型”GPT-realtime,以及配套的Realtime API(實時應用程序接口)。據OpenAI公司介紹,該模型......
美國開放人工智能研究中心(OpenAI)7日發布其最新人工智能模型GPT-5。據OpenAI官網介紹,這是迄今為止該機構推出的最強大的人工智能系統,在各類基準測試中超越了先前的模型,在編程、數學、寫作......
美國開放人工智能研究中心(OpenAI)7日發布其最新人工智能模型GPT-5。據OpenAI官網介紹,這是迄今為止該機構推出的最強大的人工智能系統,在各類基準測試中超越了先前的模型,在編程、數學、寫作......
近日,一項公布于預印本服務器arXiv的研究發現,使用ChatGPT寫論文的人,其大腦活躍度低于被禁止使用任何在線工具寫論文的人。這項調查是評估人工智能(AI)是否正使人們變得“認知懶惰”的更廣泛研究......
當地時間23日一場在線直播中,OpenAI團隊揭開了首個AI智能體Operator的神秘面紗。這一創新成果打破了傳統應用程序編程接口的限制,賦予了AI直接與圖形用戶界面交互的能力,就仿佛能像人類那樣使......
當地時間23日一場在線直播中,OpenAI團隊揭開了首個AI智能體Operator的神秘面紗。這一創新成果打破了傳統應用程序編程接口的限制,賦予了AI直接與圖形用戶界面交互的能力,就仿佛能像人類那樣使......
1月20日,國產AI大模型DeepSeek正式發布新版本DeepSeek-R1,并同步開源模型權重。開發者表示,DeepSeek-R1在后訓練階段大規模使用了強化學習技術,在僅有極少標注數據的情況下,......