OpenAI 宣布推出名為「Sora」自動生成式人工智能技術,能夠將文本轉化為長達一分鐘的影片。(網絡圖片)
OpenAI推出的Sora,被視為人工智能模擬現實世界模型的基礎。(美聯社圖片)
人工智能大廠OpenAI 宣布推出名為「Sora」(日文中的「天空」)的自動生成式人工智能技術,標榜能以單純文字 描述或靜態圖像,即可生成長達一分鐘的1080P解析度影片 。「Sora」的推出立刻佔據媒體版面,連一向唱衰OpenAI的馬斯克,都不吝盛讚「Sora」強大。從文字生成影像大場面,「Sora」究竟是如何做到的呢?
根據介紹,Sora除了可自動生成影片內容,更可對應不同呈現風格,並且詮釋不同角色、動作或背景內容,而影片內容更標榜能維持在一定合理表現,更可讓影片內容細節變得更加真實。
「Sora 」透過長達10,000小時的高品質影片進行訓練,本身基於先前推出的GPT、DALL-E等服務模型 研究成果打造,讓使用者能透過文字描述、靜態圖片快速生成逼真的影片內容。
不過,即便OpenAI強調「Sora」自動產生影片有高度真實性與合理性,但仍有部分細節難以完整重現,因此仔細觀看的話,可能還是可以看出一些破綻。
視覺塊嵌入代碼
OpenAI 公開 Sora 的詳細報告,介紹了技術原理和應用。受LLM(大語言模型)成功經驗啟發,OpenAI引入視覺塊嵌入代碼(patches),這是種高度可擴展且有效的視覺數據表現形式,大大提升生成模型處理多樣化影片和圖片資料的能力。
OpenAI 先將影片數據壓縮至低維潛在空間,然後再分解為時空嵌入,轉成一系列編碼塊,之後訓練專門降低視覺數據維度的網路,以原始影片輸入,輸出產生一個時間和空間都經過壓縮的潛在空間,Sora正是在這個壓縮後潛在空間訓練,並在這空間產生影片。
OpenAI 還訓練一套解碼器模型,能將潛在表徵還原成圖元級影像。處理壓縮後影像輸入,研究員能提取出一系列時空patchs,在模型扮演類似 Transformer Tokens 的角色。基於patchs的表現形式,Sora能適應不同解析度、持續時間及寬高比影像,產生新內容時,可將隨機初始化patchs照需要大小排成網格,控制最終影片大小和形式。
把積木放進盒子裡
簡單來說,OpenAI開發出的新技術:視覺塊嵌入代碼(簡稱視覺塊),就像將一堆雜亂無章的積木整理好放入小盒子,如此即便面對再多積木,只要找到所屬小盒子,就能輕鬆找到所需積木。影片數據轉化成一個個小方塊,當 OpenAI給Sora新任務時,先從影片提取含時間和空間資訊的小方塊,之後將小方塊交給Sora根據資訊產生新影片,就像拼拼圖將影片重新組合。這樣做的好處是,計算機可更快學習和處理各種類型圖片和影片。
打造世界模型的里程碑
目前OpenAI尚未全面對外開放Sora,僅先以預覽形式提供,並且暫時只有開放特定及OpenAI合作對象使用,同時也透過與外部業者合作,藉由紅對對抗方式評估此服務是否有潛在風險,甚至開放部分藝術家、設計人員與電影製作人使用,藉此改善Sora可能存在問題,另外更與全球政策制定者、教育學者等交流,藉此評估此服務是否會被濫用。
OpenAI將Sora視為「理解和模擬現實世界模型的基礎」,相信能力「是實現 AGI的重要里程碑」,輝達高級科學家Jim Fan表示:「如果你認為OpenAI Sora就像 DALL.E,只是創意實驗工具,那你可能要重新考慮了。」
Sora其實是基於資訊的物理模擬引擎,能類比真實或虛擬世界。模擬器經降噪、計算梯度,學會複雜圖像渲染、「直覺」物理行為、長遠規劃能力及語義層面理解等。這種模型能力,是打造「世界模型」的基礎。