揭秘文字生成影像AI：Sora 「如何把積木放進盒子裡」

OpenAI 宣布推出名為「Sora」自動生成式人工智能技術，能夠將文本轉化為長達一分鐘的影片。（網絡圖片）

OpenAI推出的Sora，被視為人工智能模擬現實世界模型的基礎。（美聯社圖片）

人工智能大廠OpenAI 宣布推出名為「Sora」（日文中的「天空」）的自動生成式人工智能技術，標榜能以單純文字描述或靜態圖像，即可生成長達一分鐘的1080P解析度影片。「Sora」的推出立刻佔據媒體版面，連一向唱衰OpenAI的馬斯克，都不吝盛讚「Sora」強大。從文字生成影像大場面，「Sora」究竟是如何做到的呢？

根據介紹，Sora除了可自動生成影片內容，更可對應不同呈現風格，並且詮釋不同角色、動作或背景內容，而影片內容更標榜能維持在一定合理表現，更可讓影片內容細節變得更加真實。

「Sora 」透過長達10,000小時的高品質影片進行訓練，本身基於先前推出的GPT、DALL-E等服務模型研究成果打造，讓使用者能透過文字描述、靜態圖片快速生成逼真的影片內容。

不過，即便OpenAI強調「Sora」自動產生影片有高度真實性與合理性，但仍有部分細節難以完整重現，因此仔細觀看的話，可能還是可以看出一些破綻。

視覺塊嵌入代碼

OpenAI 公開 Sora 的詳細報告，介紹了技術原理和應用。受LLM（大語言模型）成功經驗啟發，OpenAI引入視覺塊嵌入代碼（patches），這是種高度可擴展且有效的視覺數據表現形式，大大提升生成模型處理多樣化影片和圖片資料的能力。

OpenAI 先將影片數據壓縮至低維潛在空間，然後再分解為時空嵌入，轉成一系列編碼塊，之後訓練專門降低視覺數據維度的網路，以原始影片輸入，輸出產生一個時間和空間都經過壓縮的潛在空間，Sora正是在這個壓縮後潛在空間訓練，並在這空間產生影片。

OpenAI 還訓練一套解碼器模型，能將潛在表徵還原成圖元級影像。處理壓縮後影像輸入，研究員能提取出一系列時空patchs，在模型扮演類似 Transformer Tokens 的角色。基於patchs的表現形式，Sora能適應不同解析度、持續時間及寬高比影像，產生新內容時，可將隨機初始化patchs照需要大小排成網格，控制最終影片大小和形式。

把積木放進盒子裡

簡單來說，OpenAI開發出的新技術：視覺塊嵌入代碼（簡稱視覺塊），就像將一堆雜亂無章的積木整理好放入小盒子，如此即便面對再多積木，只要找到所屬小盒子，就能輕鬆找到所需積木。影片數據轉化成一個個小方塊，當 OpenAI給Sora新任務時，先從影片提取含時間和空間資訊的小方塊，之後將小方塊交給Sora根據資訊產生新影片，就像拼拼圖將影片重新組合。這樣做的好處是，計算機可更快學習和處理各種類型圖片和影片。

打造世界模型的里程碑

目前OpenAI尚未全面對外開放Sora，僅先以預覽形式提供，並且暫時只有開放特定及OpenAI合作對象使用，同時也透過與外部業者合作，藉由紅對對抗方式評估此服務是否有潛在風險，甚至開放部分藝術家、設計人員與電影製作人使用，藉此改善Sora可能存在問題，另外更與全球政策制定者、教育學者等交流，藉此評估此服務是否會被濫用。

OpenAI將Sora視為「理解和模擬現實世界模型的基礎」，相信能力「是實現 AGI的重要里程碑」，輝達高級科學家Jim Fan表示：「如果你認為OpenAI Sora就像 DALL．E，只是創意實驗工具，那你可能要重新考慮了。」

Sora其實是基於資訊的物理模擬引擎，能類比真實或虛擬世界。模擬器經降噪、計算梯度，學會複雜圖像渲染、「直覺」物理行為、長遠規劃能力及語義層面理解等。這種模型能力，是打造「世界模型」的基礎。

「如何把積木放進盒子裡」

揭秘文字生成影像AI：Sora

相關新聞

「吉卜力」風圖像生成掀熱潮　
ChatGPT再現用戶爆發式成長

劉慈欣：AI將取代多數科幻作家
創作形態恐迎根本性變革

軟銀領投400億美元
前提是OpenAI需改組

ChatGPT圖像生成將設限
奧特曼：GPU資源過載

OpenAI擬建首座自營數據中心
提升儲存自主性減低成本

OpenAI擬建首座自營數據中心
提升儲存自主性減低成本

與印度信實洽談AI合作
OpenAI Meta角逐印度市場

與印度信實洽談AI合作
OpenAI Meta角逐印度市場

推薦新聞

五角大樓秘件視中國為「優先威脅」
軍事戰略重心轉向台海引發爭議

緬甸強震已超1,700死
國際社會馳援

曼谷大樓倒塌釀17死
總理下令一周內查明原因

東電完成財年最後一次核污水排海
中方：續開展長期獨立取樣監測

妙瓦底KK園區未受波及
華裔「豬仔」逃脫夢碎

五毫港幣代替100日圓抽扭蛋
日景點報警貼公告

美副總統萬斯訪格陵蘭　
批丹麥疏於保護

黃金儲備神秘失蹤？
特朗普要查諾克斯堡

即時新聞

2025澳門青年創新創業大賽啟動報名

選管會：博企選舉期間須保持中立

去年至今清理逾五噸食物殘渣

市政署呼籲勿胡亂餵流浪動物

SU7事故衝擊消費者信心

或引發對智駕軟件的審查

SU7事故死者家屬淚訴女兒屍體「碳化」

批雷軍回應「虛偽」

小米SU7死亡車禍引發安全疑慮

股價急墜雷軍親上火線

七日預報

「如何把積木放進盒子裡」

揭秘文字生成影像AI：Sora

相關新聞

「吉卜力」風圖像生成掀熱潮 ChatGPT再現用戶爆發式成長

劉慈欣：AI將取代多數科幻作家 創作形態恐迎根本性變革

軟銀領投400億美元 前提是OpenAI需改組

ChatGPT圖像生成將設限 奧特曼：GPU資源過載

OpenAI擬建首座自營數據中心 提升儲存自主性減低成本

OpenAI擬建首座自營數據中心 提升儲存自主性減低成本

與印度信實洽談AI合作 OpenAI Meta角逐印度市場

與印度信實洽談AI合作 OpenAI Meta角逐印度市場

推薦新聞

五角大樓秘件視中國為「優先威脅」 軍事戰略重心轉向台海引發爭議

緬甸強震已超1,700死 國際社會馳援

曼谷大樓倒塌釀17死 總理下令一周內查明原因

東電完成財年最後一次核污水排海 中方：續開展長期獨立取樣監測

妙瓦底KK園區未受波及 華裔「豬仔」逃脫夢碎

五毫港幣代替100日圓抽扭蛋 日景點報警貼公告

美副總統萬斯訪格陵蘭 批丹麥疏於保護

黃金儲備神秘失蹤？ 特朗普要查諾克斯堡

即時新聞

2025澳門青年創新創業大賽啟動報名

選管會：博企選舉期間須保持中立

去年至今清理逾五噸食物殘渣

市政署呼籲勿胡亂餵流浪動物

SU7事故衝擊消費者信心

或引發對智駕軟件的審查

SU7事故死者家屬淚訴女兒屍體「碳化」

批雷軍回應「虛偽」

小米SU7死亡車禍引發安全疑慮

股價急墜雷軍親上火線

微信 ID： exmoo_news

七日預報

微信 ID： exmoo_news

「吉卜力」風圖像生成掀熱潮　
ChatGPT再現用戶爆發式成長

劉慈欣：AI將取代多數科幻作家
創作形態恐迎根本性變革

軟銀領投400億美元
前提是OpenAI需改組

ChatGPT圖像生成將設限
奧特曼：GPU資源過載

OpenAI擬建首座自營數據中心
提升儲存自主性減低成本

OpenAI擬建首座自營數據中心
提升儲存自主性減低成本

與印度信實洽談AI合作
OpenAI Meta角逐印度市場

與印度信實洽談AI合作
OpenAI Meta角逐印度市場

五角大樓秘件視中國為「優先威脅」
軍事戰略重心轉向台海引發爭議

緬甸強震已超1,700死
國際社會馳援

曼谷大樓倒塌釀17死
總理下令一周內查明原因

東電完成財年最後一次核污水排海
中方：續開展長期獨立取樣監測

妙瓦底KK園區未受波及
華裔「豬仔」逃脫夢碎

五毫港幣代替100日圓抽扭蛋
日景點報警貼公告

美副總統萬斯訪格陵蘭　
批丹麥疏於保護

黃金儲備神秘失蹤？
特朗普要查諾克斯堡