前往主要內容
工商時報LOGO

OpenAl Sora技術與優勢剖析

  • 工商時報 產業分析 智璞產業趨勢研究所
OpenAl Sora為影片生成式AI技術發展開創新里程碑。圖/美聯社
OpenAl Sora為影片生成式AI技術發展開創新里程碑。圖/美聯社

已將目前網頁的網址複製到您的剪貼簿!

2024年2月15日OpenAI宣布推出能產生長達1分鐘流暢且逼真影片的Sora,為影片生成式AI技術發展開創新里程碑,由於應用範疇廣泛,引起全球相關產業人士關注。根據該公司報告指出Sora以時空區塊(Spacetime Patches)和Diffusion Transformer為核心技術,利用Diffusion的生成能力和Transformers的自注意力機制,透過預測乾淨區塊的方式生成影片內容,再以Transformers處理時空區塊。

如圖1所示,Sora的影片生成是由Visual Encoder、Diffusion Transformer、Transformer Decoder等三個步驟構成,首先將原始影片壓縮為低維潛在空間,再分解成時空區塊以利Transformer處理,接著利用Diffusion Transformer混合架構將時空區塊融合文本條件化,先後經過加噪和去噪程序達到可解碼狀態。最後將去噪後的低維潛在表示映射回圖元空間,運用類似CLIP的智慧條件設置機制以創造出具有特定風格或主題的影片。

OpenAI認為以往將影片修剪為標準尺寸的方式會減損生成品質,經過區塊化後的Sora無需裁剪資料就能夠對不同解析度、持續時間和長寬比的原始影片資料進行訓練,既能確保生成高品質影片又顯著提升模型性能,並節省訓練與推理的算力成本。

相較於其他AI生成影片工具,我們統整歸納Sora的優勢包括以下幾點 :

1.60秒超長視頻:如Runway、Pika、MoonVally、Domo AI、AnimateDiff、Stable Video等絕大部分AI生成影片工具僅能產生6秒以下作品,Sora直接將時長提升到10倍,大幅領先其他業者。

2.自由尺寸影片生成:Sora能夠生成從橫屏到豎屏等各種尺寸的影片,可滿足不同平台和觀看體驗的需求,這比先前限定長寬比的影片生成工具提供更高的靈活度,使創作更加自由。

3.前後擴展視頻能力:不同於以往只能向前擴展的限制,Sora可以向前或向後擴展,甚至可創建無限連續循環的影片,大大豐富其敘事結構和創意表達。

4.多視頻無縫連接:Sora可以將兩個完全不同影片融合成毫無違和感的新影像,例如無人機穿越變成蝴蝶飛行,這種獨特功能提供無限的創意發想空間。

5.真實物理世界模擬:Sora展現出生成高度擬真物理世界影片的能力,不僅體現技術的進步,也為創作者提供更逼真的創意表現工具。

6.時間一致性與動作模擬:Sora能夠在生成的視頻中保持時間一致性,即使在面對複雜的動作和場景變換時也能確保人物與物體之連貫性。此外,它還能模擬如留下咬痕之簡單動作的影響,進一步增強影片的真實感。

7.逼真的鏡頭運動:Runway、Pika等生成工具需要使用額外的參數以實現鏡頭運動,Sora可以直接列理解文本中有關鏡頭運動之提示,能在影片中使用多種鏡頭運動。

8.連貫一致的影片內容:Sora生成的影片能隨時增加人物及場景元素,且仍可保持原有的狀態而不會扭曲變形,所以前後連貫性非常好。即使元素被遮擋或者短暫離開畫面依舊能在後續準確呈現物件的相關特徵。

根據上述Sora具備諸多優勢,我們預計將對影視製作將帶來四項變革。首先是會提升創作效率,傳統影視製作通常需要投入大量的人力和金錢,Sora的出現將大大提高影視內容的生成效率以降低製作成本,讓更多人參與視頻創作;接著是讓創意更為多樣,Sora的靈活性和創造力為影視創作帶來更多可能性,創作者可以藉此探索更加豐富多樣的創意表達方式,擴大視頻內容的創作領域;再來是可以滿足客製需求:依據用戶輸入的描述或草圖,Sora能夠生成符合其想要或要求的影視內容,為個人使用者、企業品牌等提供訂製化的影片製作服務;最後我們認為Sora為創業者提供新商機,增進創業機會。可基於其技術開發相關的影片創作工具、平台或服務以滿足市場需求,發掘影視行業的新商業模式和商機。

雖然Sora展現出許多非凡的影片生成能力,但目前仍有些弱點如無法完全模擬複雜場景的物理現象、理解特定因果關係、處理空間細節及準確描述隨時間變化的事件,這可能的原因包括模型在訓練資料中缺乏足夠的這類物理事件的範例、模型無法充分學習和理解這些複雜物理過程的基礎原理、可能在理解和預測物件狀態變化的動態過程方面存有局限性。它常見如在生成長時間影片時可能會產生不連貫的情節、視頻中可能無緣無故出現物件等問題,前者可能是模型難以在長時間內保持上下文的一致性,後者表示模型對時空連續性的理解上還有待提高。因此目前Sora還無法撼動影視產業,因為每次生成的內容多少有所差異,不可能將120部1分鐘影片串成電影,目前OpenAI還沒有公開發布Sora的原因之一,目前該模型僅提供攻擊模擬團隊(red team)和少數藝術家、設計師及電影製作人使用。未來若開放後對於眾多短影音平台的製作者來說,將是顛覆性的新工具,即使是普通民眾也能利用AI技術生成高品質的短片。

生成式AI不啻自個人電腦、網際網路誕生以及行動通訊後最具顛覆性的技術創新,根據市場研究機構Omdia預估全球生成式AI市場規模將從2023年的62億美元成長至2028年的585億美元,年平均複合成長率達56%。所有生成式AI技術中以創造高品質的影像難度最高,預期主要應用於電玩、教育、傳媒、娛樂、電商等行業。

您可能感興趣的話題

留言討論

返回頁首
LOADING

本網頁已閒置超過3分鐘。請點撃框外背景,或右側關閉按鈕(X),即可回到網頁。