繼文字生成內容、圖片之後,生成式AI進入影片世代!聊天機器人ChatGPT的母公司Open AI,15日宣布正測試一款最新生成式AI模型Sora,能單憑用戶簡單的文字描述指令,創建長達60秒的高畫質生成影片,Sora目前進入封閉測試階段,Open AI強調,Sora是該公司實現通用人工智慧的重要里程碑。
Open AI執行長阿特曼(Sam Altman)在社群媒體X上邀請用戶提出指令建議,幾分鐘後在此平台上貼出頗具說服力的生成影片,包括兩隻黃金獵犬在山頂玩Podcast、老奶奶在廚房教烹飪義大利麵、不同動物運動員在海上比賽騎單車等。
https://t.co/qbj02M4ng8 pic.twitter.com/EvngqF2ZIX
— Sam Altman (@sama) February 15, 2024
https://t.co/rmk9zI0oqO pic.twitter.com/WanFKOzdIw
— Sam Altman (@sama) February 15, 2024
據Open AI在官網的說法,Sora能生成具有多個角色的複雜場景、特定動作型態及精準的主題及背景細節。其底層模型對語言有深度理解能力,使Sora能精確解讀用戶的提示要求,產生能傳達鮮明情感的人物。Sora也能在簡單一則短影片建立多個場景,並以同樣的角色和視覺風格,貫穿多場景。Open AI指出,Sora的生成結果是代表他們的模型能「深度理解語言」,才能如此準確地遵循用戶的文字提示。
目前Open AI初期先提供給合作的紅隊進行風險測試,以評估假訊息、仇恨內容及偏見對模型的影響。另外,亦提供少部分視覺藝術家、設計師和電影製作人試用,以取得專業反饋意見,了解如何進一步發展該模型,使其對創意專業人士最有幫助。Open AI指出:「我們會接洽全球政策制定者、教育家和藝術家,以了解他們的顧慮,並找出這種新技術的正面使用案例。」
說到文字生成影片,其他企業先前也有類似的AI模型,其中,Google正在測試名為Lumiere的模型,Meta則有名為Emu的模型,還有人工智慧初創企業Runway也正開發相應產品來協助影片製作。不過,Open AI的Sora是目前唯一能生成60秒長度的影片內容,而且是整段影片一口氣生成,而非像其他模型般逐格生成,再連續播放,因此震驚業界。
Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024