4月16日,阿里巴巴發(fā)布可實(shí)時(shí)構(gòu)建和交互的世界模型產(chǎn)品HappyOyster(快樂生蠔)。該模型基于原生多模態(tài)架構(gòu)而建,支持多模態(tài)理解與音視頻聯(lián)合生成。目前產(chǎn)品可實(shí)現(xiàn)漫游(Wander)和導(dǎo)演(Direct)兩大核心能力,用戶可以實(shí)時(shí)構(gòu)建可互動(dòng)、可演繹、可探索的 AI 數(shù)字世界。同時(shí),用戶生成的數(shù)字世界,不僅能被完整保存,還能開放給其他用戶進(jìn)行二次創(chuàng)作。據(jù)悉,該產(chǎn)品由阿里ATH創(chuàng)新事業(yè)部團(tuán)隊(duì)研發(fā),與此前爆火的HappyHorse同屬一個(gè)團(tuán)隊(duì)。
相比大語言模型相對(duì)成熟的模型架構(gòu)和技術(shù)范式,世界模型仍屬于前沿探索領(lǐng)域。阿里的HappyOyster與谷歌的Genie3同屬于世界模擬器流派。區(qū)別于傳統(tǒng)文生視頻模型輸入提示詞、等待渲染、獲得成片的被動(dòng)流程,這一流派采用長(zhǎng)時(shí)間跨度上的世界演化建模方式。通過學(xué)習(xí)海量長(zhǎng)視頻數(shù)據(jù),以及文本、動(dòng)作指令、圖像參考等多樣控制信號(hào),模型能夠主動(dòng)理解空間、物理與因果規(guī)律,預(yù)測(cè)情節(jié)和畫面的演變,從而把“被動(dòng)生成內(nèi)容”轉(zhuǎn)變?yōu)椤爸鲃?dòng)模擬世界演化”,為構(gòu)建可交互的通用世界模擬器提供了關(guān)鍵技術(shù)路徑。
相比谷歌,此次阿里發(fā)布的HappyOyster采用了時(shí)間跨度更長(zhǎng)的世界演化建模方式,使得模型能夠保持高保真、長(zhǎng)時(shí)序的動(dòng)態(tài)場(chǎng)景生成。同時(shí)在建模初始就設(shè)計(jì)了多樣的控制信號(hào),使模型能夠在統(tǒng)一的時(shí)序框架下同時(shí)實(shí)現(xiàn)生成質(zhì)量、長(zhǎng)時(shí)序與實(shí)時(shí)可控性的協(xié)同優(yōu)化。在產(chǎn)品能力上,HappyOyster呈現(xiàn)出差異化優(yōu)勢(shì)。不僅能支持Wander漫游探索,還獨(dú)家提供實(shí)時(shí)導(dǎo)演功能,用戶可通過自然語言指令隨時(shí)介入世界演化、調(diào)度角色事件,實(shí)現(xiàn)從被動(dòng)探索到主動(dòng)創(chuàng)作的跨越;在視覺表現(xiàn)上,HappyOyster漫游模式的畫面質(zhì)量更高,風(fēng)格泛化能力更強(qiáng),動(dòng)態(tài)性更好。
漫游模式暢游世界名畫
漫游模式控制人物運(yùn)動(dòng)
通過漫游和導(dǎo)演的雙模式,HappyOyster能夠?yàn)橛脩魩沓两降氖澜缃换ンw驗(yàn)。在漫游模式中,用戶僅需一句話或一張圖,即可生成具備物理一致性的完整空間,物體位置穩(wěn)定、場(chǎng)景持久存在,視角與光照也能跟隨第一人稱視角持續(xù)移動(dòng)。此外,用戶能自由切換方向與鏡頭運(yùn)動(dòng),突破初始畫框的邊界,體驗(yàn)無限延展的探索樂趣。目前Happy Oyster支持長(zhǎng)達(dá)1分鐘的連續(xù)實(shí)時(shí)位移與鏡頭控制,并支持多樣化的風(fēng)格切換;在導(dǎo)演模式下,用戶能夠在視頻的任意節(jié)點(diǎn),通過文字、語音或圖像等多模態(tài)輸入,隨時(shí)實(shí)現(xiàn)鏡頭切換、劇情改寫、角色調(diào)度,在充分的交互中生成一個(gè)光照、重力、角色動(dòng)作與場(chǎng)景因果持續(xù)演化的世界,并能選擇題材風(fēng)格。目前,HappyOyster的導(dǎo)演模式支持連續(xù)生成 3 分鐘以上的480p或720p實(shí)時(shí)畫面。當(dāng)前漫游與導(dǎo)演兩大模式尚未完全打通,但未來用戶有望在漫游過程中直接與世界深度互動(dòng)、實(shí)時(shí)改寫場(chǎng)景規(guī)則,真正實(shí)現(xiàn)邊探索、邊創(chuàng)造的無縫融合體驗(yàn)。
導(dǎo)演模式可在任意節(jié)點(diǎn)改變劇情走向
世界模型的發(fā)展仍處于早期階段,但在實(shí)際應(yīng)用中,HappyOyster已在改變傳統(tǒng)的內(nèi)容創(chuàng)作模式和交互體驗(yàn)。例如,在游戲領(lǐng)域,開發(fā)者可快速生成可玩原型,玩家能實(shí)時(shí)驅(qū)動(dòng)世界演化,無需預(yù)設(shè)腳本即可實(shí)現(xiàn)動(dòng)態(tài)劇情分支與開放世界探索,大幅降低內(nèi)容生產(chǎn)成本并提升沉浸感;在影視創(chuàng)作中,導(dǎo)演無需等待漫長(zhǎng)的渲染周期,只需用自然語言描述創(chuàng)意,系統(tǒng)即可實(shí)時(shí)生成分鏡畫面,并支持在視頻的任意節(jié)點(diǎn)改變鏡頭、角色、和劇情,讓創(chuàng)意驗(yàn)證時(shí)間大大縮。辉谖穆门c教育領(lǐng)域,用戶不再被動(dòng)觀看歷史復(fù)原視頻,而是能以第一視角走進(jìn)名畫現(xiàn)場(chǎng)或過往文明,在交互中探索因果、改寫走向,實(shí)現(xiàn)從知識(shí)傳遞到沉浸體驗(yàn)的躍遷。在未來,HappyOyster還能應(yīng)用于線下智能空間或娛樂場(chǎng)景,例如與穿戴設(shè)備等智能硬件結(jié)合,根據(jù)人的位置、動(dòng)作與語言動(dòng)態(tài),實(shí)時(shí)生成沉浸式內(nèi)容,讓數(shù)字世界與現(xiàn)實(shí)共振。
(注:此文屬于央廣網(wǎng)登載的商業(yè)信息,文章內(nèi)容不代表本網(wǎng)觀點(diǎn),僅供參考。)
長(zhǎng)按二維碼關(guān)注精彩內(nèi)容





