對標(biāo)谷歌Meta,字節(jié)跳動(dòng)入局”世界模型”競賽
字節(jié)跳動(dòng)的入場,無疑將為這場競賽注入新的變量。

據(jù)The Information披露。國內(nèi)科技巨頭字節(jié)跳動(dòng),目前正加速布局通用人工智能賽道,其核心人工智能部門Seed正在秘密研發(fā)對標(biāo)谷歌Genie3、Meta V-JEPA 2的"世界模型"。
目前,字節(jié)跳動(dòng)的世界模型項(xiàng)目已進(jìn)入攻堅(jiān)階段,該項(xiàng)目由前阿里通義千問核心成員周暢帶隊(duì),依托抖音/TikTok的海量視頻數(shù)據(jù)與自研EX-4D框架,劍指虛擬世界模擬與機(jī)器人訓(xùn)練等前沿領(lǐng)域。
The Information表示,此次技術(shù)布局標(biāo)志著字節(jié)跳動(dòng)正式加入全球AI巨頭爭奪戰(zhàn)。
何為“世界模型”,簡單來說就是模擬真實(shí)環(huán)境的物理規(guī)律和人類互動(dòng)方式,未來可用于訓(xùn)練機(jī)器人、自動(dòng)駕駛系統(tǒng)或構(gòu)建虛擬世界,被視為通向通用人工智能(AGI)的重要路徑之一,其核心目標(biāo)是通過深度學(xué)習(xí)構(gòu)建可模擬真實(shí)物理規(guī)律的數(shù)字孿生環(huán)境。
據(jù)介紹,新模型將深度融合抖音日均超10億次視頻流數(shù)據(jù),涵蓋人物行為、物體運(yùn)動(dòng)、場景交互等多維度動(dòng)態(tài)信息,為訓(xùn)練提供媲美真實(shí)世界的素材庫。值得關(guān)注的是,近期開源的EX-4D技術(shù)將發(fā)揮關(guān)鍵作用,這項(xiàng)可將單目視頻轉(zhuǎn)化為4D多視角場景的創(chuàng)新框架,突破了傳統(tǒng)單幀圖像處理的局限性,為實(shí)現(xiàn)時(shí)空連續(xù)性的環(huán)境建模奠定基礎(chǔ)。
在全球AI競賽進(jìn)入新階段的背景下,字節(jié)跳動(dòng)在AI領(lǐng)域的布局還是相對來說比較“低調(diào)”。
就以“世界模型”為例,谷歌Genie3憑借其"分鐘級場景連貫性"和"文本驅(qū)動(dòng)事件修改"功能已搶占先機(jī),其720P分辨率、24幀每秒的生成能力,以及支持物理引擎自主學(xué)習(xí)的特性,已在游戲開發(fā)和機(jī)器人訓(xùn)練領(lǐng)域引發(fā)變革。
同樣是“"世界模型”的標(biāo)桿產(chǎn)品,Meta V-JEPA 2則以獨(dú)特的聯(lián)合嵌入預(yù)測架構(gòu)實(shí)現(xiàn)物理推理能力突破,通過100萬小時(shí)視頻訓(xùn)練構(gòu)建的預(yù)測模型,使機(jī)器人動(dòng)作規(guī)劃效率提升至同類產(chǎn)品的30倍。
面對巨頭們的強(qiáng)勢表現(xiàn),字節(jié)跳動(dòng)的新模型需在保持短視頻數(shù)據(jù)處理優(yōu)勢的同時(shí),突破物理仿真與長時(shí)程一致性等技術(shù)瓶頸。
從戰(zhàn)略層面看,字節(jié)跳動(dòng)的世界模型布局與其核心業(yè)務(wù)形成深度協(xié)同。
目前,抖音/TikTok積累的超20億用戶行為數(shù)據(jù),為模型構(gòu)建了獨(dú)特的人物交互訓(xùn)練集;如果能結(jié)合旗下PICO 設(shè)備以及其他智能家居生態(tài),那么未來或可構(gòu)建虛實(shí)融合的交互場景,復(fù)制其在移動(dòng)互聯(lián)網(wǎng)時(shí)代的終端優(yōu)勢。
此外,Seed部門在整合火山引擎AI團(tuán)隊(duì)后,也能通過世界模型打通廣告推薦、內(nèi)容生成、智能硬件等業(yè)務(wù)的底層技術(shù)鏈路,展現(xiàn)出打造AI基礎(chǔ)設(shè)施的野心。
由此可見,隨著科技巨頭們持續(xù)加碼,或許我們能很快見證首個(gè)消費(fèi)級世界模型的誕生。正如IDC分析師Jason Dai所言:"視頻世界的構(gòu)建需要更強(qiáng)的實(shí)時(shí)性與因果推理能力,而這正是Meta和谷歌尚未完全解決的難題。"
字節(jié)跳動(dòng)的入場,無疑將為這場競賽注入新的變量。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新
X深度學(xué)習(xí)物理谷歌阿里
微信ID:im2maker
長按識別二維碼關(guān)注