對標谷歌Meta,字節(jié)跳動入局”世界模型”競賽
字節(jié)跳動的入場,無疑將為這場競賽注入新的變量。
據(jù)The Information披露。國內(nèi)科技巨頭字節(jié)跳動,目前正加速布局通用人工智能賽道,其核心人工智能部門Seed正在秘密研發(fā)對標谷歌Genie3、Meta V-JEPA 2的"世界模型"。
目前,字節(jié)跳動的世界模型項目已進入攻堅階段,該項目由前阿里通義千問核心成員周暢帶隊,依托抖音/TikTok的海量視頻數(shù)據(jù)與自研EX-4D框架,劍指虛擬世界模擬與機器人訓練等前沿領(lǐng)域。
The Information表示,此次技術(shù)布局標志著字節(jié)跳動正式加入全球AI巨頭爭奪戰(zhàn)。
何為“世界模型”,簡單來說就是模擬真實環(huán)境的物理規(guī)律和人類互動方式,未來可用于訓練機器人、自動駕駛系統(tǒng)或構(gòu)建虛擬世界,被視為通向通用人工智能(AGI)的重要路徑之一,其核心目標是通過深度學習構(gòu)建可模擬真實物理規(guī)律的數(shù)字孿生環(huán)境。
據(jù)介紹,新模型將深度融合抖音日均超10億次視頻流數(shù)據(jù),涵蓋人物行為、物體運動、場景交互等多維度動態(tài)信息,為訓練提供媲美真實世界的素材庫。值得關(guān)注的是,近期開源的EX-4D技術(shù)將發(fā)揮關(guān)鍵作用,這項可將單目視頻轉(zhuǎn)化為4D多視角場景的創(chuàng)新框架,突破了傳統(tǒng)單幀圖像處理的局限性,為實現(xiàn)時空連續(xù)性的環(huán)境建模奠定基礎(chǔ)。
在全球AI競賽進入新階段的背景下,字節(jié)跳動在AI領(lǐng)域的布局還是相對來說比較“低調(diào)”。
就以“世界模型”為例,谷歌Genie3憑借其"分鐘級場景連貫性"和"文本驅(qū)動事件修改"功能已搶占先機,其720P分辨率、24幀每秒的生成能力,以及支持物理引擎自主學習的特性,已在游戲開發(fā)和機器人訓練領(lǐng)域引發(fā)變革。
同樣是“"世界模型”的標桿產(chǎn)品,Meta V-JEPA 2則以獨特的聯(lián)合嵌入預測架構(gòu)實現(xiàn)物理推理能力突破,通過100萬小時視頻訓練構(gòu)建的預測模型,使機器人動作規(guī)劃效率提升至同類產(chǎn)品的30倍。
面對巨頭們的強勢表現(xiàn),字節(jié)跳動的新模型需在保持短視頻數(shù)據(jù)處理優(yōu)勢的同時,突破物理仿真與長時程一致性等技術(shù)瓶頸。
從戰(zhàn)略層面看,字節(jié)跳動的世界模型布局與其核心業(yè)務(wù)形成深度協(xié)同。
目前,抖音/TikTok積累的超20億用戶行為數(shù)據(jù),為模型構(gòu)建了獨特的人物交互訓練集;如果能結(jié)合旗下PICO 設(shè)備以及其他智能家居生態(tài),那么未來或可構(gòu)建虛實融合的交互場景,復制其在移動互聯(lián)網(wǎng)時代的終端優(yōu)勢。
此外,Seed部門在整合火山引擎AI團隊后,也能通過世界模型打通廣告推薦、內(nèi)容生成、智能硬件等業(yè)務(wù)的底層技術(shù)鏈路,展現(xiàn)出打造AI基礎(chǔ)設(shè)施的野心。
由此可見,隨著科技巨頭們持續(xù)加碼,或許我們能很快見證首個消費級世界模型的誕生。正如IDC分析師Jason Dai所言:"視頻世界的構(gòu)建需要更強的實時性與因果推理能力,而這正是Meta和谷歌尚未完全解決的難題。"
字節(jié)跳動的入場,無疑將為這場競賽注入新的變量。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅(qū)動創(chuàng)新
