阿里巴巴達(dá)摩院XR實(shí)驗室負(fù)責(zé)人 譚平:AR/VR技術(shù)將促使信息世界和物理世界合二為一

IM2MakerOpr 4年前 (2021-12-13)

AR/VR技術(shù)將會促使信息世界和物理世界合二為一。

2021年12月10日,由廣東省游戲產(chǎn)業(yè)協(xié)會、廣東省虛擬現(xiàn)實(shí)產(chǎn)業(yè)技術(shù)創(chuàng)新聯(lián)盟、深圳市科學(xué)技術(shù)協(xié)會、深圳市互聯(lián)網(wǎng)文化市場協(xié)會指導(dǎo),陀螺科技主辦,深圳市科技開發(fā)交流中心、恒悅創(chuàng)客魔方協(xié)辦,行業(yè)頭部媒體游戲陀螺、VR陀螺、陀螺電競、陀螺財經(jīng)、陀螺傳媒聯(lián)合主辦的2021未來商業(yè)生態(tài)鏈接大會暨第六屆金陀螺獎頒獎典禮(簡稱“FBEC2021”)在深圳大中華喜來登酒店6樓宴會廳盛大開幕!

在中國力量·2021 5G XR產(chǎn)業(yè)峰會現(xiàn)場,阿里巴巴達(dá)摩院XR實(shí)驗室負(fù)責(zé)人 譚平:以“XR技術(shù)漫談”為主題發(fā)表了演講。

阿里巴巴達(dá)摩院XR實(shí)驗室負(fù)責(zé)人 譚平:AR/VR技術(shù)將促使信息世界和物理世界合二為一

以下為演講實(shí)錄:

我是阿里巴巴的譚平,現(xiàn)在負(fù)責(zé)的是XR實(shí)驗室這一塊的工作。今天非常榮幸能有這樣的機(jī)會來和行業(yè)里面的各位朋友,來分享一下我們對于XR這一塊的思考。

今天先從始作俑者ROBLOX講起。ROBLOX是今年在美國上市的游戲公司,它的招股書中把“元宇宙”這個詞寫了進(jìn)去,引來了非常多的討論。這個公司是什么樣的一個情況?

Roblox是一個游戲公司,在美國有非常大量的用戶,特別是青少年用戶。據(jù)統(tǒng)計,美國16歲以下的青少年可能一半都玩過他們的游戲。

這個游戲的特點(diǎn)是什么?它是一個開放的游戲平臺,用戶可以在平臺上創(chuàng)建自己的游戲,比如說你可以創(chuàng)建一個賽車游戲,或者創(chuàng)建一個射擊類的游戲,這個游戲被創(chuàng)建出來之后再把它分發(fā)出去,讓大家在上面來玩。用戶創(chuàng)造的游戲里面,最火的游戲日活已經(jīng)到了千萬級。Roblox是一個可以創(chuàng)造游戲的游戲平臺,因此可以被稱為是“元游戲”。他們公司在招股書里修飾了一下,把游戲世界說成是宇宙,于是就成了“元宇宙”。

但從我們的角度來看,這件事情之所以引起社會對于AR、VR如此的關(guān)注,如此多互聯(lián)網(wǎng)巨頭都投身于這個領(lǐng)域中,是因為它遠(yuǎn)遠(yuǎn)不止游戲。

最近著名科學(xué)家錢學(xué)森的幾封信件在網(wǎng)上流傳得非常廣泛。我們大家一起看一下。我特別想強(qiáng)調(diào)中間的這封信件。錢學(xué)森老先生在90年代的時候就斷言,虛擬現(xiàn)實(shí)技術(shù)是計算機(jī)技術(shù)革命之后的又一項技術(shù)革命,它將引發(fā)一系列全世界的變革,一定會是人類歷史中的大事情。他把虛擬現(xiàn)實(shí)技術(shù)提到一個如此的高度,它當(dāng)然不會僅僅只是游戲。

在我看來,AR/VR技術(shù)將會促使信息世界和物理世界合二。所謂的信息世界,是過去在PC、手機(jī)上構(gòu)建出來的互聯(lián)網(wǎng)世界,而物理世界是我們今天生活的、活生生的三維世界。隨著技術(shù)的進(jìn)一步發(fā)展,三維建模和數(shù)字孿生這樣的技術(shù)會將真實(shí)世界逐步地數(shù)字化、虛擬化,使得整個真實(shí)世界有一個數(shù)字化的版本。AR和VR技術(shù)將進(jìn)一步融合虛擬和現(xiàn)實(shí),使得人從感官上可以不用再去區(qū)分什么是真實(shí),什么是虛擬,兩個世界會達(dá)到高度的融合。未來機(jī)器人的進(jìn)一步發(fā)展可能讓我們在虛擬世界里面做一些改變以后,直接改造或者改變真實(shí)的物理世界,通過機(jī)器人把虛擬世界的變化閉環(huán)到真實(shí)世界當(dāng)中去,這是一個非常重大的事件。

AR/VR眼鏡的工作基礎(chǔ)是對于空間的感知和空間的理解。

左邊有一幅AR眼鏡,用戶戴著它,從左邊可以看到汽車的后部,當(dāng)用戶走到前面,從側(cè)面觀察的時候可以看到汽車的側(cè)面,這樣會給用戶造成一個錯覺,似乎這個地方有一輛汽車在這里擺著,實(shí)際上這里什么都沒有。這一系列都是視覺的錯誤效果,本質(zhì)上這是基于空間位置的一項顯示技術(shù)。在絕大多數(shù)的AR/VR眼鏡上會有傳感器,比如用相機(jī)和陀螺儀來做空間位置的追蹤,會有微投影儀來顯示畫面,把畫面呈現(xiàn)出來給用戶就可以實(shí)現(xiàn)虛實(shí)融合的效果。

我們團(tuán)隊過去在這些方向上有一些積累。在空間內(nèi)容的獲取方面,我們設(shè)計了一款專屬設(shè)備,配有激光雷達(dá)和彩色相機(jī),通過設(shè)備可以對于真實(shí)的物理空間進(jìn)行掃描,構(gòu)建出VR模型,然后可以應(yīng)用到VR看房、VR看店中。我們曾與一個品牌的店鋪合作,將他們的店鋪虛擬化,用戶可以在里面漫游,可以查看商品的詳情,甚至直接下單。

之前設(shè)備是要用激光雷達(dá)的,隨著技術(shù)的進(jìn)一步發(fā)展,最新的技術(shù)成果是可以逐步擺脫激光雷達(dá)的依賴,可以用純視覺方案來構(gòu)建三維的VR模型。這里給大家展示了一個從單張圖像直接通過機(jī)器學(xué)習(xí)的方法,通過人工智能的方法來獲得三維信息。

最左邊是一張輸入的圖,中間是一個深入的圖,不同顏色代表不同的距離,再右邊是深度圖轉(zhuǎn)換成為三維點(diǎn)云來渲染的形式。這樣的技術(shù)使得未來VR內(nèi)容的生產(chǎn)能夠擺脫對于專業(yè)設(shè)備的依賴,使得這件事情能夠更加普惠,讓普通人用一般的全景相機(jī)甚至未來用手機(jī)可以大量、低成本來生產(chǎn)VR的內(nèi)容,加速內(nèi)容的制造。

剛才所講的VR內(nèi)容,更多還停留在可視化的層面。在非常多的應(yīng)用里面還需要模型的語義和結(jié)構(gòu)。如果是一個建筑物的話,它的承重墻在哪里,它的門和窗戶在哪個地方。這塊我們研究了BIM建模,通過對CDA圖紙的分析和處理來構(gòu)建BIM模型,可以應(yīng)用于智慧園區(qū)和安防運(yùn)維的項目上。

最左邊是去年結(jié)合疫情的需求,以這樣的技術(shù)來做的VR展會。右邊是用這個技術(shù)來做VR看樓,可以讓用戶看到自己的房型里面采光、視線,實(shí)現(xiàn)更加精細(xì)化的戶型選擇。在這個方向,我們也一直在持續(xù)做技術(shù)方面的探索。去年我們發(fā)布了世界上第一個大規(guī)模真實(shí)CAD圖紙的數(shù)據(jù)集,并且提供了大量的標(biāo)注數(shù)據(jù)。在CAD數(shù)據(jù)集上有詳細(xì)地標(biāo)注出來什么是門、什么是窗、什么是家具、什么是承重墻這樣的結(jié)構(gòu),電線和水管等等分別在什么地方。

基于這樣的數(shù)據(jù)可以做一些最新人工智能的圖紙識別來幫助整個BIM建模的過程提效。當(dāng)然這一塊的技術(shù)可提升的空間依然非常大,即便是在一些相對簡單的結(jié)構(gòu)上,今天的識別率依然只有80%。在這方面希望未來有更多的同行加入其中,與我們一起推動技術(shù)的進(jìn)步,我們把數(shù)據(jù)集開源出來了,希望能夠促進(jìn)數(shù)據(jù)的進(jìn)步。

另外一個就是剛才講的空間??臻g構(gòu)建出來以后,一個很重要的事情就是如何進(jìn)行空間定位。左邊是跟寶馬汽車的合作的案例,例如車開到商場以后,回來以后找不到了。這個案例是什么呢?車現(xiàn)在很智能的,車有傳感器,開到地庫去,它知道自己停在哪個位置,車把位置推送到用戶的手機(jī),用戶的手機(jī)做AR導(dǎo)航就可以把你帶回去。當(dāng)然,先要對車庫進(jìn)行三維的建圖,建圖完成之后還要定位。

右邊是一個概念視頻。設(shè)想AR的技術(shù)普惠以后,戴上眼鏡參觀阿里巴巴的西溪園區(qū),可以進(jìn)行打卡、合影和應(yīng)用。

下面是和北京的一家美術(shù)館進(jìn)行合作的AR觀展體驗。我自己讀理工科出身,看到藝術(shù)家的作品經(jīng)常很困惑,借助AR/VR的技術(shù),戴上AR眼鏡以后可以看到更豐富的藝術(shù)解釋,可以幫助我們這些人來理解藝術(shù)家的理念。

在視覺定位方向,我們也在探索前沿在技術(shù)。最新的工作是大幅度壓縮模型的尺寸。比如說剛才講到要在車庫里面找車,AR導(dǎo)航需要構(gòu)建車庫的地圖。這里放了一個例子,左邊單棟樓宇的模型,在過去傳統(tǒng)方法來講要有一個2G的內(nèi)存才能把樓宇的模型放下來,這對于端上的體驗來講是不太友好的,即便做云端的串流,用戶從這棟樓跑到另外一棟樓就要下載2G的內(nèi)容,很痛苦。我們做了一個方法把模型壓縮到10M大小的情況下依然能保持一個良好的體驗,希望對我們產(chǎn)品的進(jìn)一步應(yīng)用能有幫助。

我們在虛擬人上面也有一些工作。這是一個虛擬人的案例,這個案例是阿里巴巴的一個公益項目,數(shù)字人小莫。小莫非常多才多藝,可以把我們說話的語音和文本變成手語的表達(dá),這對于聽障礙人士是非常有幫助的事情。因為我們可以通過聽廣播和看電視來獲得大量的信息,但對于聽障人士是非常困難的,虛擬人能把文字信息變成手語來方便聽力障礙人士獲得信息。

我們還有一個工作:把手語的視頻轉(zhuǎn)化成為文字或者語言,方便我們理解聽障人士想表達(dá)什么,促進(jìn)大家更方便地交流。在這個方向上,我們也有一些前沿學(xué)術(shù)的進(jìn)展。最左邊這里是用了非常少的RGB相機(jī)做動態(tài)人物的三維案例,這里用了四個相機(jī),從四個相機(jī)的畫面里面可以把人物細(xì)節(jié)的三維模型構(gòu)建出來,未來可以用到通訊場景當(dāng)中。右邊是用真人來驅(qū)動高寫實(shí)的虛擬人的表情案例,我們可以用一個真人來驅(qū)動這樣虛擬的形象,并且將這樣的虛擬形象應(yīng)用于各種各樣的場景。比如一些客服等等應(yīng)用。

AR/VR技術(shù)正在加速普及。各種應(yīng)用不斷出現(xiàn),相關(guān)技術(shù)也快速迭代。相信一個更加美好的互聯(lián)網(wǎng)時代即將到來。我今天的分享就講到這里,謝謝大家!

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動創(chuàng)新

分享到