Google發(fā)布Omnitone開源系統(tǒng),是VR制作新潮流來襲的節(jié)奏嗎?

鎂客 9年前 (2016-08-03)

當下主流的全景3D音頻內(nèi)容格式馬上就要過時了。

上個月,谷歌在其官方博客上公布了其網(wǎng)頁VR音頻系統(tǒng)Omnitone項目的技術細節(jié)。這個項目是一個跨瀏覽器支持的開源空間音頻渲染器,主要是為VR設備營造“全景音頻”環(huán)境提供解決方案,讓用戶獲得更好的VR沉浸感。

http://photocdn.sohu.com/20160727/Img461147650.jpg

提到“全景音頻”的解決方案,有些人或許覺得理論十分簡單,做一個虛擬空間,該空間里任何一個音源,用三維坐標標定,然后將VR頭盔里的坐標數(shù)據(jù)導入,再輸出相應的聲音,即可得到一個完美的“自然”聲場。但是這個方案的前提是音源數(shù)足夠少、運算速度足夠快,所以用于逼真模擬現(xiàn)實世界數(shù)量眾多的音源是幾乎不可能的。

目前,主流的全景3D音頻內(nèi)容格式包括Quad Binaural和Ambisonic。

http://photocdn.sohu.com/20160727/Img461147650.jpg

其中,Quad Binaural是將一個聲場用0、90、180、270度四個方向去表征。如果需要錄制一個點的聲場,則錄制這個點前后左右的聲音,每個方向兩個聲道,最終八個聲道。想得到新的方向的聲音,用四個方向的聲音進行加權合成即可。這種方案的好處是解碼非常容易,比如我們很自然就會想到45度時候的聲音就是一半的0度+一半的90(雖然實際情況會更復雜一些)。相比現(xiàn)在常用的一階的Ambisonic(FOA,F(xiàn)irst Order Ambisonic),其對水平方向的敏感度更高。不過,它的問題在于垂直方向的聲音是木有變化的。

http://photocdn.sohu.com/20160727/Img461147650.jpg

Ambisonic則是從球諧函數(shù)出發(fā),(n+1)^2個聲道來表征聲場。舉例來說,Google發(fā)布的Omnitone是一階的Ambisonic,于是有(1+1)^2=4個聲道,如上圖所示,w,x,y,z。w可以理解成背景聲,x,y,z分別是來自直角坐標系三個方向的聲音。這個方案的好處在于有了z(垂直)這個方向,抬頭或者低頭在VR世界里聲音是會有區(qū)別的,而且隨著你提供的運算能力的提升,用更高階的Ambisonic函數(shù)可以獲得更好的效果。不過, 越高階的ambisonic函數(shù)解碼越復雜。此外,一階Ambisonic(FOA)因為將相反方向傳來的聲音(C,D)同時混入了X,所以當你轉(zhuǎn)頭的時候,在某些角度下的聽者對方向的靈敏度是不如Quad Binaural的。

而Google的網(wǎng)頁VR音頻系統(tǒng)Omnitone項目用到的解決辦法很聰明,而且單刀直入。它主要支持目前業(yè)界較為常用的FOA(一階Ambisonic)格式,這也是YouTube App推薦的主要全景聲格式。

下面是Omnitone音頻處理過程圖解:

http://photocdn.sohu.com/20160727/Img461147650.jpg

從上圖可以看出,Google的Omnitone系統(tǒng)的Ambisonic解碼器采用了業(yè)界主流的算法流程,根據(jù)傳感器給出的方位信息, 采用一個旋轉(zhuǎn)算子來實現(xiàn)聲場旋轉(zhuǎn),進而用雙聲道輸出。

可以大膽預言的是是,F(xiàn)OA的全景聲將會在未來幾年快速普及,這對VR行業(yè)來說也是一個福音。不過,現(xiàn)在的問題是FOA聲音文件缺乏,而錄制FOA聲音硬件昂貴,且不便于攜帶使用。有興趣創(chuàng)業(yè)者可以嘗試解決這個問題。

最后,記得關注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長按識別二維碼關注

硬科技產(chǎn)業(yè)媒體

關注技術驅(qū)動創(chuàng)新

分享到