復(fù)雜的中國(guó)駕駛場(chǎng)景,正是深度學(xué)習(xí)的優(yōu)勢(shì)
深度學(xué)習(xí)十分適合高度復(fù)雜場(chǎng)景下的自動(dòng)駕駛應(yīng)用,尤其與增強(qiáng)學(xué)習(xí)相配合,能讓從感知到執(zhí)行的過(guò)程變得簡(jiǎn)單。
編者按:本文作者李星宇,現(xiàn)地平線機(jī)器人汽車業(yè)務(wù)總監(jiān),前飛思卡爾應(yīng)用處理器汽車業(yè)務(wù)市場(chǎng)經(jīng)理,原士蘭微電子安全技術(shù)專家。
深度學(xué)習(xí)十分適合高度復(fù)雜場(chǎng)景下的自動(dòng)駕駛應(yīng)用,尤其與增強(qiáng)學(xué)習(xí)相配合,能讓從感知到執(zhí)行的過(guò)程變得簡(jiǎn)單。
谷歌和李世石的人機(jī)大戰(zhàn)引爆了公眾對(duì)于人工智能的關(guān)注,也讓基于深度學(xué)習(xí)的人工智能成為汽車業(yè)界關(guān)注的重點(diǎn),那么深度學(xué)習(xí)在智能駕駛的應(yīng)用場(chǎng)景下有什么幫助呢?
自動(dòng)駕駛最先出現(xiàn)在美國(guó),而不是歐洲或者日本,更不是中國(guó),非常關(guān)鍵的一個(gè)原因在于,美國(guó)的駕駛環(huán)境相對(duì)于其它地區(qū)而言,是最簡(jiǎn)單的,無(wú)論是道路情況還是駕駛習(xí)慣。這就意味著,開發(fā)一個(gè)自動(dòng)駕駛原型產(chǎn)品的技術(shù)難度可以大大降低。
這種高度復(fù)雜的場(chǎng)景很難用有限的規(guī)則來(lái)定義清楚,所以傳統(tǒng)的算法的表現(xiàn)往往無(wú)法滿足自動(dòng)駕駛的要求,而深度學(xué)習(xí)非常適合在復(fù)雜場(chǎng)景下的自動(dòng)駕駛應(yīng)用。如果這個(gè)場(chǎng)景足夠簡(jiǎn)單的話,深度學(xué)習(xí)并不能表現(xiàn)出相對(duì)于其它基于傳統(tǒng)模式識(shí)別方法的優(yōu)勢(shì)。
更具體一點(diǎn)來(lái)講,對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的識(shí)別、判斷、分類是它的優(yōu)勢(shì)所在。圖像、語(yǔ)音都是非結(jié)構(gòu)化的,而像 Excel 表格上的數(shù)據(jù),我們稱之為結(jié)構(gòu)化的數(shù)據(jù)。自動(dòng)駕駛所面臨的環(huán)境,如果表達(dá)出來(lái),正是非結(jié)構(gòu)化的數(shù)據(jù),深度學(xué)習(xí)可以很好地處理這種場(chǎng)景。
深度學(xué)習(xí)的前沿技術(shù)
深度學(xué)習(xí)的發(fā)展其實(shí)有很長(zhǎng)的歷史,它的原理從上世紀(jì)五十年代末期就已經(jīng)出,80 年代在手寫體數(shù)字的識(shí)別方面取得相當(dāng)?shù)某删?,并?yīng)用于美國(guó)的郵政系統(tǒng)。但其真正崛起還是在十年前開始的。
這里面其實(shí)是有時(shí)代的大背景的因素,這個(gè)時(shí)代提供了深度學(xué)習(xí)兩個(gè)最關(guān)鍵的助推引擎:大數(shù)據(jù)和高性能處理器。深度學(xué)習(xí)非常適合利用大數(shù)據(jù)提高性能,隨著用于訓(xùn)練的數(shù)據(jù)量不斷增加,深度學(xué)習(xí)的性能也得到持續(xù)的提升。
事實(shí)上到目前為止,我們還沒(méi)有發(fā)現(xiàn)其性能提升的上限。這是深度學(xué)習(xí)目前受到關(guān)注的一個(gè)非常重要的原因。過(guò)去很難獲得如此大量的數(shù)據(jù),也缺乏足夠強(qiáng)勁的計(jì)算平臺(tái),而今天隨著物聯(lián)網(wǎng)的發(fā)展,據(jù)獲取已經(jīng)不再是問(wèn) 題。另一方面,著單個(gè)處理器的性能進(jìn)入 TFLOPS 時(shí)代,深度學(xué)習(xí)所需要海量計(jì)算已經(jīng)在經(jīng)濟(jì)上變得可承受了。谷歌的 AlphaGo 的計(jì)算能力是當(dāng)年擊敗國(guó)際象棋冠軍的 IBM 深藍(lán)的三萬(wàn)倍。要知道當(dāng)年的深藍(lán)可是大型機(jī),成本不是一般應(yīng)用可以承受的。
從 2012 年 Hinton 和他的學(xué)生 Alex 在國(guó)際上權(quán)威的圖像識(shí)別領(lǐng)域 Imagenet 比賽奪冠以來(lái),深度學(xué)習(xí)目前已經(jīng)可以達(dá)到 97%的識(shí)別準(zhǔn)確率,超過(guò)普通人的 95% 的識(shí)別準(zhǔn)確率。機(jī)器視覺(jué)的識(shí)別能力超過(guò)人類,這是人工智能領(lǐng)域了不起的成就, 而這一切在僅僅 4 年的時(shí)間內(nèi)就實(shí)現(xiàn),則更凸顯了深度學(xué)習(xí)的潛力和業(yè)界的研究 熱潮。深度學(xué)習(xí)還在持續(xù)擴(kuò)展其潛力,在人臉識(shí)別方面的準(zhǔn)確率可達(dá) 99.5%以 上(基于 LFW 數(shù)據(jù)庫(kù))。
很多人也會(huì)問(wèn),到底深度學(xué)習(xí)是一個(gè)什么樣的東西?要用簡(jiǎn)單的話解釋清楚其實(shí)是一件很有挑戰(zhàn)性的事情,它涉及很多較為抽象的基礎(chǔ)知識(shí),比較形象地描述:深度學(xué)習(xí)其實(shí)是對(duì)人的大腦識(shí)別機(jī)制的模擬。
舉個(gè)例子,我看到對(duì)面走來(lái)一個(gè)人,瞬間就可以判斷出這個(gè)人是我的同事。眼睛獲取的影像有幾十萬(wàn)像素, 需要上百萬(wàn)字節(jié)去描述,而大腦經(jīng)過(guò)處理后,可以將它簡(jiǎn)化為幾個(gè)字節(jié),就是同事的名字。人的大腦可以非常高效地處理海量的非結(jié)構(gòu)化數(shù)據(jù),把其中的內(nèi)容識(shí)別出來(lái),用極其精簡(jiǎn)的信息去描述。這也正是深度學(xué)習(xí)的本質(zhì)——把復(fù)雜信息精簡(jiǎn)地表達(dá)出來(lái)。
技術(shù)化的描述是:基于數(shù)據(jù)驅(qū)動(dòng)的、自動(dòng)學(xué)習(xí)要建模的數(shù)據(jù)的潛在(隱含)分布的多層(復(fù)雜)表達(dá)的算法。目前深度學(xué)習(xí)使用最多的建模技術(shù)是多層卷積神經(jīng)網(wǎng)絡(luò),并建立大量的隱含層(可達(dá)上百層)。
這個(gè)技術(shù)出現(xiàn)已經(jīng)很久了,但在此之前一直表現(xiàn)不好,那個(gè)時(shí)候大家都是在小規(guī)模樣本下進(jìn)行的,對(duì)于參數(shù)的調(diào)整非常困難。深度學(xué)習(xí)一個(gè)最大的突破就是,將參數(shù)的計(jì)算自動(dòng)化,人不再進(jìn)行干預(yù),而是讓它通過(guò)大量的數(shù)據(jù)學(xué)習(xí),自己確定這個(gè)參數(shù)。
深度學(xué)習(xí)的技術(shù)也在快速演進(jìn),比如 LSTM(長(zhǎng)短期記憶模型)的使用,賦予深度神經(jīng)網(wǎng)絡(luò)保存狀態(tài)的能力。也就是,我們將賦予機(jī)器記憶的能力。
它的用途在哪里呢?拿玩游戲來(lái)說(shuō)。比如射擊類的游戲,目前基于深度學(xué)習(xí)和增強(qiáng)學(xué)習(xí)的人工智能系統(tǒng)可以有非常出色的表現(xiàn),因?yàn)樗恍枰涀∵^(guò)去的游戲狀態(tài),而當(dāng)機(jī)器玩一些策略類游戲 的時(shí)候,比如星際爭(zhēng)霸,沒(méi)有記憶能力導(dǎo)致它無(wú)法進(jìn)行長(zhǎng)時(shí)間跨度的策略規(guī)劃,與人的表現(xiàn)就相差甚遠(yuǎn)。
LSTM 使得深度神經(jīng)網(wǎng)絡(luò)從一個(gè)二維空間網(wǎng)絡(luò)變成了一 個(gè)時(shí)空結(jié)構(gòu)的網(wǎng)絡(luò),即在時(shí)間尺度上也表現(xiàn)出深度,結(jié)果就是機(jī)器不需要從頭開始認(rèn)知,而是把過(guò)去和現(xiàn)在連接在一起,規(guī)劃下一步的行動(dòng)。顯然,這讓大型的策略類游戲成為機(jī)器的下一個(gè)征服目標(biāo)。上周傳出消息 AlphaGo 要在今年內(nèi)對(duì)戰(zhàn)柯潔,期待一下 AlphaGo 的下一次驚艷出場(chǎng)吧。
深度學(xué)習(xí)的注意力模型也是一個(gè)技術(shù)熱點(diǎn),它是對(duì)整個(gè)場(chǎng)景進(jìn)行語(yǔ)義級(jí)別的理解,可以讓機(jī)器鎖定圖像中我們需要關(guān)注的部分。在未來(lái)幾年,這些技術(shù)可以讓機(jī)器理解視頻流,并將其轉(zhuǎn)化為直接的語(yǔ)義述。這么說(shuō)吧,結(jié)合上面的技術(shù),機(jī)器可以跟你一起看電影,并分享對(duì)于電影的理解(單身狗的福利呀,一個(gè)人去電影院也不會(huì)感到寂寞了,只要帶著你的機(jī)器寵物一起去) 。
總體來(lái)講,具備深度學(xué)習(xí)能力的設(shè)備就好像是一個(gè)有生命力的機(jī)器,它會(huì)隨著數(shù)據(jù)訓(xùn)練的過(guò)程逐步成長(zhǎng),它的本領(lǐng)是可以持續(xù)提高的,而且這種本領(lǐng)可以被復(fù)制到另一個(gè)設(shè)備中。
深度學(xué)習(xí)與增強(qiáng)學(xué)習(xí)雙管齊下通往自動(dòng)駕駛
深度學(xué)習(xí)對(duì)感知有非常強(qiáng)的能力,可以理解各種復(fù)雜圖像的含義,但是它并不能把這種感知轉(zhuǎn)化為決策能力。增強(qiáng)學(xué)習(xí)就是用來(lái)解決這個(gè)問(wèn)題。
如果打個(gè)比方的話,增強(qiáng)學(xué)習(xí)借鑒了馴獸員的方法,不教動(dòng)物們?nèi)魏我?guī)則(當(dāng)然也教不會(huì)呀), 一開始讓動(dòng)物們隨便地做各種動(dòng)作。當(dāng)其中有一個(gè)動(dòng)作是符合期望的時(shí)候,立即給它們好吃的,就是增強(qiáng)了它們繼續(xù)這個(gè)動(dòng)作的動(dòng)力。隨著訓(xùn)練時(shí)間和次數(shù)的增加,動(dòng)物們就會(huì)真的在頭腦里建立一個(gè)規(guī)則:做某個(gè)動(dòng)作可以得到好吃的。因而,將其稱之為「增強(qiáng)(reinforcement)」學(xué)習(xí)的原因。
某種意義上,這也借鑒了管理學(xué)上的結(jié)果導(dǎo)向的理念,有兩個(gè)關(guān)鍵點(diǎn):第一,只看重結(jié)果,不關(guān)心過(guò)程或者動(dòng)機(jī);第二,對(duì)于每一次行動(dòng),及時(shí)獎(jiǎng)懲,強(qiáng)化認(rèn)知。
自動(dòng)駕駛的整個(gè)系統(tǒng),一般來(lái)說(shuō)由三個(gè)層級(jí)組成:感知層、規(guī)劃決策層和控制執(zhí)行層。深度學(xué)習(xí)和增強(qiáng)學(xué)習(xí)結(jié)合的結(jié)果,會(huì)使得感知和執(zhí)行以前所未有地方式真正緊密地結(jié)合在一起,完成自動(dòng)駕駛。
1.感知
感知層的任務(wù)是完成環(huán)境態(tài)勢(shì)感知,這個(gè)是自動(dòng)駕駛的核心環(huán)節(jié)。在自動(dòng)駕駛中,任何執(zhí)行動(dòng)作都要以理解整個(gè)駕駛環(huán)境為前提。這里面分為兩層:車外環(huán)境和車內(nèi)環(huán)境。
對(duì)于車外環(huán)境,首先是多種傳感器的輸入,比如多攝像頭、毫米波雷達(dá)以及激光雷達(dá)等,通過(guò)融合映射到一個(gè)統(tǒng)一的坐標(biāo)系中,這些圖像信息需要進(jìn)行物體的識(shí)別和分類,比如車道、路肩、車輛、行人等等,這正是深度學(xué)習(xí)的優(yōu)勢(shì)。利用深度學(xué)習(xí),在計(jì)算系統(tǒng)中重構(gòu)出來(lái)一個(gè) 3D 環(huán)境,這個(gè)環(huán)境中的各個(gè)物體都會(huì)被識(shí)別并理解。
對(duì)于車內(nèi)環(huán)境,是指對(duì)車內(nèi)駕駛員的感知,包括其疲勞程度、駕駛意圖等,這將給后面的決策控制提供決策基礎(chǔ)信息,如疲勞檢測(cè)系統(tǒng)在檢測(cè)到駕駛員進(jìn)入嚴(yán)重的疲勞狀態(tài)后,自動(dòng)將駕駛狀態(tài)從人工操控轉(zhuǎn)為自動(dòng)駕駛。
2.局部路徑規(guī)劃
這里需要對(duì)整個(gè)車外環(huán)境中車輛、交通狀況和行人等的意圖或者在一段時(shí)間內(nèi)的行為進(jìn)行預(yù)測(cè),再根據(jù)本車的狀態(tài)和意圖,結(jié)合前面的環(huán)境感知結(jié)果和高精度地圖提供的道路信息等,規(guī)劃出最佳的行駛路徑,這個(gè)規(guī)劃需要可以滿足駕駛意圖,并對(duì)周圍的車輛友好、安全。
通過(guò)積累大量的數(shù)據(jù)進(jìn)行足夠的訓(xùn)練,基于深度學(xué)習(xí)的系統(tǒng)可以給出最優(yōu)規(guī)劃。當(dāng)然,這種規(guī)劃不能單純依賴深度學(xué)習(xí)的預(yù)判,它必須和交通規(guī)則的專家系統(tǒng),以及其它高可靠性手段結(jié)合,才可以達(dá)到實(shí)用。例如 V2X 的普及,會(huì)使得本車可以在超視距范圍內(nèi),精確地獲取周圍車輛的位置、速度以及駕駛意圖(轉(zhuǎn)彎/變道)等。
3.決策控制
在路徑規(guī)劃確定后,自動(dòng)駕駛系統(tǒng)需要進(jìn)行本車意圖決策,比如什么時(shí)候進(jìn)行超車、什么時(shí)候轉(zhuǎn)彎、選擇什么時(shí)機(jī)進(jìn)行變道是最優(yōu)的等等。自動(dòng)駕駛系統(tǒng)需要學(xué)習(xí)人類開車的習(xí)慣,學(xué)會(huì)如何在復(fù)雜的會(huì)車場(chǎng)景下進(jìn)行操作、保持合理的車距等,更進(jìn)一步地,學(xué)習(xí)主人的開車習(xí)慣,在滿足安全性的前提下,盡量使自動(dòng)駕駛的風(fēng)格與其開車行為相適應(yīng),提供更好的用戶體驗(yàn),并優(yōu)化自己的駕駛效率。很顯然,這里增強(qiáng)學(xué)習(xí)是非常適合的技術(shù)。
目前,前沿的研究人員正利用深度學(xué)習(xí)和增強(qiáng)學(xué)習(xí)開展一些非常炫酷的功能,例如完成從原始傳感器數(shù)據(jù)到實(shí)際動(dòng)作執(zhí)行器的直接過(guò)渡。
在今年的 CES 展上,豐田展示了一套類似的自動(dòng)駕駛演示系統(tǒng),在一塊布有障礙并有指示方向的方形地形中,8 輛沒(méi)有駕駛經(jīng)驗(yàn)的模型車,將傳感器監(jiān)測(cè)到的環(huán)境信息輸入深度學(xué)習(xí)系統(tǒng),并將深度學(xué)習(xí)系統(tǒng)與油門、制動(dòng)和方向輸出連接。經(jīng)歷約 4 個(gè)小時(shí)的學(xué)習(xí)后, 基本實(shí)現(xiàn)了零事故。
自動(dòng)駕駛的測(cè)試是一個(gè)非常耗時(shí)、費(fèi)錢的工作,谷歌累計(jì)的自動(dòng)駕駛實(shí)際道路測(cè)試?yán)锍桃呀?jīng)超過(guò) 100 萬(wàn)英里,如何更高效地測(cè)試也是自動(dòng)駕駛領(lǐng)域的一個(gè)關(guān)鍵問(wèn)題。
從理論上講,我們可以用計(jì)算系統(tǒng)去模擬實(shí)際道路的情形,如果我們可以對(duì)道路上的各個(gè)要素進(jìn)行準(zhǔn)確地建模, 并且模擬這些要素的行為,例如超車、剎車、變道。利用蒙特卡洛模擬,配合增強(qiáng)學(xué)習(xí)的技術(shù),就能構(gòu)建一個(gè)自主運(yùn)行的系統(tǒng)。這個(gè)系統(tǒng)本身在不需要耗費(fèi)一滴汽油的情況下,產(chǎn)生大量的模擬場(chǎng)景,發(fā)現(xiàn)自動(dòng)駕駛原型的各種缺陷,并獲得大量的數(shù)據(jù)。就像谷歌訓(xùn)練它的 AlphaGo 一樣。
結(jié)語(yǔ)
去年 10 月,豐田宣布投入 10 億美元,設(shè)立一家專注于研發(fā)人工智能的新公司 Toyota Research Institute,希望打造像人類一樣會(huì)自己「思考」的、可以應(yīng)對(duì)突發(fā)情況的汽車, 讓自動(dòng)駕駛技術(shù)更加可靠。
去年年底,豐田還投資了 Preferred Networks,另外一家深度學(xué)習(xí)領(lǐng)域的初創(chuàng)公司,通用則直接收購(gòu)了初創(chuàng)公司 Cruise Automation,只要看名字你就知道這家公司是干什么的。
真金白銀的投入,其背后折射出的是車廠對(duì)于深度學(xué)習(xí)技術(shù)的認(rèn)可。奧迪在 2015 年首次在美國(guó)從硅谷自動(dòng)駕駛至拉斯維加斯測(cè)試其基于 A7 的自動(dòng)駕駛汽車時(shí),就明確表示:“自動(dòng)駕駛的關(guān)鍵是深度學(xué)習(xí)”。
最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新
