深思考楊志明:多模態(tài)深度語(yǔ)義理解開(kāi)啟人機(jī)交互新時(shí)代

Lynn 7年前 (2018-12-24)

彌補(bǔ)深度學(xué)習(xí)不足,楊志明認(rèn)為類腦AI是“最佳人選”。

彌補(bǔ)深度學(xué)習(xí)不足,楊志明認(rèn)為類腦AI是“最佳人選”。

隨著云、物聯(lián)網(wǎng)、互聯(lián)網(wǎng)網(wǎng)絡(luò)、光網(wǎng)、寬帶、5G的發(fā)展,大數(shù)據(jù)燃料非常充足,未來(lái)的少人化工廠、虛擬社區(qū)、私人定制等服務(wù)都將是智能化場(chǎng)景的最終形態(tài),這使得如何實(shí)現(xiàn)更自然的人機(jī)交互成為當(dāng)下十分重要的課題。

在剛剛結(jié)束的“2018硬科技行業(yè)領(lǐng)袖峰會(huì)暨鎂客網(wǎng)年會(huì)”活動(dòng)上,深思考人工智能CEO兼AI算法科學(xué)家楊志明博士發(fā)表了主題為《多模態(tài)深度語(yǔ)義理解開(kāi)啟人機(jī)交互新時(shí)代》的演講,他直言行業(yè)急需改進(jìn):目前的AI技術(shù)在產(chǎn)業(yè)化中已經(jīng)有很多問(wèn)題出現(xiàn),比如深度學(xué)習(xí)非常依賴大數(shù)據(jù),而人腦是依賴小數(shù)據(jù)的,看到一個(gè)新的人臉就可以很快的記住并認(rèn)識(shí)他,但AI不行。那么,我們就得思考如何讓AI模仿人腦舉一反三。

演講中,楊志明通過(guò)案例呈現(xiàn)做了深度的探討。

深思考楊志明:多模態(tài)深度語(yǔ)義理解開(kāi)啟人機(jī)交互新時(shí)代

以下為楊志明先生的演講實(shí)錄:

各位聽(tīng)眾大家上午好,非常榮幸跟大家分享一下多模態(tài)深度語(yǔ)義理解和人機(jī)交互。

首先我介紹一下什么是類腦人工智能?,F(xiàn)在AI概念比較普及,我們做AI的一線從業(yè)者發(fā)現(xiàn)了一些問(wèn)題,目前的人工智能大多數(shù)突破的是深度學(xué)習(xí)的方法,其實(shí)到我們逐漸的產(chǎn)業(yè)化過(guò)程中卻發(fā)生了一些問(wèn)題。深度學(xué)習(xí)主要存在哪些問(wèn)題?首先深度學(xué)習(xí)比傳統(tǒng)學(xué)習(xí)要好很多,但深度學(xué)習(xí)也存在一些問(wèn)題,一些我們產(chǎn)業(yè)化和研究中遇到的問(wèn)題,比如深度學(xué)習(xí)非常依賴大數(shù)據(jù)。而人腦是可以依賴小數(shù)據(jù)的,就好像我們看到一個(gè)新的人臉的時(shí)候,很快可以認(rèn)識(shí)他/她,即便是小數(shù)據(jù)也可以做到非常好的結(jié)果。另外深度學(xué)習(xí)功耗非常大,運(yùn)算速度也非常慢。人腦功耗非常低,運(yùn)行速度也非常快。我們?nèi)四X可以舉一反三,但是深度學(xué)習(xí)、機(jī)器學(xué)習(xí)沒(méi)法做到很好的推理,它必須依賴大量的數(shù)據(jù)學(xué)習(xí)數(shù)據(jù)的規(guī)律。

以上三點(diǎn)是類腦AI要去解決的問(wèn)題,那么如何使得我們的人工智能不完全依賴大數(shù)據(jù),小數(shù)據(jù)也可以運(yùn)行,使得人工智能可以實(shí)現(xiàn)快速的遷移?現(xiàn)在所謂的人工智能都在聚焦某個(gè)場(chǎng)景,但其實(shí)怎么模擬的人腦舉一反三,怎么在目前AI小的計(jì)算資源下快速和低功耗的運(yùn)行?這是我們要致力解決的類腦AI技術(shù)。

目前,從取得的成果來(lái)看,我們已經(jīng)在多模態(tài)深度語(yǔ)義理解這塊做了突破。比如看一個(gè)電視劇,眼睛看畫(huà)面、耳朵聽(tīng)聲音、眼睛看字幕,對(duì)不同事物不同狀態(tài),人腦可以同時(shí)做理解。但AI還停留在識(shí)別與感知階段,人腦更多是語(yǔ)義理解,而且是多模態(tài)理解,這是我們專注的人工智能技術(shù)領(lǐng)域。

其中,我們的多模態(tài)的深度語(yǔ)義理解,可以同時(shí)多模態(tài)的實(shí)現(xiàn)對(duì)文本與視覺(jué)圖像的語(yǔ)義理解。舉例來(lái)說(shuō),如果傳統(tǒng)時(shí)代做AI識(shí)別,一個(gè)小狗在小樹(shù)蔭下面我們?nèi)プR(shí)別的時(shí)候,發(fā)現(xiàn)識(shí)別分類兩個(gè)目標(biāo),一個(gè)目標(biāo)是小狗,另外一個(gè)目標(biāo)是一棵樹(shù),基于視覺(jué)語(yǔ)義理解,一個(gè)小狗在樹(shù)蔭下乘涼,而我們?nèi)四X理解的是更加深度的理解文本背后的含義:一個(gè)小狗在樹(shù)蔭下乘涼,外面是炎炎夏日。這便是我們的多模態(tài)深度語(yǔ)義理解,我們把這個(gè)用在人機(jī)交互上產(chǎn)生了很多技術(shù)特點(diǎn)和變化。

拿自由切換場(chǎng)景來(lái)舉例,人與人交流的時(shí)候是可以自由切換場(chǎng)景的,比如第一個(gè)場(chǎng)景買一張機(jī)票,對(duì)方問(wèn)“你要去哪?”我可以答非所問(wèn),“你放一點(diǎn)音樂(lè)我來(lái)聽(tīng)一聽(tīng)。我先想一想,我想明天下午兩點(diǎn)以后去。”但這句話其實(shí)是針對(duì)一個(gè)場(chǎng)景的上一個(gè)問(wèn)題的答非所問(wèn),我們?nèi)祟惤换サ臅r(shí)候就是這樣,大量的時(shí)候是缺省,比如“日本國(guó)土面積是多少?”“中國(guó)呢?”所以在人機(jī)對(duì)話的時(shí)候也是大量存在缺省的,我們用多模態(tài)語(yǔ)義理解現(xiàn)在取得的突破,相比同行的友商我們突出的競(jìng)品優(yōu)勢(shì)就是:人機(jī)對(duì)話能夠?qū)崿F(xiàn)自由地切換對(duì)話場(chǎng)景,具備上下文流暢的多輪交互。

在醫(yī)療方面,我們切入的落地場(chǎng)景是智慧醫(yī)療的宮頸癌細(xì)胞學(xué)AI輔助篩查,這是一個(gè)剛需場(chǎng)景,宮頸癌是女性最高發(fā)的惡性腫瘤之一,每一位適齡女性都應(yīng)該定期進(jìn)行宮頸癌篩查,但與此同時(shí),病理醫(yī)師新生力量呈現(xiàn)“斷崖式”短缺,國(guó)內(nèi)醫(yī)療資源分布不平衡,相關(guān)醫(yī)療篩查產(chǎn)品準(zhǔn)確率低等問(wèn)題的出現(xiàn),遠(yuǎn)遠(yuǎn)無(wú)法滿足中國(guó)女性的醫(yī)療需求。我們通過(guò)“多模態(tài)深度語(yǔ)義理解”技術(shù)進(jìn)行“排陰”,輔助病理醫(yī)生閱片,病理醫(yī)生只需要人機(jī)協(xié)同進(jìn)行復(fù)核操作,從而提高宮頸癌篩查效率、降低病理醫(yī)生篩查工作量及工作強(qiáng)度,快速降低誤診、漏診。

為什么多模態(tài)深度語(yǔ)義理解有技術(shù)優(yōu)勢(shì)?舉例來(lái)說(shuō),在宮頸細(xì)胞中有一種叫腺細(xì)胞,這類細(xì)胞病變比較罕見(jiàn),我們北京市總共才收集到600例數(shù)據(jù)便做出了非常好的結(jié)果,要知道腺細(xì)胞本身識(shí)別的話沒(méi)有問(wèn)題,但他們會(huì)“抱團(tuán)”出現(xiàn)問(wèn)題,通過(guò)多模態(tài)深度語(yǔ)義理解技術(shù),我們便可以發(fā)現(xiàn)它們的問(wèn)題,并且我們的產(chǎn)品是國(guó)內(nèi)唯一可以篩出腺細(xì)胞異常的產(chǎn)品。目前我們的iDeepWise.AI 4.0產(chǎn)品已經(jīng)覆蓋70%第三方檢驗(yàn)機(jī)構(gòu)市場(chǎng),同時(shí)與30多家知名三甲醫(yī)院建立合作。

此外,深思考人工智能技術(shù)落地應(yīng)用場(chǎng)景在智能汽車領(lǐng)域,汽車人機(jī)交互和語(yǔ)義理解存在剛需場(chǎng)景。第一,實(shí)時(shí)性。不能完全云端運(yùn)行的場(chǎng)景,比如信號(hào)不好時(shí),云端反饋回來(lái)比較慢,上云反饋結(jié)果以后這個(gè)車可能開(kāi)過(guò)去了,這類實(shí)時(shí)性要求比較高,我們通過(guò)端模式針對(duì)這個(gè)場(chǎng)景做實(shí)時(shí)運(yùn)算。第二是車內(nèi)個(gè)性化需求,包括針對(duì)用戶的習(xí)慣和愛(ài)好做人機(jī)交互對(duì)話,根據(jù)不同場(chǎng)景、不同用戶的習(xí)慣跟用戶實(shí)現(xiàn)人機(jī)對(duì)話。

車機(jī)這塊APP太多了,用語(yǔ)音識(shí)別產(chǎn)品還不夠。語(yǔ)音識(shí)別能解決聽(tīng)見(jiàn)的問(wèn)題,比如“我比較熱”,語(yǔ)音識(shí)別是理解不出來(lái)的,但加上我們多模態(tài)語(yǔ)義對(duì)話的產(chǎn)品就可以,“主人你是要開(kāi)空調(diào)還是開(kāi)窗?”這樣對(duì)話就可以延續(xù)下去。

深思考AI落地在智能汽車場(chǎng)景這塊,針對(duì)于車內(nèi)人機(jī)交互的場(chǎng)景,通過(guò)“多模態(tài)深度語(yǔ)義理解與人機(jī)交互”技術(shù)實(shí)現(xiàn)車內(nèi)外場(chǎng)景的理解,從而更加主動(dòng)、更加智能地發(fā)現(xiàn)、滿足人們的需求,極大地提高車內(nèi)人機(jī)交互體驗(yàn)。通俗來(lái)講便是車外模組對(duì)當(dāng)前車輛所處的場(chǎng)景進(jìn)行理解,提高駕駛的安全和舒適性。例如我們通過(guò)8度攝像頭做車外視覺(jué)模組切換,我們現(xiàn)在車外視覺(jué)模組偵測(cè)到室外場(chǎng)景:夕陽(yáng)西下,風(fēng)景無(wú)限好。

同時(shí)車內(nèi)外模組的互相協(xié)作,車內(nèi)模組通過(guò)多輪跨域上下文理解、場(chǎng)景理解與提醒等多模態(tài)深度語(yǔ)義理解與人機(jī)交互技術(shù)將交互模式調(diào)整為適應(yīng)當(dāng)前場(chǎng)景的狀態(tài),為用戶提供最大化的“懂你”的交互體驗(yàn)升級(jí)。

目前我們已與國(guó)內(nèi)外多家汽車制造廠商和主機(jī)廠商進(jìn)行合作。

我們完全堅(jiān)信深思考人工智能的多模態(tài)深度語(yǔ)義理解技術(shù)與產(chǎn)品,深度結(jié)合場(chǎng)景需求,一定能實(shí)現(xiàn)人工智能的大規(guī)模應(yīng)用落地,未來(lái)實(shí)現(xiàn)處處可理解,萬(wàn)物可對(duì)話!謝謝大家。

最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(zhǎng)按識(shí)別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新

分享到