深思考楊志明:多模態(tài)深度語義理解開啟人機(jī)交互新時(shí)代
彌補(bǔ)深度學(xué)習(xí)不足,楊志明認(rèn)為類腦AI是“最佳人選”。
彌補(bǔ)深度學(xué)習(xí)不足,楊志明認(rèn)為類腦AI是“最佳人選”。
隨著云、物聯(lián)網(wǎng)、互聯(lián)網(wǎng)網(wǎng)絡(luò)、光網(wǎng)、寬帶、5G的發(fā)展,大數(shù)據(jù)燃料非常充足,未來的少人化工廠、虛擬社區(qū)、私人定制等服務(wù)都將是智能化場景的最終形態(tài),這使得如何實(shí)現(xiàn)更自然的人機(jī)交互成為當(dāng)下十分重要的課題。
在剛剛結(jié)束的“2018硬科技行業(yè)領(lǐng)袖峰會暨鎂客網(wǎng)年會”活動上,深思考人工智能CEO兼AI算法科學(xué)家楊志明博士發(fā)表了主題為《多模態(tài)深度語義理解開啟人機(jī)交互新時(shí)代》的演講,他直言行業(yè)急需改進(jìn):目前的AI技術(shù)在產(chǎn)業(yè)化中已經(jīng)有很多問題出現(xiàn),比如深度學(xué)習(xí)非常依賴大數(shù)據(jù),而人腦是依賴小數(shù)據(jù)的,看到一個(gè)新的人臉就可以很快的記住并認(rèn)識他,但AI不行。那么,我們就得思考如何讓AI模仿人腦舉一反三。
演講中,楊志明通過案例呈現(xiàn)做了深度的探討。
以下為楊志明先生的演講實(shí)錄:
各位聽眾大家上午好,非常榮幸跟大家分享一下多模態(tài)深度語義理解和人機(jī)交互。
首先我介紹一下什么是類腦人工智能。現(xiàn)在AI概念比較普及,我們做AI的一線從業(yè)者發(fā)現(xiàn)了一些問題,目前的人工智能大多數(shù)突破的是深度學(xué)習(xí)的方法,其實(shí)到我們逐漸的產(chǎn)業(yè)化過程中卻發(fā)生了一些問題。深度學(xué)習(xí)主要存在哪些問題?首先深度學(xué)習(xí)比傳統(tǒng)學(xué)習(xí)要好很多,但深度學(xué)習(xí)也存在一些問題,一些我們產(chǎn)業(yè)化和研究中遇到的問題,比如深度學(xué)習(xí)非常依賴大數(shù)據(jù)。而人腦是可以依賴小數(shù)據(jù)的,就好像我們看到一個(gè)新的人臉的時(shí)候,很快可以認(rèn)識他/她,即便是小數(shù)據(jù)也可以做到非常好的結(jié)果。另外深度學(xué)習(xí)功耗非常大,運(yùn)算速度也非常慢。人腦功耗非常低,運(yùn)行速度也非???。我們?nèi)四X可以舉一反三,但是深度學(xué)習(xí)、機(jī)器學(xué)習(xí)沒法做到很好的推理,它必須依賴大量的數(shù)據(jù)學(xué)習(xí)數(shù)據(jù)的規(guī)律。
以上三點(diǎn)是類腦AI要去解決的問題,那么如何使得我們的人工智能不完全依賴大數(shù)據(jù),小數(shù)據(jù)也可以運(yùn)行,使得人工智能可以實(shí)現(xiàn)快速的遷移?現(xiàn)在所謂的人工智能都在聚焦某個(gè)場景,但其實(shí)怎么模擬的人腦舉一反三,怎么在目前AI小的計(jì)算資源下快速和低功耗的運(yùn)行?這是我們要致力解決的類腦AI技術(shù)。
目前,從取得的成果來看,我們已經(jīng)在多模態(tài)深度語義理解這塊做了突破。比如看一個(gè)電視劇,眼睛看畫面、耳朵聽聲音、眼睛看字幕,對不同事物不同狀態(tài),人腦可以同時(shí)做理解。但AI還停留在識別與感知階段,人腦更多是語義理解,而且是多模態(tài)理解,這是我們專注的人工智能技術(shù)領(lǐng)域。
其中,我們的多模態(tài)的深度語義理解,可以同時(shí)多模態(tài)的實(shí)現(xiàn)對文本與視覺圖像的語義理解。舉例來說,如果傳統(tǒng)時(shí)代做AI識別,一個(gè)小狗在小樹蔭下面我們?nèi)プR別的時(shí)候,發(fā)現(xiàn)識別分類兩個(gè)目標(biāo),一個(gè)目標(biāo)是小狗,另外一個(gè)目標(biāo)是一棵樹,基于視覺語義理解,一個(gè)小狗在樹蔭下乘涼,而我們?nèi)四X理解的是更加深度的理解文本背后的含義:一個(gè)小狗在樹蔭下乘涼,外面是炎炎夏日。這便是我們的多模態(tài)深度語義理解,我們把這個(gè)用在人機(jī)交互上產(chǎn)生了很多技術(shù)特點(diǎn)和變化。
拿自由切換場景來舉例,人與人交流的時(shí)候是可以自由切換場景的,比如第一個(gè)場景買一張機(jī)票,對方問“你要去哪?”我可以答非所問,“你放一點(diǎn)音樂我來聽一聽。我先想一想,我想明天下午兩點(diǎn)以后去。”但這句話其實(shí)是針對一個(gè)場景的上一個(gè)問題的答非所問,我們?nèi)祟惤换サ臅r(shí)候就是這樣,大量的時(shí)候是缺省,比如“日本國土面積是多少?”“中國呢?”所以在人機(jī)對話的時(shí)候也是大量存在缺省的,我們用多模態(tài)語義理解現(xiàn)在取得的突破,相比同行的友商我們突出的競品優(yōu)勢就是:人機(jī)對話能夠?qū)崿F(xiàn)自由地切換對話場景,具備上下文流暢的多輪交互。
在醫(yī)療方面,我們切入的落地場景是智慧醫(yī)療的宮頸癌細(xì)胞學(xué)AI輔助篩查,這是一個(gè)剛需場景,宮頸癌是女性最高發(fā)的惡性腫瘤之一,每一位適齡女性都應(yīng)該定期進(jìn)行宮頸癌篩查,但與此同時(shí),病理醫(yī)師新生力量呈現(xiàn)“斷崖式”短缺,國內(nèi)醫(yī)療資源分布不平衡,相關(guān)醫(yī)療篩查產(chǎn)品準(zhǔn)確率低等問題的出現(xiàn),遠(yuǎn)遠(yuǎn)無法滿足中國女性的醫(yī)療需求。我們通過“多模態(tài)深度語義理解”技術(shù)進(jìn)行“排陰”,輔助病理醫(yī)生閱片,病理醫(yī)生只需要人機(jī)協(xié)同進(jìn)行復(fù)核操作,從而提高宮頸癌篩查效率、降低病理醫(yī)生篩查工作量及工作強(qiáng)度,快速降低誤診、漏診。
為什么多模態(tài)深度語義理解有技術(shù)優(yōu)勢?舉例來說,在宮頸細(xì)胞中有一種叫腺細(xì)胞,這類細(xì)胞病變比較罕見,我們北京市總共才收集到600例數(shù)據(jù)便做出了非常好的結(jié)果,要知道腺細(xì)胞本身識別的話沒有問題,但他們會“抱團(tuán)”出現(xiàn)問題,通過多模態(tài)深度語義理解技術(shù),我們便可以發(fā)現(xiàn)它們的問題,并且我們的產(chǎn)品是國內(nèi)唯一可以篩出腺細(xì)胞異常的產(chǎn)品。目前我們的iDeepWise.AI 4.0產(chǎn)品已經(jīng)覆蓋70%第三方檢驗(yàn)機(jī)構(gòu)市場,同時(shí)與30多家知名三甲醫(yī)院建立合作。
此外,深思考人工智能技術(shù)落地應(yīng)用場景在智能汽車領(lǐng)域,汽車人機(jī)交互和語義理解存在剛需場景。第一,實(shí)時(shí)性。不能完全云端運(yùn)行的場景,比如信號不好時(shí),云端反饋回來比較慢,上云反饋結(jié)果以后這個(gè)車可能開過去了,這類實(shí)時(shí)性要求比較高,我們通過端模式針對這個(gè)場景做實(shí)時(shí)運(yùn)算。第二是車內(nèi)個(gè)性化需求,包括針對用戶的習(xí)慣和愛好做人機(jī)交互對話,根據(jù)不同場景、不同用戶的習(xí)慣跟用戶實(shí)現(xiàn)人機(jī)對話。
車機(jī)這塊APP太多了,用語音識別產(chǎn)品還不夠。語音識別能解決聽見的問題,比如“我比較熱”,語音識別是理解不出來的,但加上我們多模態(tài)語義對話的產(chǎn)品就可以,“主人你是要開空調(diào)還是開窗?”這樣對話就可以延續(xù)下去。
深思考AI落地在智能汽車場景這塊,針對于車內(nèi)人機(jī)交互的場景,通過“多模態(tài)深度語義理解與人機(jī)交互”技術(shù)實(shí)現(xiàn)車內(nèi)外場景的理解,從而更加主動、更加智能地發(fā)現(xiàn)、滿足人們的需求,極大地提高車內(nèi)人機(jī)交互體驗(yàn)。通俗來講便是車外模組對當(dāng)前車輛所處的場景進(jìn)行理解,提高駕駛的安全和舒適性。例如我們通過8度攝像頭做車外視覺模組切換,我們現(xiàn)在車外視覺模組偵測到室外場景:夕陽西下,風(fēng)景無限好。
同時(shí)車內(nèi)外模組的互相協(xié)作,車內(nèi)模組通過多輪跨域上下文理解、場景理解與提醒等多模態(tài)深度語義理解與人機(jī)交互技術(shù)將交互模式調(diào)整為適應(yīng)當(dāng)前場景的狀態(tài),為用戶提供最大化的“懂你”的交互體驗(yàn)升級。
目前我們已與國內(nèi)外多家汽車制造廠商和主機(jī)廠商進(jìn)行合作。
我們完全堅(jiān)信深思考人工智能的多模態(tài)深度語義理解技術(shù)與產(chǎn)品,深度結(jié)合場景需求,一定能實(shí)現(xiàn)人工智能的大規(guī)模應(yīng)用落地,未來實(shí)現(xiàn)處處可理解,萬物可對話!謝謝大家。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅(qū)動創(chuàng)新
