自然語言處理,計(jì)算機(jī)與人類“談心”的關(guān)鍵
自然語言處理不達(dá)標(biāo),機(jī)器人就不能真正了解人類,智能服務(wù)也就不能做到完美。
2011年,日本多個(gè)機(jī)構(gòu)發(fā)起的一項(xiàng)機(jī)器人項(xiàng)目,以東京大學(xué)入學(xué)考試難度為目標(biāo),以檢驗(yàn)人工智能可在多大程度上模擬人類思考以及解決問題的能力。在去年和今年的考試中,機(jī)器人“Torobo-kun”分別獲得了511分和525分,總分為950分。照著當(dāng)前的成績,Torobo-kun有80%的可能被512所私立大學(xué)和23所國立大學(xué)和公立大學(xué)錄取,可惜的是,離東京大學(xué)至少獲得 80% 分?jǐn)?shù)的要求還差得很遠(yuǎn)。
根據(jù)對(duì)比,在兩次考試中,Torobo-kun在數(shù)學(xué)和物理方面有了明顯的進(jìn)步,而英語和國語的成績還是一團(tuán)糟。在鎂客君看來,相比于英語和國語,數(shù)學(xué)和物理對(duì)自然語言的理解要寬松一點(diǎn),所以,對(duì)于機(jī)器人在這兩門功課的進(jìn)步,其實(shí)并沒有多大的驚喜,而要想機(jī)器人能夠考上東京大學(xué),主要還是看英語和國文等需要深透理解的科目,而在這其中,自然語言處理是關(guān)鍵。
什么是自然語言處理?
自然語言處理(Natural Language Processing,簡稱NLP),還有人稱之為自然語言理解(Natural Language Understanding ,簡稱NLU)。對(duì)此,鎂客君覺得這兩者有著一個(gè)根本的區(qū)別,自然語言處理只是對(duì)語言的一種字面意思的處理和理解,而真正的“理解”是一個(gè)很難講明的東西,正如“一千個(gè)讀者就有一千個(gè)哈姆雷特”一般,當(dāng)讀完整本書,我們會(huì)用一些詞去形容哈姆雷特,只是自然語言的處理并不能達(dá)到這個(gè)程度。因而,在自然語言的相關(guān)技術(shù)之上,鎂客君更傾向于稱之為自然語言處理。
在人工智能領(lǐng)域,自然語言處理一個(gè)重要方向。簡單來講,自然語言處理就是用計(jì)算機(jī)來處理、理解以及運(yùn)用人類語言(如中文、英文等),它屬于人工智能的一個(gè)分支,是計(jì)算機(jī)科學(xué)與語言學(xué)的交叉學(xué)科。
一般來講,自然語言處理得步驟主要分為6步:
1、獲取原始文本;
2、對(duì)文本進(jìn)行預(yù)處理;
3、分詞:將文章按詞組分開。該步驟只針對(duì)中文,西方字幕語言已經(jīng)用空格做好了分詞;
4、詞法分析:對(duì)于英文,有詞頭、詞根、詞尾的拆分,名詞、動(dòng)詞、形容詞、副詞、介詞的定性,多種詞意的選擇。比如DIAMOND,有菱形、棒球場、鉆石3個(gè)含義,要根據(jù)應(yīng)用選擇正確的意思;
5、語法分析:通過語法樹或其他算法,分析主語、謂語、賓語、定語、狀語、補(bǔ)語等句子元素;
6、語義分析:通過選擇詞的正確含義,在正確句法的指導(dǎo)下,將句子的正確含義表達(dá)出來。
NLP主要的應(yīng)用方向
從應(yīng)用角度看,NLP的前景是相當(dāng)?shù)膹V泛,尤其是現(xiàn)在信息泛濫的時(shí)代,比如:
文本分類和聚類:主要是將文本按照關(guān)鍵字詞做出統(tǒng)計(jì),建造一個(gè)索引庫,這樣當(dāng)有關(guān)鍵字詞查詢時(shí),可以根據(jù)索引庫快速地找到需要的內(nèi)容;
信息抽取:直接從自然語言文本中抽取事實(shí)信息,一種更有力的信息獲取工具;
機(jī)器翻譯:顧名思義,就是語言之間的轉(zhuǎn)換,典型案例有百度翻譯、谷歌翻譯;
信息檢索和過濾:在大流量的信息中尋找關(guān)鍵詞,屬于網(wǎng)絡(luò)瞬時(shí)檢查的應(yīng)用范疇;
語音識(shí)別及文語轉(zhuǎn)換:將人類的語音轉(zhuǎn)換為文字,并理解其中的含義,諸如亞馬遜Alexa或一些家居機(jī)器人。
此外,除了這些,手寫體和印刷體字符識(shí)別、輿情分析和觀點(diǎn)挖掘等也屬于自然語言處理的應(yīng)用范疇。
NLP研究進(jìn)展的難處
目前,專注于自然語言處理的公司和團(tuán)隊(duì)也是相當(dāng)多的,大的有谷歌、蘋果、百度等等,小的有斯坦福大學(xué)自然語言處理研究小組、卡內(nèi)基梅隆大學(xué)語言技術(shù)研究院和中科院計(jì)算機(jī)所自然語言處理研究組等等。不過,雖然參與者眾多,但在前進(jìn)的過程中,依然有一些難題阻擋在那里,而相對(duì)于西方寓言,中文等語言的處理更是難上一層樓。以中文為例,自然語言處理都遇到了哪些難題?
令人費(fèi)解的多層次語義
此前,曾有這樣一個(gè)段子,在兩場比賽中,中國隊(duì)皆打敗了美國隊(duì),中國媒體在報(bào)道的時(shí)候分別以“中國隊(duì)大勝美國隊(duì)”、“中國隊(duì)大敗美國隊(duì)”來作為標(biāo)題,而美國人卻對(duì)第二句話做出了錯(cuò)誤的理解。在中國人看來,第二句話是說中國隊(duì)?wèi)?zhàn)勝了美國隊(duì),而在那些不了解中文或一知半解的人哪里,這句話有可能會(huì)被理解為“中國隊(duì)輸給了美國隊(duì)”,這就是一種歧義。
在這方面,連中文學(xué)習(xí)都是依靠數(shù)據(jù)庫的計(jì)算機(jī)而言,它們也跟那些外國人一樣,都只能算是一知半解,極有可能get不到正確的意思。
連貫的上下文理解
有時(shí)候,人們?cè)诶斫庖痪湓挼臅r(shí)候需要上下聯(lián)系,比如說話人所處的環(huán)境,或是文本中的前后文等,這些都是正確理解一句話所需要考慮的因素。
比如今年“威諾格拉德模式挑戰(zhàn)賽”(圖靈測試的一個(gè)變種)中的一個(gè)題目:市議員們拒絕示威者的游行許可,因?yàn)樗麄兒ε卤┝?。針?duì)“他們”這個(gè)詞的指定對(duì)象,如果是人類的話,通過前后文的理解,很快就知道這是在指“市議員們”,不過,對(duì)于計(jì)算機(jī)而言,這就有些困難了。據(jù)數(shù)據(jù)顯示,人類胡亂選擇的正確率是45%,而經(jīng)過慎重考慮的計(jì)算機(jī)最后的正確率也只比人類高了那么一丟丟的3%??梢?,在遇到這種情況時(shí),計(jì)算機(jī)的自然語言處理還不能達(dá)到令人滿意的程度。
在自然語言處理方面,研究者們還有許多的問題需要解決,比如訓(xùn)練數(shù)據(jù)的缺乏、成語俗語的處理等等,這些都需要研究者們花費(fèi)大量時(shí)間去解決。在此基礎(chǔ)之上,由于計(jì)算機(jī)不能夠正確理解人類的語言,一些人工智能產(chǎn)品的落地也相應(yīng)的受到了限制,比如一些個(gè)聊天機(jī)器人、語音助理等等。
最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新
