科普時間:OCR是人工智能的基礎(chǔ)之一
作為計算機(jī)視覺領(lǐng)域的一個分支,OCR對于人機(jī)交互相當(dāng)具有重要性。
在人機(jī)交互方面,大多人想到的都是語音交互,畢竟這是人類之間運用率最高的交流方式,且語音識別、自然語言理解等技術(shù)目前也發(fā)展的相當(dāng)不錯。
但是,我們也不得不忽視這樣一個事實:我們每天都被文字所包圍,像每天辦公的文件、上課的板書、商品的介紹等等都是由文字組成的,并且這些文字在某一程度上也是語音交互的基礎(chǔ),而這其中關(guān)乎一個關(guān)鍵的技術(shù)——OCR (Optical Character Recognition),光學(xué)字符識別。
什么是OCR?
OCR是指光學(xué)設(shè)備(掃描儀、數(shù)碼相機(jī)等)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機(jī)文字的過程,其本質(zhì)就是利用光學(xué)設(shè)備去捕獲圖像并識別文字,將人眼的能力延伸到機(jī)器上。此概念是在1929年由德國科學(xué)家Tausheck最先提出來的,后來美國科學(xué)家Handel也提出了利用技術(shù)對文字進(jìn)行識別的想法。
在20世紀(jì)50年代,IBM就開始利用OCR技術(shù)實現(xiàn)各類文檔的數(shù)字化,到了80年代,平板掃描儀的誕生更是讓OCR進(jìn)入了商用階段,但不管是哪個階段,那時的OCR設(shè)備對于文字背景的要求非常之高,也需要很好的成像質(zhì)量。
OCR的工作原理
一般來講,OCR的工作原理包括四個部分:
影像輸入:通過光學(xué)設(shè)備將圖片轉(zhuǎn)入計算機(jī)后,系統(tǒng)會對圖片進(jìn)行一些處理,包括字符格式的分離、二值化處理、圖像降噪、傾斜校正、文字特征抽取等等,以提升圖片的精確度;
對比識別:根據(jù)字符的不同特征,將之與數(shù)據(jù)庫進(jìn)行對比,并利用對比后的識別文字與其可能的相似候選字群眾,根據(jù)前后的識別文字找出最合乎邏輯的詞,再作出更正,以加強比對的正確性;
人工校正:目前為止還沒有一款軟件的文字識別時百分之百的,所以還需要用戶親自校正,確保輸出的準(zhǔn)確性;
影像輸出:結(jié)果輸出到txt、doc、exl等格式。
現(xiàn)實中,OCR的發(fā)展其實已經(jīng)相當(dāng)完善了,不過,隨著人們需求的變更,此種OCR已經(jīng)不能滿足人們的要求。而在當(dāng)前,自然環(huán)境OCR是人們最為關(guān)注的點。
自然環(huán)境OCR進(jìn)展
相比于傳統(tǒng)的OCR,自然環(huán)境OCR最難的部分在于文本檢測(將文字從圖片中提取出來),因為它具有極大的多樣性和明顯的不確定性。如文字中包含多種語言,每種語言含有多種字母,每個字母又可以有不同的大小、字體、顏色、亮度、對比度、排列和對齊方式等;因拍攝圖像的隨意性,文字區(qū)域還可能會產(chǎn)生變形、模糊斷裂等現(xiàn)象。另外,背景也是一大干擾因素,如文字區(qū)域附近有非常復(fù)雜的紋理;非文字區(qū)域有著跟文字區(qū)域非常相似的紋理,比如窗戶、樹葉、柵欄、磚墻等。
文本檢測首先要從圖像中切割出可能存在的文字,即候選連通區(qū)域,目前被采取最多的方法是MSER(最大平穩(wěn)極值區(qū)域)。當(dāng)然,也有團(tuán)隊在此基礎(chǔ)上開發(fā)出了自己的一套算法,比如微軟研究院在傳統(tǒng)檢測方法ER(極值區(qū)域)和MSER基礎(chǔ)之上采用了對比極值區(qū)域CER(Contrasting Extremal Region),CER是跟周圍的背景有一定對比度的極值區(qū)域,在低對比度的圖像上比MSER效果更好,而且獲得的候選連通區(qū)域數(shù)量遠(yuǎn)小于ER,提高了算法的效率,并且,為了提高所獲得連通區(qū)域的質(zhì)量,微軟又增加一個算法環(huán)節(jié)去增強CER。最后,微軟采取了一套基于淺層神經(jīng)網(wǎng)絡(luò)的文字/非文字分類算法,進(jìn)一步提高了對于連通區(qū)域字符的辨認(rèn)率。
在此基礎(chǔ)之上,微軟研究院的成果也得到了世界的驗證。2014年8月,在瑞典首都斯德哥爾摩舉辦的國際模式識別大會(ICPR)上,微軟亞洲研究院團(tuán)隊公布的研究成果在自然場景文字檢測的標(biāo)準(zhǔn)數(shù)據(jù)集(ICDAR-2013測試集)上取得了92.1%的檢測精度和92.3%的召回率。據(jù)了解,此前業(yè)界最好技術(shù)的檢測精度是88.5%,而召回率只有66.5%。
OCR的應(yīng)用前景
不管是傳統(tǒng)OCR,還是自然環(huán)境OCR,其參與者還是不少的。在國內(nèi),涉足OCR的企業(yè)主要有漢王、文通、百度等,國外的像ABBYY、IRIS、Google、微軟等等。此外,市面上也有不少OCR產(chǎn)品,傳統(tǒng)的OCR產(chǎn)品有尚書、漢王等,自然環(huán)境OCR的有百度翻譯、Google翻譯,實用性相當(dāng)?shù)牟诲e。
論起OCR的應(yīng)用前景的話,僅看其隸屬于計算機(jī)視覺領(lǐng)域的一個分支,再聯(lián)系到當(dāng)前人工智能的發(fā)展,其前景可想而知。再往細(xì)講,除了翻譯、智能購物意外,OCR未來最大的發(fā)展?jié)摿υ谟谌藱C(jī)交互。
眾所周知,人機(jī)交互一直是研究者追求的東西,但是目前也僅僅做到了語音交互和肢體交互。文字代表了人類的所有智慧與思想,如果機(jī)器人能夠進(jìn)行文字識別,那它將能夠進(jìn)一步獲取知識、學(xué)習(xí)人類,進(jìn)而與人類進(jìn)行更為自然的交互,或是協(xié)助人類工作,提高效率。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅(qū)動創(chuàng)新
