AI算法入駐Google搜索引擎,詞條再冷也可手到擒來!

韓璐 9年前 (2016-06-27)

近期,Google搜索引擎引入一種新的算法,在此基礎(chǔ)上,哪怕搜索詞條再冷門,用戶也可以搜到自己滿意的信息。

互聯(lián)網(wǎng)的能力是強(qiáng)大的,它幾乎囊括了一切我們?nèi)粘I钪邢胍@得的信息,但有時(shí)候因搜索詞條過于冷門而找不到信息時(shí),大多數(shù)人也只能雙手?jǐn)傞_,表達(dá)自己的無奈。在這個(gè)bug的前提下,搜索引擎人工智能化成為目前不可阻擋的趨勢。

日前,搜索引擎巨頭Google在自家搜索引擎中引入一種名為RankBrain的基于人工智能技術(shù)開發(fā)的算法,以優(yōu)化搜索引擎的網(wǎng)頁排名。具體是怎么操作的呢?

網(wǎng)頁排名操作步驟

一般來講,搜索引擎的網(wǎng)頁排名基本分為4個(gè)步驟:

爬行抓?。?/strong>搜索引擎蜘蛛(一個(gè)能夠在網(wǎng)上發(fā)現(xiàn)新網(wǎng)頁并抓文件的程序)從已知的數(shù)據(jù)庫出發(fā),像正常用戶的瀏覽器一樣訪問網(wǎng)頁并抓取文件。另外,蜘蛛還會(huì)爬行跟蹤網(wǎng)頁中的鏈接以訪問更多的網(wǎng)頁,再重復(fù)以上抓取過程。

索引:這些頁面文件被蜘蛛抓取后,將會(huì)被進(jìn)行分解、分析,并以巨大表格的形式存入數(shù)據(jù)庫。其中,網(wǎng)頁文字內(nèi)容,關(guān)鍵詞出現(xiàn)的位置、字體、顏色、加粗、斜體等相關(guān)信息都有相應(yīng)記錄。

搜索詞處理:用戶在搜索框內(nèi)輸入關(guān)鍵詞并單擊“搜索”按鈕后,搜索引擎程序即對(duì)搜索詞進(jìn)行處理,如中文特有的分詞處理,判斷是否需要啟動(dòng)整合搜索、是否有錯(cuò)別字等情況。

排序:在上述三個(gè)步驟完成后,根據(jù)搜索詞,搜索引擎將會(huì)從索引數(shù)據(jù)庫中找出所有包含搜索詞的網(wǎng)頁,然后根據(jù)排名算法計(jì)算出哪些網(wǎng)頁應(yīng)該排在前面,最后按照一定格式返回到"搜索"頁面。

網(wǎng)頁排名影響因素

在網(wǎng)頁排名關(guān)鍵中,網(wǎng)頁的排名先后受到諸多因素的影響,就拿Google的排名公式來看:Google分?jǐn)?shù)=(相關(guān)關(guān)鍵詞分?jǐn)?shù)X0.3)+(域名權(quán)重X0.25)+(外鏈分?jǐn)?shù)X0.25)+(用戶數(shù)據(jù)X0.1)+(內(nèi)容質(zhì)量分?jǐn)?shù)X0.1)+(人工加分)–(自動(dòng)或人工降分)。

從公式中我們可以看出,針對(duì)搜索引擎網(wǎng)頁排名,最為直觀的影響因素就有6個(gè),分別是關(guān)鍵詞、域名權(quán)重、外鏈分?jǐn)?shù)、用戶數(shù)據(jù)、內(nèi)容質(zhì)量以及人工干預(yù),而在這6大因素下面,又有著各自其他的小因素,例如在用戶數(shù)據(jù)這一塊上,搜索引擎就要考慮到搜索引擎結(jié)果頁面(SERPs)的點(diǎn)擊率、用戶在網(wǎng)頁上呆的時(shí)間、域名或URL搜索量、訪問量及其他Google可以監(jiān)測到的數(shù)據(jù)(工具條、GA之類)等4個(gè)小因素,至于這4個(gè)因素下面還有多少其他的小小因素,這就不得而知了。

RankBrian的工作原理

搜索引擎網(wǎng)頁排名的的基本工作原理已大概知曉,雖然搜索引擎的數(shù)據(jù)庫很強(qiáng)大,但仍然會(huì)有一絲瑕疵的存在,比如冷門關(guān)鍵詞的相關(guān)搜索。由于關(guān)鍵詞的邏輯排列以及固定詞匯等因素,搜索引擎給出的信息難免會(huì)有局限性,從而不能正確或全面得對(duì)關(guān)鍵詞進(jìn)行理解,以給出用戶所需要的信息。

Google在搜索引擎中引入的RankBrain算法,其目的就在于優(yōu)化搜索引擎的網(wǎng)頁排名。目前,在 Google 用來決定網(wǎng)頁排名的數(shù)百個(gè)因素中,RankBrain的重要性已經(jīng)位居第三。

而在冷門詞條搜索方面,RankBrain算法也確實(shí)有效的給出了一個(gè)解決方案。通過RankBrian,Google可以對(duì)這部分冷門詞條進(jìn)行分析和重新匹配,從而使得搜索結(jié)果更加準(zhǔn)確。舉個(gè)例子:在 Google 中輸入“best flower shop in Los Angeles”一類冷門的搜索,RankBrian會(huì)通過語義分析和詞庫聯(lián)想,識(shí)別出搜索關(guān)鍵詞的重點(diǎn)意義。比如這句話,RankBrian就會(huì)判別出其與搜索頻率更高的“best LA flower shops”比較像,然后給出后者的搜索結(jié)果。

從RankBrian的工作原理可以看出,其最為關(guān)鍵的人工智能技術(shù)就是“語義理解”,只要將這部分做好,那么在將來,哪怕是再冷門、再繁瑣的搜索詞條,Google都能給予用戶最準(zhǔn)確的信息反饋。

據(jù)悉,早在2015年年初,Google就逐漸推出了RankBrain,但也僅限于一部分搜索結(jié)果。目前,Google已將該算法應(yīng)用于每天每一次的搜索中,每天提供的搜索服務(wù)多達(dá)55多億次。

最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長按識(shí)別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新

分享到