深度學(xué)習(xí)驅(qū)動智能搜索引擎,RankBrain革了SEO的命
去年開始,谷歌使用以深度學(xué)習(xí)為基礎(chǔ)的人工智能核心搜索算法RankBrain,用越來越“類人化”的算法個性定制每個搜索結(jié)果。
【編者按】本文由新智元編譯,來源:techcrunch,作者:John Rampton,譯者:朱煥 胡祥杰
【導(dǎo)讀】想在谷歌或百度等搜索結(jié)果中排名靠前,除了廣告(給錢),你還可以選擇SEO(搜索引擎優(yōu)化):讓網(wǎng)站符合算法的規(guī)則,提升在搜索引擎內(nèi)的自然排名。但去年開始,谷歌使用以深度學(xué)習(xí)為基礎(chǔ)的人工智能核心搜索算法RankBrain,本文認(rèn)為這種越來越“類人化”的算法個性定制每個搜索結(jié)果,每個網(wǎng)站的排名都變得看似更加隨機,在搜索引擎中“鉆空子”難度將越來越大,SEO將持續(xù)極端技術(shù)化,只有把握好分析和大數(shù)據(jù)做SEO,才有望獲得巨大收益。
RankBrain還是一種弱人工智能
如今,每個人都聽說過谷歌的 RankBrain 算法了。這個新型人工智能機器學(xué)習(xí)算法是從加州山景城谷歌總部誕生出的最新、最重大的算法。然而,讀者中的許多人大概還沒意識到,RankBrain 將引起 SEO(搜索引擎優(yōu)化)行業(yè)的快速轉(zhuǎn)變。在本文中,我將帶你去了解一些鮮明的事例,讓你明白 SEO 的不少舊規(guī)則都不再適用了,并讓你知道,要想領(lǐng)先于潮流以繼續(xù)為你的業(yè)務(wù)提供 SEO 服務(wù),你需要做什么。
那么,什么是人工智能呢?
一般來說有三種類型的人工智能:
1,弱人工智能: 這是為某個特殊目的服務(wù)的人工智能(例如,用于擊敗國際象棋世界冠軍的人工智能)
2,強人工智能:這是那種任何事情都能做的人工智能。一旦人工智能能像人類一樣行動,我們就認(rèn)為它具有了強人工智能。
3,超人工智能(Artificial Superintelligence):人工智能在做所有事情時都具有極高的水平(例如,具有超越單個人類的水平)。
當(dāng)我們談?wù)摴雀璧?RankBrain,以及談?wù)摴雀枘壳罢谶\行的那些機器學(xué)習(xí)算法時,我們談的是弱人工智能。實際上,弱人工智能已經(jīng)存在了一段時間了。你是否想過你的電子郵件服務(wù)中的垃圾過濾器是怎么工作的?是的,那就是弱人工智能的一種體現(xiàn)。我最喜歡的弱人工智能項目還有:谷歌翻譯,IBM Watson,亞馬遜的自動產(chǎn)品推薦,自動駕駛汽車以及我們親愛的谷歌 RankBrain.
在弱人工智能界,有多種不同的實現(xiàn)方式。Pedro Domingos 曾在 MasterAlgorithm 一書中明確指出,那些試圖實現(xiàn)完美人工智能的數(shù)據(jù)科學(xué)家可以被分為五個“派別”,它們是:
• 符號主義者
• 聯(lián)結(jié)主義者
• 進(jìn)化主義者
• 貝葉斯主義者
• 行為類比主義者(Analogizers)
谷歌的 RankBrain 屬于聯(lián)結(jié)主義派。聯(lián)結(jié)主義者相信,我們所有的知識都被編碼為我們大腦中的神經(jīng)元聯(lián)結(jié)。而 RankBrain 使用的具體方法是一種被專家稱為“反向傳播”的技術(shù),這一路方法后來也被人們稱之為深度學(xué)習(xí)。
聯(lián)結(jié)主義者宣稱,該方法能從原始數(shù)據(jù)中學(xué)習(xí)任何東西,因此它最終能夠?qū)崿F(xiàn)知識發(fā)現(xiàn)的自動化。谷歌顯然也相信這一點。2014年 1月 26日,谷歌宣布收購 深度學(xué)習(xí)公司Deepmind,顯露了在這領(lǐng)域的雄心。
因此,當(dāng)我們談?wù)?RankBrain 時,我們可以說它使用的是弱人工智能中的深度學(xué)習(xí)技術(shù)。那么,該領(lǐng)域目前發(fā)展如何呢?以及更重要的,它正在如何改變 SEO 業(yè)務(wù)呢?
2025 年左右實現(xiàn)強人工智能?
WaitButWhy.com 的 Tim Urban 在其文章《AI 革命: 通向超級人工智能之路》中比任何人都更清楚地解釋了這一技術(shù)的增長。
當(dāng)你回顧歷史時,該技術(shù)的進(jìn)展是這樣的:
不過,正如 Urban 所指出的,在現(xiàn)實中,你其實看不見你自己位置的右側(cè)(即你的未來)。因此,當(dāng)你站在圖表的當(dāng)下位置是,這是你實際感受到的樣子:
這一圖表所展現(xiàn)是的,當(dāng)人類試圖預(yù)測歷史時,他們常常會低估未來的趨勢。這是因為他們總是去看位于圖的左側(cè)的過去,而不是位于圖的右側(cè)的未來。
然而,現(xiàn)實是,隨著時間演化,人類進(jìn)步正在越來越快。Ray Kurzweil 將這稱之為“加速循環(huán)定律”。Kurzweil 的理論背后的科學(xué)理由是:與過去的不夠先進(jìn)的社會相比,未來的更先進(jìn)的社會有能力以更快的速度進(jìn)步——因為那時的社會更先進(jìn)。這一推理也可以運用到人工智能以及技術(shù)進(jìn)步的增長速度方面。
在計算資源方面,我們已經(jīng)看到了這一點。下面的圖標(biāo)可以讓你看看,由于“加速循環(huán)定律”,事情進(jìn)展得有多快:
正如你所看到的和我們都直觀感受到的,處理器和計算機技術(shù)的增長都獲益于加速循環(huán)定律。另一件令人震驚的事是:未來的某一天,一臺簡易電腦的處理能力將不僅超過單個的人,而且超過所有人類的總和。
實際上,看起來我們將在 2025 年左右實現(xiàn)強人工智能。技術(shù)顯然正在越來越快地擴張,這想必會讓我們大多數(shù)人感到驚訝。
從傻瓜到愛因斯坦
正如我上面解釋的,谷歌的 RankBrain 只是弱人工智能的一個例子。這意味著,RankBrain 可以在某個特定領(lǐng)域中比一個人做得更好,但也僅此而已:它只是一種相對較弱形式的人工智能。然而,哪怕是這種“弱”人工智能,也會飛快地變成一種我們不知該怎么對付的東西。
你可以清楚地看到,谷歌的 RankBrain 盡管在特定任務(wù)上極其聰明,但在通用的智力尺度上仍然是失敗的。然而,如果我們把加速循環(huán)定律應(yīng)用在人工智能領(lǐng)域,將會發(fā)生什么呢?Tim Urban 進(jìn)行了這樣一個思想實驗:
“當(dāng)人工智能的智力越來越接近我們時,我們會看到它變得越來越聰明,像一個動物一樣。之后,它將達(dá)到人類的最低水平——用 Nick Bostrom 的話說,是村里的傻瓜的水平——我們會說‘ 哇奧,它看起來像個人類傻瓜,真可愛!' 然而重要的是,在所有智力水平構(gòu)成的譜系中,從傻瓜到愛因斯坦的所有人類都只占了一個很小的區(qū)域——因此,在人工智能實現(xiàn)‘村中傻瓜’水平并具有強人工智能之后,它將突然變得比愛因斯坦更聰明,而我們不會知道那將是什么樣。”
那么,這對 SEO 業(yè)務(wù)以及我們目前的人工智能來說意味著什么呢?
在我們?nèi)ヮA(yù)測未來之前,讓我們先看看 RankBrain 已經(jīng)怎樣改變了 SEO。我與卡耐基梅隆大學(xué)校友、Market Brew (一家為 Fortune 500 強的 SEO 團(tuán)隊提供搜索引擎模型的公司)的 CTO、聯(lián)合創(chuàng)始人 Scott Stouffer 就這一問題進(jìn)行了交流。作為一名搜索工程師,Stouffer 對過去幾十年的發(fā)展具有一個大部分人都不具有的獨特視角。
谷歌開始把主要精力放在人工智能后,SEO行業(yè)應(yīng)如何應(yīng)對?下面是他的一些建議。
回歸分析是有嚴(yán)重缺陷
這是 SEO 行業(yè)中當(dāng)前最大的缺陷。每當(dāng)谷歌的排名發(fā)生巨大變化時,都會出現(xiàn)許多“大師”——來自本行業(yè)知名公司的一些數(shù)據(jù)科學(xué)家和 CTO 會宣稱,他們知道為什么谷歌最近排名指數(shù)發(fā)生了變化。其實,他們最常用的方法是仔細(xì)分析幾個月以來的排名數(shù)據(jù),并去了解在所有類型的網(wǎng)站中排名情況是如何改變的。
按照目前的回歸分析方法,這些數(shù)據(jù)科學(xué)家會指出一些受到了(正面或負(fù)面)影響的特定類型的網(wǎng)站,并十分肯定地認(rèn)為谷歌最近的算法轉(zhuǎn)變是針對這些網(wǎng)站共有的某類算法(內(nèi)容或外鏈)而出現(xiàn)的。
然而,如今谷歌已經(jīng)不這么干了。谷歌的 RankBrain 采用機器學(xué)習(xí)/深度學(xué)習(xí)方法,它的工作方式與過去十分不一樣。
其實,谷歌內(nèi)部已經(jīng)存在許多核心算法。RankBrain 的任務(wù)是去學(xué)習(xí)這些核心算法以何種方式混合起來才能最佳地應(yīng)用到每種類型的搜索結(jié)果中去。例如,在某些搜索結(jié)果中,RankBrain 可能學(xué)習(xí)到最關(guān)鍵的搜索信號是這些搜索結(jié)果中的元標(biāo)題(Meta Title)。
為那些元標(biāo)題匹配算法賦予更多的權(quán)重,這可能會帶來更好的搜索體驗。但在另一個搜索結(jié)果中,同樣的元標(biāo)題信號與良好的搜索體驗之間可能卻是負(fù)相關(guān)。因此,在那一類搜索中,諸如 PageRank 之類的其他算法可能會被賦予更多權(quán)重。
這意味著,在每個搜索結(jié)果中,谷歌都使用了完全不同的算法混合方式。現(xiàn)在,你就會明白,為什么“在缺乏搜索結(jié)果語境的情況下,對所有網(wǎng)站進(jìn)行回歸分析”這種方法是有嚴(yán)重缺陷的。
出于這些原因,現(xiàn)在的回歸分析必須根據(jù)每一次的特定搜索來進(jìn)行。Stouffer 最近談到了一種可以用來測量谷歌算法改變程度的搜索模型方法。
首先,你可以截一張圖,以確定搜索引擎模型在過去為某個具體關(guān)鍵詞搜索而被校準(zhǔn)到了什么程度。然后,當(dāng)探測到排名方式發(fā)生了改變之后,你可以對搜索引擎模型進(jìn)行重新校準(zhǔn),以展示出這兩種搜索引擎模型設(shè)置之間的差異。通過這一方法,在經(jīng)歷了排名方式變化之后,你就可以看出哪些特定算法被增加或減少了權(quán)重。
知道了這一點后,我們就可以聚焦于如何提升網(wǎng)站對這些特定搜索結(jié)果的 SEO。但同樣的方法并不適用于其他搜索結(jié)果。這是因為 RankBrain 是在搜索結(jié)果(或關(guān)鍵詞)的水平上進(jìn)行操作的。確切地說,RankBrain為每個搜索結(jié)果都進(jìn)行算法的個性定制。
把握細(xì)分領(lǐng)域,避免錯誤分類
谷歌還發(fā)現(xiàn),他們可以讓 RankBrain 這個新型深度學(xué)習(xí)系統(tǒng)學(xué)會,“好”網(wǎng)站長什么樣,“壞”網(wǎng)站長什么樣。就像他們?yōu)槊恳粋€搜索結(jié)果進(jìn)行不同的算法權(quán)重賦予一樣,他們也發(fā)現(xiàn)每個垂直領(lǐng)域都有不同的“好”網(wǎng)站和“壞”網(wǎng)站實例。這無疑是因為不同的垂直領(lǐng)域具有不同的客戶關(guān)系管理方式,不同的模板和數(shù)據(jù)結(jié)構(gòu)類型。
當(dāng) RankBrain 運行時,它實際上在學(xué)習(xí)每種垂直環(huán)境中的正確“設(shè)定”是什么樣的。你或許已經(jīng)猜到,這些正確設(shè)定是什么完全取決于該設(shè)定所處于的垂直領(lǐng)域是什么樣的。例如,在醫(yī)療產(chǎn)業(yè)中,谷歌知道像 WebMD.com 這樣的網(wǎng)站聲譽良好,并會把這樣的網(wǎng)站放在其搜索索引的頂部位置。而任何結(jié)構(gòu)上與 WebMD 網(wǎng)站相似的網(wǎng)站也會被歸類到“好”網(wǎng)站的類別中。類似的,那些與已知的醫(yī)療領(lǐng)域垃圾網(wǎng)站結(jié)構(gòu)相似的網(wǎng)站則會被歸為“壞”網(wǎng)站的類別。
由于Rankbrain 使用深度學(xué)習(xí)能力同時對“好”網(wǎng)站和“壞”網(wǎng)站進(jìn)行歸類,如果你的網(wǎng)站中包含許多不同產(chǎn)業(yè)的信息,那將會怎樣呢?
首先,我們必須再多討論一下深度學(xué)習(xí)是如何工作的。在把所有網(wǎng)站都分為“好”“壞”兩組之前,RankBrain 必須首先決定每個網(wǎng)站分別屬于什么類別。像 Nike.com 和 WebMD.com 這樣的網(wǎng)站很好歸類。盡管這兩個網(wǎng)站上都有很多不同的子類別,但它們都具有單一的一般類別。這類網(wǎng)站很容易被分類。
然而,那些包含了許多不同類別的網(wǎng)站呢?這類網(wǎng)站中的一個很好的例子是那些 How-To 型網(wǎng)站。這些網(wǎng)站通常擁有許多通用類別。面臨這些網(wǎng)站,深度學(xué)習(xí)方法就會崩潰。那么,在面對這些網(wǎng)站時,谷歌使用什么樣的訓(xùn)練數(shù)據(jù)呢?答案是:它可能是使用看起來隨機的數(shù)據(jù)。它可能從眾多類別中選擇這個類別,也可能選擇另一個類別。對于像 Wikipedia 這樣的著名網(wǎng)站來說,谷歌可能完全不采取任何分類過程,以確保深度學(xué)習(xí)過程不會打擾用戶既有的搜索體驗(因為維基這樣的大網(wǎng)站不太可能產(chǎn)生壞網(wǎng)頁。)
然而,對那些不那么知名的網(wǎng)站來說,會發(fā)生什么呢?答案是,“誰知道呢?”或許,這個機器學(xué)習(xí)過程能自動地對每個網(wǎng)站進(jìn)行分類,在此之后才會把它與其他網(wǎng)站進(jìn)行比較。一個 How-To 型網(wǎng)站也許看起來和 WebMed 網(wǎng)站一個樣。
如果系統(tǒng)的分類過程認(rèn)為這個網(wǎng)站是關(guān)于鞋的,那么它就會把該網(wǎng)站與 Nike 網(wǎng)站結(jié)構(gòu)進(jìn)行比較,而不是與 WebMD 進(jìn)行比較。也許,該網(wǎng)站的結(jié)構(gòu)很像一家鞋類垃圾網(wǎng)站,而不像聲譽良好的 WebMD 網(wǎng)站;如果是這樣,這個內(nèi)容過于一般化的網(wǎng)站就會被打上“垃圾”的標(biāo)簽。因此,如果這個 How-To 型網(wǎng)站具有不同的子領(lǐng)域,最好讓每個子領(lǐng)域的樣子都類似于該領(lǐng)域的最好網(wǎng)站。要把握住這些細(xì)分領(lǐng)域。
能辨認(rèn)“好壞”的 RankBrain
讓我們再看看這將如何影響外鏈?;谏厦嫣岬降姆诸愡^程,下面這一點將變得前所未有的重要:堅持只在你的鄰近領(lǐng)域中進(jìn)行外鏈。因為 RankBrain 能夠知道,你的某些外鏈?zhǔn)遣皇桥c你所在的垂直領(lǐng)域同類網(wǎng)站的外鏈特征不同。
讓我們?nèi)允褂脛偛诺睦?。一家公司有一個關(guān)于鞋的網(wǎng)站。我們知道 RankBrain 的深度學(xué)習(xí)過程會試圖把該網(wǎng)站的各個方面與鞋業(yè)領(lǐng)域的最佳和最差網(wǎng)站進(jìn)行比較。因此,該網(wǎng)站的外鏈特征也將用來與同類的最佳和最差網(wǎng)站的外鏈特征進(jìn)行比較。
假設(shè),一個典型的聲譽良好的鞋業(yè)網(wǎng)站擁有一下三個鄰近領(lǐng)域的外鏈:
運動
健康
時尚
現(xiàn)在,假設(shè)該公司的 SEO 團(tuán)隊決定從這三個鄰近領(lǐng)域中購買外鏈;此外,由于公司 CEO 和汽車產(chǎn)業(yè)有一些聯(lián)系,他們決定使用汽車網(wǎng)站的免費外鏈??雌饋磉@很“聰明”: 他們使用了交叉營銷方法,在汽車網(wǎng)站上展示“租車就送免費鞋”的頁面,而這些頁面將導(dǎo)向該公司的新鞋頁面??雌饋砗懿诲e,不是嗎?
然而,RankBrain 會發(fā)現(xiàn)這一點,并發(fā)現(xiàn)該網(wǎng)站的外鏈特征與鞋業(yè)好網(wǎng)站的特征十分不同。更糟的是,它發(fā)現(xiàn)許多鞋業(yè)垃圾網(wǎng)站也擁有來自汽車網(wǎng)站的外鏈特征。
這樣,盡管 RankBrain 并不知道什么是“正確”的外鏈特征,它卻察覺出了對它的搜索引擎結(jié)果而言什么是“好”網(wǎng)站,什么是“壞”網(wǎng)站。這家鞋業(yè)網(wǎng)站將會被標(biāo)記為“壞”,來自汽車網(wǎng)站的免費外鏈帶來的將是訪問量的暴跌。
你沒法再鉆空子了
從我們前面對加速循環(huán)定律的討論中可以知道,RankBrain和其他人工智能未來都將會超越人腦。此刻,沒有人知道這一技術(shù)將把我們帶向何方。
不過,有一些事情是確定的:
每個有競爭力的關(guān)鍵詞環(huán)境都需要被單獨檢驗。
大多數(shù)網(wǎng)站都需要把握好對細(xì)分領(lǐng)域的處理。
每家網(wǎng)站都應(yīng)該模仿該領(lǐng)域中聲譽優(yōu)良的頂級網(wǎng)站的結(jié)構(gòu)和組成。
在某種意義上,深度學(xué)習(xí)的方法讓 SEO 業(yè)務(wù)變得更簡單了。當(dāng)你知道 RankBrain 等類似技術(shù)已經(jīng)具有了與人類旗鼓相當(dāng)?shù)哪芰r,你應(yīng)該遵循的原則就變得很清楚了:你沒法再鉆空子了。
在另一種意義上,事情變得更難了。SEO 領(lǐng)域?qū)⒗^續(xù)變得極端技術(shù)化。分析和大數(shù)據(jù)是今日的王道,那些對這些方法尚不熟悉的 SEO 必須盡快趕上。那些已經(jīng)擁有這些能力的 SEO 有希望未來獲得巨大收益。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅(qū)動創(chuàng)新
