【深度解析】谷歌搜索算法如何排名醫(yī)療廣告?

鎂客 10年前 (2016-05-03)

提到搜索引擎,必須想到谷歌,那么谷歌是如何處理醫(yī)療廣告的呢,答案是使用機(jī)器學(xué)習(xí)的RankBrain算法。

青年魏則西的不幸病逝,激起了國內(nèi)公眾對(duì)搜索引擎虛假醫(yī)療網(wǎng)絡(luò)廣告問題的熱議。根據(jù)《商業(yè)價(jià)值》微信公眾號(hào)今日文章《谷歌也曾涉足醫(yī)療廣告,美國司法是如何監(jiān)管的呢?》,可以發(fā)現(xiàn)在谷歌搜索“滑膜肉瘤”也會(huì)出醫(yī)療廣告,但都有明顯的“Ad”標(biāo)識(shí)。同時(shí),與百度相比,谷歌的付費(fèi)廣告并不影響排名。

【深度解析】谷歌搜索算法如何排名醫(yī)療廣告?

谷歌關(guān)于滑膜肉瘤治療的搜索廣告,有明確的廣告標(biāo)志。來源:商業(yè)價(jià)值

此外,《商業(yè)價(jià)值》文中提到,根據(jù)谷歌的搜索廣告政策,要投放藥品廣告需要獲得 FDA 以及美國藥房理事會(huì)(NABP)認(rèn)證。也就是說,只有獲得政府審批的正規(guī)網(wǎng)上藥店、藥品與治療才能在網(wǎng)站投放藥品類廣告。同時(shí),谷歌的自動(dòng)廣告過濾機(jī)制,在很大程度上也能有效杜絕虛假醫(yī)療廣告出現(xiàn)。根據(jù)谷歌發(fā)布的報(bào)告,他們 2015 年總計(jì)預(yù)先屏蔽了 7.8 億條違規(guī)廣告,封殺 21.4 萬家廣告商,其中包括 1250 萬條違規(guī)的醫(yī)療和藥品廣告,涉及藥品未獲批準(zhǔn)或者虛假誤導(dǎo)性宣傳等原因。

谷歌如何用算法排名

據(jù)統(tǒng)計(jì),每天向 Google 提交的查詢中有約 15% 是其未曾見過的。公司的資深研究科學(xué)家 Greg Corrado 透露,為了更好回答這些問題,Google 利用了 RankBrain 來將海量的書面語嵌入到計(jì)算機(jī)可以理解的向量里面。

如果 RankBrain 看到自己不熟悉的單詞或短語,它會(huì)去猜測(cè)其類似的意思并對(duì)結(jié)果進(jìn)行相應(yīng)過濾,從而有效地處理一些從未見過的搜索查詢。比方說 RankBrain 能夠有效回答 “What’ s the title of the consumer at the highest level of a food chain?(食物鏈當(dāng)中最高級(jí)的消費(fèi)者的頭銜叫做什么?)” 這樣的問題。

對(duì)于 Google 的搜索處理機(jī)制來說,RankBrain 只是為其搜索算法提供輸入的數(shù)百個(gè)信號(hào)之一,但這種信號(hào)跟別的信號(hào)的不同之處在于它懂得學(xué)習(xí),而別的只是別人在信息獲取中的發(fā)現(xiàn)和洞察。Google 內(nèi)部曾讓做算法的工程師人工去猜測(cè)搜索算法會(huì)選擇哪個(gè)頁面作為排名第一的結(jié)果,其準(zhǔn)確率為 70%,然后 RankBrain 去做了同樣的事情,準(zhǔn)確率達(dá)到了 80%,超過了做算法的工程師的平均水平。

隨著時(shí)間的推移,RankBrain 可能能夠處理越來越多的當(dāng)前通過手寫代碼分析來改善 Google 算法的各種各樣的信號(hào)。Google 的各項(xiàng)業(yè)務(wù)也會(huì)發(fā)展地越來越智能。機(jī)器學(xué)習(xí)將會(huì)以各種有意義的方式整合進(jìn) Google 的搜索引擎中。Google 這所有的舉動(dòng)將會(huì)繼續(xù)保持其搜索引擎的領(lǐng)頭地位。

RankBrain 運(yùn)行原理解析

RankBrain 是 Google 蜂鳥搜索算法的一部分。蜂鳥是整個(gè)搜索算法,就好比車?yán)锩嬗袀€(gè)引擎。引擎本身可能由許多部分組成,比如濾油器、燃油泵、散熱器等。同理,蜂鳥也由多個(gè)部分組成,RankBrain就是其中一個(gè)組成部分。

蜂鳥同時(shí)包含其他的部分,這些名字對(duì) SEO圈的人來說已經(jīng)耳熟能詳了,比如 Panda、 Penguin 和 Payday 用于垃圾郵件過濾, Pigeon 用于優(yōu)化本地結(jié)果, Top Heavy 用于給廣告太多的頁面降級(jí),Mobile Friendly 用于給移動(dòng)友好型頁面加分,Pirate 用于打擊版權(quán)侵犯。

Google 用于排序的“信號(hào)”是什么?

Google 使用信號(hào)來決定如何為網(wǎng)頁排序。比如,它會(huì)讀取網(wǎng)頁上的詞語,那么詞語就是一個(gè)信號(hào)。如果某些詞語是粗體,那么這又是一個(gè)值得注意的信號(hào)。計(jì)算的結(jié)果作為PageRank的一部分,給一個(gè)網(wǎng)頁設(shè)定一個(gè)PageRank分?jǐn)?shù),這作為一個(gè)信號(hào)。如果一張網(wǎng)頁被檢測(cè)到是移動(dòng)友好型的,那么這又會(huì)成為一個(gè)信號(hào)。所有的這些信號(hào)都由蜂鳥算法中的各個(gè)部分處理,最后決定針對(duì)不同搜索返回哪些網(wǎng)頁。

一共有多少種信號(hào)?

Google 稱進(jìn)行評(píng)估的主要排序信號(hào)大約有 200多種,反過來, 可能有上萬種變種信號(hào)或者子信號(hào)。如果你想有一個(gè)更直觀的排序信號(hào)向?qū)В瑏砜纯?Google SEO成功因素元素周期表:

【深度解析】谷歌搜索算法如何排名醫(yī)療廣告?

RankBrain到底做什么?

從與 Google 的來往電子郵件之中,RankBrain 主要用于翻譯人們可能不清楚該輸入什么確切詞語的搜索詞條。

Google 很早就找到不根據(jù)具體詞條搜索頁面的方式。比如,許多年前,如果你輸入“鞋”(shoe), Google 可能不會(huì)找到那些有“鞋”(shoes)的頁面,因?yàn)閺募夹g(shù)上來說這是兩個(gè)不同的詞匯,但是“stemming”使得 Google 變得更聰明,讓引擎了解shoes的詞根是shoe,就像“running”的詞根是“run”。 Google 同樣了解同義詞,因此,如果你搜索“運(yùn)動(dòng)鞋”,它可能知道你想找“跑鞋”。它甚至有概念性的知識(shí),知道哪些網(wǎng)頁是關(guān)于“蘋果”公司,哪些是關(guān)于水果“蘋果”的。

參考資料:

http://mp.weixin.qq.com/s?__biz=MTA2MTMwNjYwMQ==&mid=2650693625&idx=1&sn=8ab532faa66e69cc447e250f58807dda&scene=1&srcid=0502LFwayyLBIMhASaZX4zrt#rd

最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(zhǎng)按識(shí)別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新

分享到