在深度學(xué)習(xí)之上,百度還需做些什么?

韓璐 9年前 (2016-07-20)

再次爆出“賭博網(wǎng)站深夜推廣上線”丑聞,基于深度學(xué)習(xí)的百度搜索引擎,這次又是哪里出錯了呢?

近日,百度“深夜賭博網(wǎng)站”事件占據(jù)了各大網(wǎng)絡(luò)媒體的頭條。百度的解釋是他們在搜索引擎中一直為之自豪的機(jī)器學(xué)習(xí)似乎出現(xiàn)了bug,但事實(shí)真的如此嗎?

在深度學(xué)習(xí)之上,百度還需做些什么?

事件回顧:賭博網(wǎng)站深夜推廣上線,國家介入調(diào)查

據(jù)報(bào)道,此前如果在夜間(21:00—9:00之間),在百度搜索框內(nèi)輸入“新葡京”、“威尼斯”等關(guān)鍵詞,頁面就會跳出一些推廣網(wǎng)站,但在逐一打開后就分別顯示為“澳門新葡京賭場”、“明升亞洲網(wǎng)投”、“威尼斯人娛樂賭場”、“太陽集團(tuán)”等4家網(wǎng)站子。而這些網(wǎng)站的子欄目中均涉及賭博電子游藝項(xiàng)目,并介紹了如何存款及提現(xiàn);另外,有時(shí)打開的一個頁面看起來很正常,但殺毒軟件也會發(fā)出警告,提示為賭博欺詐網(wǎng)站。

回想此前的“魏則西”事件,只能說百度用于搜索引擎的深度學(xué)習(xí)算法還不夠完善,以至于給自己挖了一個又一個的坑!

在深度學(xué)習(xí)之上,百度還需做些什么?

最大禍?zhǔn)祝?ldquo;深度學(xué)習(xí)算法”的滯后性

在網(wǎng)站審核方面,據(jù)百度官方回應(yīng),他們每天采取“機(jī)器+人工”的方式來對4.7億條推廣內(nèi)容進(jìn)行審核,其中包括對推廣內(nèi)容以及網(wǎng)站內(nèi)容的審核,而這里的機(jī)器可能就是指“深度學(xué)習(xí)算法”。

一般來講,基于人工質(zhì)量評估員對網(wǎng)站的評測數(shù)據(jù)、敏感詞匯庫以及對于網(wǎng)站點(diǎn)擊率、跳出率、停留時(shí)間等數(shù)據(jù)的監(jiān)測等等,深度學(xué)習(xí)可以進(jìn)行大量的數(shù)據(jù)訓(xùn)練,從而產(chǎn)生自己的一套方法,進(jìn)而對網(wǎng)站的內(nèi)容等方面進(jìn)行審核,區(qū)分哪些是高質(zhì)量的網(wǎng)站,哪些是低質(zhì)量的網(wǎng)站,在此基礎(chǔ)上,深度學(xué)習(xí)算法著實(shí)為人工審核節(jié)省了不少的時(shí)間與繁瑣的過程。百度搜索引擎中深度學(xué)習(xí)算法的應(yīng)用應(yīng)該大類相同。

但從結(jié)果,我們也可以看出,“深度學(xué)習(xí)算法”在內(nèi)容審核方面出現(xiàn)了滯后性,對于“敏感詞匯”的辨識度以及網(wǎng)站名稱與內(nèi)容的匹配度還沒有達(dá)到人類那樣的精確,比如說讓俄羅斯總統(tǒng)普京躺槍的“新普京”等。

在深度學(xué)習(xí)之上,百度還需做些什么?

添加“剔除”功能,或可有助于避免類似事件

據(jù)百度官方回應(yīng),這些推廣網(wǎng)站多數(shù)早在4月就進(jìn)行了開戶,雖如此,但直到6月25日突然開始推廣,期間一直沒有進(jìn)行任何相關(guān)的推廣工作,因而,這些網(wǎng)站一上線就打的百度一個措手不及,從而沒有及時(shí)進(jìn)行處理。

針對這種突發(fā)狀況的發(fā)生,百度應(yīng)該引起重視,并采取措施,做好一個防范準(zhǔn)備,比如在算法的設(shè)置上添加一個“剔除”異常網(wǎng)站等鏈接的功能。拿這次事件作例,從開戶到推廣,此次所涉及的網(wǎng)站已然沉寂了兩個月之久,這種現(xiàn)象不僅顯得異常,從側(cè)面也顯得這些網(wǎng)站鏈接毫無價(jià)值。既然如此,何不干脆從數(shù)據(jù)庫移出去?

題外話:百度還需要接受監(jiān)管

據(jù)百度非企渠道業(yè)務(wù)員劉明(化名)透露,以今年一季度為例,有百度推廣業(yè)務(wù)代理商為完成任務(wù),給非企渠道業(yè)務(wù)員的回扣達(dá)80%;且其所展示的企業(yè)資質(zhì)大多造假,多家賭博網(wǎng)站在百度的推廣費(fèi)用一晚累計(jì)超過30萬元。

面對如此局面,百度需要面對的問題不僅是自家搜索引擎深度學(xué)習(xí)算法的漏洞,還有社會輿論和國家相關(guān)主管部門的監(jiān)督和管理。

在深度學(xué)習(xí)之上,百度還需做些什么?

擴(kuò)展閱讀:深度學(xué)習(xí)在百度搜索的應(yīng)用

在百度,深度學(xué)習(xí)被成功地用于包括搜索引擎優(yōu)化、圖像識別、語音識別和廣告點(diǎn)擊率預(yù)估等在內(nèi)的多個產(chǎn)品,并大幅度地提升了這些產(chǎn)品的準(zhǔn)確度。

此前,百度技術(shù)委員會理事長陳尚義曾表示,在引入深度學(xué)習(xí)后,他們用GPU的訓(xùn)練系統(tǒng)來實(shí)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)。而在此基礎(chǔ)上,百度的新一代搜索顯現(xiàn)了四個特征:一是搜索結(jié)果精準(zhǔn)展現(xiàn);二是擁有更智慧的交互體驗(yàn);三是全面的信息網(wǎng)絡(luò);最后提供了更加豐富的搜索模式。

具體來講,就是當(dāng)我們在詞條框中輸入關(guān)鍵詞之后,系統(tǒng)會根據(jù)關(guān)鍵詞提供精準(zhǔn)的、全方面的詳細(xì)信息,比如搜一下北京故宮,頁面就會出現(xiàn)百科普及、門票購買渠道以及路線查詢等信息,包含了我們可能需要了解的所有東西。此外,基于深度學(xué)習(xí)的語音識別以及“以圖搜圖”等功能,大大提升了搜索效率,也為人們信息的搜索提供了不少便利。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動創(chuàng)新

分享到