網(wǎng)傳Gemini用文心一言訓(xùn)練?可能谷歌也是受害者!
AI可以污染互聯(lián)網(wǎng),也能被互聯(lián)網(wǎng)污染。
熱鬧的AI圈,今天又傳出一個大瓜:谷歌Gemini的中文回答自曝自己是文心一言?
據(jù)科技媒體量子位報道,有網(wǎng)友爆料:在谷歌Vertex AI平臺使用該模型進(jìn)行中文對話時,Gemini-Pro直接表示自己是百度語言大模型。
圖源 | 量子位
緊接著,微博大V@闌夕發(fā)布微博表示,在AI聚合網(wǎng)站Poe上進(jìn)行測試時,Gemini模型同樣在多次問答里把自己當(dāng)成了文心一言。
為了驗證,量子位分別在Peo、Bard以及谷歌AI Studio都進(jìn)行了三輪測試。
最后證明:Gemini-Pro確實在中文的訓(xùn)練數(shù)據(jù)上使用了百度文心。
但當(dāng)事情曝光之后,我們又挖掘到一些有趣的信息。
AI犯錯后,谷歌緊急修復(fù)?
在闌夕以及量子位的測試?yán)铮继岬搅薖oe這個AI聚合網(wǎng)站。
這是一個由知名問答平臺Quora推出的AI聊天機器人應(yīng)用。
雖然名頭不小,但實際上這只是一個聚合了多種主流的AI模型的網(wǎng)站,包含了GPT、Claude、PaLM等大廠模型,包括此次的Gemini-Pro,都能在該網(wǎng)站上進(jìn)行免費體驗。
當(dāng)筆者在Poe上對Gemini-Pro進(jìn)行提問后,大模型給出的答案其實并沒有提到任何與文心一言相關(guān)的內(nèi)容。
緊接著,筆者加上了“文心一言”的關(guān)鍵詞進(jìn)行追問后,Gemini-Pro依然否認(rèn)自己與文心一言的關(guān)系。
可見,即使是“釣魚式提問”,Gemini-Pro還是努力在避免不上當(dāng)。
不過在回答里,Gemini-Pro提到了文心一言的底層模型是谷歌的Transformer模型。
而文心一言的官方表述是:百度飛槳開源深度學(xué)習(xí)平臺中的基礎(chǔ)模型庫。
既然Poe的回答很正常,那么谷歌官方平臺是否修復(fù)了呢?
在谷歌AI Studio里,筆者同樣圍繞“文心一言”關(guān)鍵詞提了幾個問題。
與量子位測試的結(jié)果進(jìn)行對比來看,Gemini大模型否認(rèn)了自己使用文心一言來訓(xùn)練中文模型。
但在答案里,Gemini提到了不少中文訓(xùn)練集的數(shù)據(jù)來源,并提到自己可以從ERNIE、阿里巴巴達(dá)摩院M6以及騰訊優(yōu)圖實驗室GLM等中文語言模型中進(jìn)行預(yù)訓(xùn)練。
由此可見,在曝光數(shù)小時后,谷歌技術(shù)人員緊急修復(fù)了這個“bug”。
不只是文心一言?
雖然按照正常流程沒有釣魚成功,但筆者還是挖到了一個彩蛋:
在Poe網(wǎng)站上新建一次對話后,Gemini-Pro竟然把自己介紹成“小愛同學(xué)”,回答也是非常離譜。
而在多次反問“你不是Gemini-Pro嗎”后,Gemini-Pro再次給出了離譜的答案。
雖然不清楚是不是網(wǎng)站接口出現(xiàn)了問題,但可以肯定的是,目前的AI聊天機器人并沒有想象地那么神奇,免費的AI聚合網(wǎng)站更是“圖一樂”。
實際上被互聯(lián)網(wǎng)污染了?
這不是谷歌Gemini第一次“闖禍”。
在該模型剛發(fā)布當(dāng)天,就有人質(zhì)疑演示視頻的真實性。
結(jié)果,谷歌官方真就承認(rèn)了Gemini演示視頻是經(jīng)特殊剪輯處理,非實時畫面,但否認(rèn)視頻系“造假”。
事實上,為了避免現(xiàn)場演示翻車,絕大多數(shù)科技公司都會稍微對演示視頻進(jìn)行調(diào)整,這非常普遍。
但為了與GPT-4進(jìn)行對比,從而進(jìn)行夸大剪輯,只能說谷歌的營銷手段還是“翻車”了。
而在今天爆出的“文心一言訓(xùn)練中文語言模型”這件事上,我們同樣可以看出谷歌Gemini其實并不是有意。
對于中文數(shù)據(jù)來說,百度確實算得上一個重要來源,但缺點在于:中文互聯(lián)網(wǎng)上存在大量低質(zhì)量內(nèi)容,讓人眼花繚亂。
自從AI火爆之后,不少快速生成的劣質(zhì)內(nèi)容開始充斥互聯(lián)網(wǎng),并逐漸造成數(shù)據(jù)污染。
對于互聯(lián)網(wǎng)獲取數(shù)據(jù)的AI模型來說,在無法很好地辨別信息的真實性和可信度的情況下,極有可能產(chǎn)生造成“AI被互聯(lián)網(wǎng)污染,再生產(chǎn)更劣質(zhì)信息”的惡性循環(huán),最終出現(xiàn)不可逆的缺陷。
這里筆者做了假設(shè):谷歌Gemini在訓(xùn)練中文時“偷懶”使用了未經(jīng)辨別與篩選后的中文數(shù)據(jù),最終造成了這次“翻車”。
只能說,作為一款對標(biāo)GPT-4的重磅產(chǎn)品,Gemini背負(fù)著“再次領(lǐng)跑AI浪潮”的使命,所以谷歌的技術(shù)人員還是用點心吧。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅(qū)動創(chuàng)新
