科技巨頭狂撒千億美元 “買照片”,只為訓(xùn)練AI模型?
高質(zhì)量的數(shù)據(jù),越來越值錢。
你能想象,那些被遺忘在網(wǎng)盤的陳年老圖,有朝一日能價值千金?
就在最近,路透社報道稱,蘋果公司正與圖像托管網(wǎng)站Photobucket協(xié)商,希望得到這家公司近130億張照片、視頻組成的龐大圖像庫,并以此來訓(xùn)練AI模型。
蘋果不是這家網(wǎng)站的唯一買家,其他硅谷大廠們都在尋求與之達成協(xié)議。而這些巨頭們也毫不吝嗇,甚至愿意掏出數(shù)十億美元的真金白銀購買這些素材。
不只是Photobucket,Reddit、Youtube等知名網(wǎng)站都成了科技巨頭們的瘋搶目標。
蘋果為訓(xùn)練AI買圖片,網(wǎng)友擔(dān)憂隱私
Photobucket是一個提供影像寄存、視頻寄存、幻燈片制作與照片分享服務(wù)網(wǎng)站,成立于2003年。在當(dāng)時,用戶把這個網(wǎng)站當(dāng)作個人相冊,與功能與現(xiàn)在流行的在線相冊非常相似。
在巔峰期,該網(wǎng)站曾擁有7000萬用戶。而到2007年,Photobucket就聲稱已有超過28億張圖像上傳到其網(wǎng)站。不過隨著越來越多的功能更強大的在線相冊App出現(xiàn)之后,這種網(wǎng)站式的在線相冊也逐漸失去了熱度。
不過畢竟是一家成立二十多年的網(wǎng)站,別的不說,數(shù)據(jù)是真的多,130億張圖片與視頻,足夠AI模型消化很久。
據(jù)悉,蘋果購買的圖片的主要目的就是提高生成式AI的水平。
除此之外,蘋果公司在早些時候與另一家圖片素材網(wǎng)站Shutterstock達成了數(shù)百萬張圖片的授權(quán)協(xié)議,據(jù)悉這筆交易的價值在2500萬美元到5000萬美元之間。
隨著今年6月份WWDC大會日益臨近,每個人都在期待蘋果公司能帶來“令人驚嘆”的AI功能。
但和上筆交易不同,不少網(wǎng)友開始為了隱私擔(dān)心。有人評論表示,Photobucket的圖片來源都是基于網(wǎng)友的“托管,這就意外著這些圖片雖然已經(jīng)是陳年老圖,但仍屬于用戶的個人秘密。
而Shutterstock的數(shù)據(jù)大多是免版稅的圖片、矢量圖和插圖庫,包括影片剪輯以及音樂曲目,本身就可以授權(quán)給用戶使用。這么一對比,網(wǎng)友對于Photobucket的數(shù)據(jù)隱私安全問題也可以理解了。
除了涉及隱私以外,不少網(wǎng)友還對這些庫存照片的質(zhì)量提出了質(zhì)疑。如果給AI喂食這些本來就帶有錯誤的圖片,那么是否會生成質(zhì)量更低的圖片呢?
總之,就蘋果購買Photobucket圖片的行為,大多數(shù)網(wǎng)友并不贊同。
但即使冒著泄露隱私的風(fēng)險,蘋果和其他公司們還是得“鋌而走險”搞來這些數(shù)據(jù)。主要原因還是高質(zhì)量的互聯(lián)網(wǎng)數(shù)據(jù),可能沒幾年就要耗盡了。
其實早在多年前,各大科技巨頭就已經(jīng)碰到訓(xùn)練語料缺失的瓶頸。
據(jù)《紐約時報》報道,OpenAI在訓(xùn)練GPT-4時,就曾遇到英文文本資料缺失的情況。
為了處理這個問題,OpenAI推出一款名為Whisper語音識別工具,用來轉(zhuǎn)錄谷歌旗下視頻平臺Youtube的視頻音頻,生成大量的對話文本。
據(jù)報道稱,這款工具以開源的名義轉(zhuǎn)錄了超過一百萬小時的Youtube視頻,實際上已經(jīng)違反了Youtube的隱私規(guī)則,而這些資料也成為ChatGPT的基礎(chǔ)。
這并不是OpenAI第一次因為偷扒數(shù)據(jù)犯錯。包括《紐約時報》在內(nèi),多家數(shù)字新聞媒體對OpenAI提起版權(quán)侵權(quán)訴訟,認為他們的數(shù)千篇報道被OpenAI用來訓(xùn)練ChatGPT。
當(dāng)然,通過“爬蟲”等手段搜刮訓(xùn)練數(shù)據(jù)的科技公司不止OpenAI這一家,“受害者”谷歌也曾通過修改服務(wù)條款的方式,將“使用公開信息訓(xùn)練AI模型”偷偷寫進隱私細則中,從而允許工程師們利用公開的文檔、在線資料等開發(fā)AI產(chǎn)品。
不過隨著OpenAI在版權(quán)問題上越陷越深,其他科技巨頭也只能乖乖掏錢為訓(xùn)練數(shù)據(jù)付費。
至少比起互聯(lián)網(wǎng)上免費抓取的數(shù)據(jù),Photobucket近130億的數(shù)據(jù)量還是相對來說質(zhì)量更高點。
花錢買數(shù)據(jù),或許還不夠
可怕的是,即便是130億的數(shù)據(jù)量,也可能喂不飽現(xiàn)在的AI的模型。
研究機構(gòu)Epoch直白地表示,現(xiàn)在科技公司使用數(shù)據(jù)的速度已經(jīng)超過數(shù)據(jù)生產(chǎn)的速度,這些公司最快會在2026年就耗盡互聯(lián)網(wǎng)上的高質(zhì)量數(shù)據(jù)。
有數(shù)據(jù)統(tǒng)計,在2020年11月發(fā)布的GPT-3上,使用了3000億個Token的訓(xùn)練數(shù)據(jù)。而到了2024年,谷歌PaLM 2的訓(xùn)練數(shù)據(jù)量則達到3.6萬億個Token。
數(shù)據(jù)量是一回事,數(shù)據(jù)的質(zhì)量更是直接影響AI大模型的生成能力。正如網(wǎng)友所擔(dān)憂的那樣,低質(zhì)量的數(shù)據(jù)甚至可能讓AI陷入不可逆轉(zhuǎn)的方向。
面對這樣的問題,OpenAI開始嘗試使用合成數(shù)據(jù)(AI生成的數(shù)據(jù))來訓(xùn)練AI。這樣既可以減少對受版權(quán)保護數(shù)據(jù)的依賴,同時也能訓(xùn)練出更強大的結(jié)果。
對此OpenAI和一系列機構(gòu)開始研究使用兩個不同的模型來生成更有用、更可靠的合成數(shù)據(jù),其中一個模型用來生成數(shù)據(jù),另一個則用來對生成的數(shù)據(jù)進行審核。
不只是OpenAI,英偉達很早就在用合成數(shù)據(jù)彌補現(xiàn)實世界的數(shù)據(jù)。在2021年11月,英偉達對外推出合成數(shù)據(jù)生成引擎Omniverse Replicator。
英偉達將其描述為“用于生成具有基本事實的合成數(shù)據(jù)以訓(xùn)練 AI 網(wǎng)絡(luò)的引擎”,其作用就是用來訓(xùn)練AI。
此產(chǎn)品推出后,由該引擎生成的合成數(shù)據(jù)在自動駕駛、機器人等多個場景里都得到了驗證,因此英偉達也在近些年希望將其推廣到更多領(lǐng)域,包括聊天機器人。
然而,合成數(shù)據(jù)在工業(yè)場景里的成功案例,并不代表在其他領(lǐng)域都能遵循物理規(guī)律。
有時候AI連真實圖片都無法理解,更不要說理解二次生成的圖片了。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅(qū)動創(chuàng)新
