把「大模型」塞進(jìn)手機(jī)里,究竟有多難?

jh 2年前 (2023-12-22)

蘋(píng)果找了一條新思路。

能裝進(jìn)口袋的AppleGPT,它可能比你想象得更早成為現(xiàn)實(shí)。

據(jù)科技媒體MacRumors報(bào)道,蘋(píng)果公司的AI研究人員在近期發(fā)布的一篇研究論文里,提到一種創(chuàng)新的閃存技術(shù),該技術(shù)可能是為了探索“在有限的內(nèi)存中運(yùn)行大語(yǔ)言模型”(論文地址:2312.11514.pdf (arxiv.org))。

把AI大模型裝進(jìn)手機(jī)里,并不是什么稀奇的事情。自今年下半年起,國(guó)內(nèi)手機(jī)廠(chǎng)商們紛紛透露自家大模型的消息,并表示未來(lái)的旗艦機(jī)型都會(huì)接入大模型。

不僅是手機(jī),汽車(chē)、PC、平板甚至是學(xué)習(xí)機(jī),都嘗試將大模型嵌入其中。而這些大模型的規(guī)模也,從十億級(jí)到百億級(jí),甚至千億級(jí)。

不過(guò)發(fā)布會(huì)的演示雖多,實(shí)際測(cè)試下來(lái)真正驚艷的其實(shí)并不多。

例如一些所謂的手機(jī)大模型產(chǎn)品,無(wú)論是回答問(wèn)題、生成一段文本或是圖畫(huà),體驗(yàn)感都遠(yuǎn)遠(yuǎn)不及網(wǎng)頁(yè)側(cè)的GPT產(chǎn)品。

手機(jī)AI大模型,難在硬件

早在ChatGPT誕生前,智能手機(jī)上的語(yǔ)音助手們,其實(shí)就已經(jīng)擁有人機(jī)交互、實(shí)時(shí)語(yǔ)音交流等能力。例如Siri、小愛(ài)、小藝等產(chǎn)品,它們?cè)谟脩?hù)與進(jìn)行對(duì)話(huà)后,即可完成一些簡(jiǎn)單操作指令。

可只要問(wèn)題稍微復(fù)雜一點(diǎn),這些語(yǔ)音助手就會(huì)變成“人工智障”,無(wú)法理解用戶(hù)的真實(shí)意圖。

此外,這些語(yǔ)音助手的功能很單一,無(wú)論是專(zhuān)注做語(yǔ)音功能,還是打造成一款全能性的應(yīng)用,使用反饋都很一般。

隨著大模型產(chǎn)品的成熟,AI的效率得到進(jìn)化,原本“不聰明”的語(yǔ)音助手們終于有望像ChatGPT回答復(fù)雜的問(wèn)題,大大提高智能手機(jī)的可玩性——這本是手機(jī)廠(chǎng)商們急于落地AI大模型技術(shù)的初衷。

而從實(shí)際體驗(yàn)來(lái)看,手機(jī)大模型應(yīng)用的體驗(yàn)感并沒(méi)有想象中驚艷,各種功能都不及網(wǎng)頁(yè)側(cè)。

我們以小米大模型為例,在演講中,雷軍表示,小米的突破方向是輕量化和本地部署,也就是所謂“端側(cè)大模型”。

而想要運(yùn)行起來(lái),還少不了本地處理器。

在小米發(fā)布自研大模型之前,高通推出了新一代移動(dòng)平臺(tái)驍龍8 Gen 3。該處理器除了提升各方面性能以外,最重要的是引入了全新的Hexagon NPU處理器,將AI總算力推到了73TOPS,支持終端側(cè)AI及生成式AI性能。

按高通表示,新處理器在終端設(shè)備上首次實(shí)現(xiàn)了運(yùn)行100億參數(shù)的模型,并且針對(duì)70億參數(shù)LLM每秒能夠生成20個(gè)token——這意味著目前的各種主流LLM都可以在手機(jī)端正常運(yùn)行

但實(shí)際情況是,小米AI大模型MiLM推出了6B(64億)參數(shù),1.3B(13億)參數(shù)兩個(gè)版本,只有更小巧的1.3B參數(shù)版本被塞進(jìn)手機(jī)。

在采訪(fǎng)國(guó)內(nèi)大模型初創(chuàng)公司智子引擎時(shí),他們提出過(guò)一個(gè)思路——針對(duì)芯片硬件側(cè),不管是大模型的訓(xùn)練和推理,除了要考慮算力的問(wèn)題外,還要關(guān)注數(shù)據(jù)處理的存儲(chǔ)量的問(wèn)題。

像 ChatGPT 和Claude 這樣基于LLM的聊天機(jī)器人,其實(shí)非常耗費(fèi)數(shù)據(jù)和內(nèi)存,通常需要大量?jī)?nèi)存才能運(yùn)行,這對(duì)于 iPhone 等內(nèi)存容量有限的設(shè)備來(lái)說(shuō)是一個(gè)挑戰(zhàn)。

而在AI 模型不斷膨脹的同時(shí),內(nèi)存廠(chǎng)商的增長(zhǎng)卻當(dāng)前的需求,造成了“內(nèi)存墻”問(wèn)題。

因此在蘋(píng)果AI研究人員的論文里,作者別出心裁地提出針對(duì)閃存進(jìn)行改進(jìn),從而繞過(guò)限制,從而移動(dòng)設(shè)備支持運(yùn)行超出自身內(nèi)存規(guī)模的模型。

至于解決方法,一個(gè)是Windowing (窗口化),通過(guò)重用先前激活的神經(jīng)元來(lái)戰(zhàn)略性地減少數(shù)據(jù)傳輸,

第二個(gè)是Row-Column Bundling(行列捆綁),根據(jù)閃存的順序數(shù)據(jù)訪(fǎng)問(wèn)強(qiáng)度量身定制,增加了從閃存讀取的數(shù)據(jù)塊的大小。

由于這項(xiàng)技術(shù)還停留在論文層面,我們只能從輪數(shù)據(jù)上得到反饋。

數(shù)據(jù)顯示,測(cè)試LLM的推理速度在Apple M1 Max CPU上提高了4-5倍,在GPU上提高了20-25倍,效果還是非常明顯。

最后,論文作者總結(jié)到:“這一突破對(duì)于在資源有限的環(huán)境中部署先進(jìn)的LLM尤為重要,擴(kuò)大了它們的適用性和可訪(fǎng)問(wèn)性

對(duì)于消費(fèi)者來(lái)說(shuō),在解決了內(nèi)存問(wèn)題后,就花費(fèi)更少體驗(yàn)更強(qiáng)的AI應(yīng)用,手機(jī)廠(chǎng)商們也不用為模型參數(shù)犯愁。

當(dāng)然,手機(jī)AI大模型面臨的難題不僅是內(nèi)存,還有老生常談的“功耗問(wèn)題”,這一點(diǎn)也是未來(lái)手機(jī)處理器廠(chǎng)商需要重點(diǎn)考慮的問(wèn)題。

改做小模型,可行嗎?

在解決硬件問(wèn)題之前,還有一些手機(jī)廠(chǎng)商采用云端大模型接入的方式。

雖然這種云端協(xié)同的方式可以讓手機(jī)接入更大參數(shù)的大模型,但用戶(hù)每一次使用應(yīng)用時(shí)都會(huì)產(chǎn)生費(fèi)用,而當(dāng)國(guó)內(nèi)所有用戶(hù)使用大模型應(yīng)用的話(huà),一年下來(lái)也是一筆不少的開(kāi)支。

因此在這兩種路徑外,一些AI公司開(kāi)始探索起小模型(SLM)的潛力。

例如微軟,目前在生成式AI戰(zhàn)略上出現(xiàn)了180度大轉(zhuǎn)變,推出多款小模型。

就在本月,微軟發(fā)布了27億參數(shù)規(guī)模的小語(yǔ)言模型Phi-2,經(jīng)研究人員測(cè)試,該模型在參數(shù)規(guī)模小于130億的模型中,展示了最先進(jìn)性能。

以高質(zhì)量的“小數(shù)據(jù)”挑戰(zhàn)“大模型”,這是小模型的特點(diǎn)之一。除此以外,因?yàn)閰?shù)規(guī)模足夠小,Phi-2可以在筆記本電腦、手機(jī)等移動(dòng)設(shè)備上運(yùn)行。

隨著越來(lái)越多的廠(chǎng)商開(kāi)始探索在手機(jī)等移動(dòng)設(shè)備上部署大模型,微軟的小模型產(chǎn)品可以用憑借更加出色的性能搶先占領(lǐng)移動(dòng)市場(chǎng)。

除了微軟以外,一些初創(chuàng)AI公司也選擇從小模型入局。

例如號(hào)稱(chēng)歐洲版OpenAI的Mistral AI,他們推出的開(kāi)源模型Mistral 7B,就是一款非常有特點(diǎn)的小模型,僅僅用7B模型就達(dá)到了大部分大模型的平。

而他們其實(shí)更看到B端企業(yè)客戶(hù)的需求,在保護(hù)企業(yè)的私有數(shù)據(jù)不被泄露和利用提前下,讓小模型成為更實(shí)用的企業(yè)版方案,這也非常符合歐洲當(dāng)?shù)仄髽I(yè)的特點(diǎn)。

不過(guò)總的來(lái)說(shuō),小模型與大模型算是兩種不同類(lèi)型的產(chǎn)品,都有各自的價(jià)值,不存在取代關(guān)系。

或許在未來(lái)的移動(dòng)設(shè)備上,大模型和小模型都能有所作為。但就目前來(lái)看,“手機(jī)AI大模型”還要很多難題亟待解決。

最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(zhǎng)按識(shí)別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新

分享到