當(dāng)智能手機(jī)用上“AI系統(tǒng)”,AI Pin拿什么贏?

jh 2年前 (2024-04-15)

如何做AI手機(jī),現(xiàn)在有了一條新思路。

去年11月,一款名叫“AI Pin”的AI硬件刷屏了科技圈。

它沒有屏幕,全靠聲音與投影進(jìn)行交互,用戶只需簡單幾句,這個“小方塊”就可以作出回應(yīng)。

除了官方描述得無比科幻以外,行業(yè)也是對這款硬件無比看好。

首先該產(chǎn)品被《時代》評選為“2023 年年度發(fā)明”,一度被視作顛覆iPhone的革命性產(chǎn)品。其次作為研發(fā)公司,Humane拿到了OpenAI、微軟、高通等科技巨頭數(shù)億元的注資。

但隨著近期AI Pin開始發(fā)貨,媒體評測隨之解禁,網(wǎng)友們這才發(fā)現(xiàn),實機(jī)展現(xiàn)的效果可謂令人大跌眼鏡。

除了AI Pin以外,Rabbit R1等AI硬件也在CES大會上賺足了眼神。但這些AI硬件想法很好,可短時間內(nèi)很難擺脫不了“智商稅”的標(biāo)簽。

“iPhone殺手”口碑翻車,哪里出了錯?

AI Pin的體驗究竟有多糟糕:系統(tǒng)操作復(fù)雜、三分鐘過熱關(guān)機(jī)、在陽光下幾乎無法使用投影……

除了這些最直觀的負(fù)面體驗感以外,AI功能響應(yīng)慢且回復(fù)內(nèi)容質(zhì)量低、系統(tǒng)功能需額外付費、佩戴方式對衣服材質(zhì)有要求等等,這些問題放在任何一個成熟的硬件上都是槽點。

更糟糕的是,AIPin有超過450萬臺的預(yù)定量,而價格又不便宜(699美元,約合人民幣5000元)。

這就意味著這一批用戶都成了高價購買智商稅的“怨種”,也難怪網(wǎng)絡(luò)上一邊倒的負(fù)面評價。

對此,Humane高管急忙回應(yīng)外媒The Verge稱,公司會在下個軟件版本中提高不間斷運行時間,并提高整體熱性能。

但從目前已有的信息來看,AIPin這些問題其實基本來自硬件條件。

在去掉了實體屏幕后,AI Pin的體積并不大,但官方還是在這款硬件里塞入了攝像頭、全息投影、可以支持AI功能的處理芯片以及滿足續(xù)航的電池。

不過過小的體積,也意味著這款硬件的硬件性能并不會太高,更不要說與智能手機(jī)芯片相提并論。

既然如此,又想讓AIPin跑得動ChatGPT,又要兼顧續(xù)航、拍照像素、相應(yīng)速度等各個方面,自然是不可能。

有媒體評價說,以目前的回應(yīng)效率來看,用戶使用智能手機(jī)獲得準(zhǔn)確答案的速度,要遠(yuǎn)快于AIPin。而智能手機(jī)還只是使用傳統(tǒng)的搜索引擎。

如此來看,AI硬件雖然宣稱利用AI Agent的能力挑戰(zhàn)智能手機(jī)的霸權(quán),但自身的硬件能力還是限制了發(fā)揮。

當(dāng)智能手機(jī)玩起了交互

就在硅谷推動AI硬件的同時,手機(jī)制造商、芯片廠商們都在思考如何讓手機(jī)用上AI。

有些廠商選擇把大模型塞進(jìn)手機(jī)里,主打“端側(cè)大模型”,通過直接讀取手機(jī)上的數(shù)據(jù)的方式,運行AI功能或app。

而有些廠商選擇從云端調(diào)用AI能力,減小本地存儲的壓力。

無論選擇本地還是云端,這些所謂的“AI手機(jī)”,本質(zhì)上仍是“用上了語言大模型Large language model(LLM)”的手機(jī),手機(jī)的硬件只是一種載體,完全依賴API 接口。

一旦背后使用的LLM大模型不給力,那么用戶也很難體會到AI的真正實力。

而AIPin和Rabbit R1這樣的AI硬件,它們主打的是用戶與AI的交互能力,后者團(tuán)隊更是提出了一個大型動作模型(Large Action Model,LAM)的概念,通過理解人類如何使用應(yīng)用和服務(wù),從而完成模仿操作。

這就意味著,即使界面有所不同或稍有變化,LAM也能適應(yīng)并準(zhǔn)確地執(zhí)行任務(wù),最終用戶可以僅靠一個界面,代替所有的App。

想法雖好,但Rabbit R1犯了一個和AIPin同樣的錯誤——硬件配置水平實在是過于入門(2.3GHz聯(lián)發(fā)科P35芯片、4GB內(nèi)存、128GB存儲空間),用戶本意上沖著更智能的GPT而來,結(jié)果往口袋里多塞一個硬件。

相比之下,智能手機(jī)不僅配置吊打這些AI硬件,而且能實現(xiàn)。接下來,就是看手機(jī)廠商們何時能搞出這種類似于LAM的“自適應(yīng)系統(tǒng)”。

也就是在上周,蘋果發(fā)布了一篇最新的論文,推出了一個叫Ferret UI的新模型。該模型的核心正是通過讀取屏幕信息的方式,為用戶提供高質(zhì)量的UI理解和交互。

據(jù)報道稱,F(xiàn)erretUI的前身是一個名為Ferret的多模態(tài)模型,用于改善與語音助手交互邏輯。

在去年十月剛剛發(fā)布時,F(xiàn)erret的業(yè)界對其反響并不熱烈,主要原因還是它的區(qū)域識別與主流大模型卷的方向不同,因此大部分人都認(rèn)為Ferret并沒太強(qiáng)的能力。

到了Ferret UI上,蘋果弱化了對話、推斷等大模型常見的能力,而是將重點放在了處理復(fù)雜的UI交互以及理解并響應(yīng)用戶的指令。

那么停留交互層面上的Ferret UI,或許能力是有限的,但若是配上網(wǎng)傳的谷歌Gemini模型,那將達(dá)到“1+1>2”的效果。

從這一點看來,F(xiàn)erret UI和Rabbit R1的思路非常相似,但顯然iPhone的玩法更多、性能更強(qiáng)。

如果一部手機(jī)能解決AI交互,那還要AI硬件什么事呢?

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動創(chuàng)新

分享到