人工智能的盡頭,是“具身智能”?

jh 2年前 (2023-05-25)

黃仁勛、比爾·蓋茨相繼押注,這個(gè)新概念不簡(jiǎn)單。

未來的AI會(huì)是什么樣?

在知名科技富豪比爾·蓋茨的設(shè)想里:AI將成為人類的數(shù)字助理,它不會(huì)取代人類的工作,反倒是取代谷歌、亞馬遜這類“老舊”的互聯(lián)網(wǎng)平臺(tái)。

巧的是,就在本周,微軟聯(lián)手OpenAI在一年一度的開發(fā)者大會(huì)Build上,拋出了類似的產(chǎn)品——Copilot、Bing和ChatGPT等一系列產(chǎn)品被集成到Windows上,打造出一個(gè)無所不能的“AI助手”。

比爾·蓋茨把這種AI個(gè)人助理看成一種不同于ChatGPT的新物種,而微軟CEO納德拉也將其稱之為一次變革。

那么所謂的“AI個(gè)人助理”究竟是不是下一個(gè)科技風(fēng)口?它又有何底氣能取代谷歌、亞馬遜?

AI私人管家,蓋茨的科技暢想

面對(duì)AI浪潮,你是對(duì)它的強(qiáng)大能力充滿期待?還是對(duì)它會(huì)隨時(shí)取代你產(chǎn)生惶恐?

在見識(shí)了AI的威力后,一度有上千名科技人士發(fā)表公開聯(lián)名信,要求暫停大型AI技術(shù)的開發(fā)至少六個(gè)月的時(shí)間,并希望在此期間由頂尖專家與政策制定者合作,制定出有關(guān)AI的治理規(guī)范。

但顯然各大巨頭廠商并不情愿在這場(chǎng)AI競(jìng)賽中停下腳步,唯一能做的只是盡可能避免AI干壞事。

那么AI真的發(fā)展到威脅人類的階段嗎?

在比爾·蓋茨看來,AI是一項(xiàng)“改變游戲規(guī)則的技術(shù)”,但這項(xiàng)技術(shù)仍然“處于早期,頗具革命性”。

而他所提到的革命性階段,正是在本周AI Forward 2023活動(dòng)上重點(diǎn)介紹的“AI個(gè)人助理”。

比爾蓋茨在大會(huì)上預(yù)測(cè)到——

未來的AI個(gè)人助理將影響深遠(yuǎn),能夠了解一個(gè)人的需求和習(xí)慣,并幫助他們“閱讀你沒有時(shí)間閱讀的內(nèi)容”

這款強(qiáng)大的未來數(shù)字代理還需要一段時(shí)間的進(jìn)化才能在主流社會(huì)中投入使用,在此之前,各大企業(yè)將繼續(xù)在自己的產(chǎn)品中嵌入所謂的生成式AI,類似于OpenAI的ChatGPT。

未來公司使用的人形機(jī)器人會(huì)比人類員工更便宜,這也將對(duì)藍(lán)領(lǐng)工人造成巨大影響。

如果看到這里還是無法理解“AI個(gè)人助理”的含義,那么可以參考下早已耳熟能詳?shù)奶厮估诵螜C(jī)器人,其最終目的幾乎可以與人類助理劃等號(hào)。

事實(shí)上在行業(yè)內(nèi),這類AI有它的專屬名稱——具身智能(Embodied Intelligence),它們是有身體并支持物理交互的智能體

與之相對(duì),ChatGPT則是“沒有物理身體,只能被動(dòng)接受人類數(shù)據(jù)”的非具身智能(Internet AI)。

也就在前不久的ITF World 2023半導(dǎo)體大會(huì)上,英偉達(dá)CEO黃仁勛高調(diào)表示AI下一個(gè)浪潮正是“具身智能”

在這場(chǎng)活動(dòng)上,他公布了一套多模態(tài)具身智能系統(tǒng)——Nvidia VIMA,據(jù)介紹稱,該系統(tǒng)能夠在視覺文本提示的指導(dǎo)下執(zhí)行復(fù)雜任務(wù)的全新AI模型,遠(yuǎn)比現(xiàn)有的大模型產(chǎn)品功能強(qiáng)大。

那么比爾蓋茨口中的革命性階段,是否可以理解為“AI+機(jī)器人”?

機(jī)器人,AI的最終解決方案?

早在1950年,圖靈在他的知名論文《Computing Machinery and Intelligence》中探討了人、機(jī)、智能三者關(guān)系。

這是一篇帶有哲學(xué)意味的論證文,但圖靈對(duì)于“學(xué)習(xí)機(jī)器”與“機(jī)器學(xué)習(xí)”的討論,仍然值得當(dāng)下AI行業(yè)深思。

例如,圖靈認(rèn)為機(jī)器可以“模仿”人的思維活動(dòng),但其所謂創(chuàng)造性能力,前提仍是“編程”,即機(jī)器可以模仿程序員的行為。

有分析機(jī)構(gòu)指出,之所以機(jī)器人難以產(chǎn)生與人、與環(huán)境的交互,其主要障礙在于目前控制機(jī)器人的手段仍是手寫代碼。

而進(jìn)入AIGC時(shí)代,AI大模型為機(jī)器人提供了新的解決方案,自動(dòng)生成的代碼可以幫助機(jī)器人實(shí)時(shí)解決現(xiàn)實(shí)世界出現(xiàn)的各類問題。

如今,已經(jīng)有不少研究人員嘗試將多模態(tài)的大語言模型接入機(jī)器人系統(tǒng),從而幫助機(jī)器人實(shí)現(xiàn)推理任務(wù)。

在圖片、聲音、文字、視頻等多模態(tài)輸入下,大模型增強(qiáng)了對(duì)現(xiàn)實(shí)中對(duì)象的理解,讓機(jī)器人也有了像人類一樣的思考能力。

相比之下,ChatGPT這類非具身智能,由于無法產(chǎn)生與人類的交互能力,最終還是依賴人類已經(jīng)采集好的數(shù)據(jù),因此存在一定上限。

讓我們回頭再看看比爾蓋茨的未來設(shè)想——

AI個(gè)人助理將能夠理解用戶的需求,并提供相關(guān)的信息和服務(wù),這將使傳統(tǒng)的搜索引擎變得多余。

AI個(gè)人助理將能夠理解用戶的購(gòu)物需求,自動(dòng)尋找最佳的產(chǎn)品和價(jià)格,并處理購(gòu)物和付款的過程。

AI個(gè)人助理會(huì)自動(dòng)安排會(huì)議,管理電子郵件,甚至幫助用戶編寫報(bào)告或演示文稿。

從上述描述來看,AI個(gè)人助理獲取信息的來源都是源于真實(shí)的物理世界,這一點(diǎn)正與“具身智能”的定義十分吻合。

既然機(jī)器人可以不需要人類輸入數(shù)據(jù)就能自我學(xué)習(xí),那顯然比ChatGPT這類生成式AI更具有“噱頭”。

人形機(jī)器人,依舊遙遠(yuǎn)

在特斯拉2023年股東大會(huì)上,馬斯克通過視頻展示了Optimus人形機(jī)器人的最新進(jìn)展,包括撿起物品、模仿人類動(dòng)作,完成分類物品等等。

相比于初次登場(chǎng)時(shí)晃晃悠悠走了一圈就匆匆離場(chǎng),這次Optimus可謂取得全方位進(jìn)展,AI能力大幅提升。

相比之下,科技圈老熟人波士頓動(dòng)力的人形機(jī)器人更是無所不能,空翻、跳躍樣樣精通。

既然人形機(jī)器人是“具身智能”最好的表現(xiàn),那么是否預(yù)示著AI的下一個(gè)科技風(fēng)口已經(jīng)不遠(yuǎn)?

這里不得不潑一盆冷,從中短期來看,人形機(jī)器人尚且難成風(fēng)口,要實(shí)現(xiàn)“具身智能”則難度更大。

從人形機(jī)器人的角度看,市場(chǎng)需求并不像我們想象地龐大。

工業(yè)領(lǐng)域,功能各異的專業(yè)機(jī)器人已經(jīng)占據(jù)著大部分使用場(chǎng)景,人形機(jī)器人顯得十分雞肋。在服務(wù)領(lǐng)域,人形機(jī)器人并不如人們想象地智能,市場(chǎng)需求仍待進(jìn)一步開發(fā)。

至于人形機(jī)器人的成本問題,尤其是三大核心零部件——減速器、伺服電機(jī)及控制器的成本,仍需等待產(chǎn)業(yè)鏈進(jìn)一步發(fā)展。

而從AI發(fā)展的角度來看,科技巨頭們真的愿意將巨額的AI訓(xùn)練成本投入放在機(jī)器人上嗎?并非如此。

除了幾家財(cái)大氣粗的頭部廠商以外,大部分廠商當(dāng)下最重要的工作還是提升基礎(chǔ)模型的能力,而ChatGPT等所謂的“非具身智能”更具商業(yè)價(jià)值。

更何況還有人形機(jī)器人還要涉及的倫理、AI覺醒等問題,遠(yuǎn)比ChatGPT這類“聊天機(jī)器人”要嚴(yán)重。

總的來說,“具身智能”這樣的概念更像是一次炒作,離我們?nèi)匀皇诌b遠(yuǎn)。

XR才是最終贏家?

雖然人形機(jī)器人還是過于超前,但是在AI時(shí)代,硬件廠商還是能夠發(fā)揮各自優(yōu)勢(shì),挖掘“智能助理”的價(jià)值。

例如,手機(jī)終端始終是個(gè)人助理最大載體,而隨著未來AR/VR等技術(shù)的發(fā)展,頭顯設(shè)備將有較大機(jī)會(huì)實(shí)現(xiàn)軟硬一體結(jié)合,例如曾經(jīng)的音箱、耳機(jī)等硬件一樣,成為“智能助理”未來的載體。

有分析師認(rèn)為,OpenAI已經(jīng)于3月宣布解除ChatGPT無法聯(lián)網(wǎng)的限制,為ChatGPT添加對(duì)插件的支持,其目的就是為“智能助理”這樣的超級(jí)應(yīng)用做準(zhǔn)備。

而近期微軟嘗試將Copilot接入集成到Windows,其目的也是希望AI可以重新定義其所有業(yè)務(wù),并實(shí)現(xiàn)多平臺(tái)運(yùn)行。

AI的下一步,仍有無窮的可能性。

最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(zhǎng)按識(shí)別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新

分享到