AI+機(jī)器人!當(dāng)機(jī)器人碰上大模型,將帶來(lái)哪些變革? | 研報(bào)推薦
疊加AI大模型(特別是多模態(tài)AI大模型)的賦能,移動(dòng)機(jī)器人的能力有望大幅提升。
進(jìn)入2024年,機(jī)器人領(lǐng)域迎來(lái)了一場(chǎng)大爆發(fā),科技巨頭們紛紛帶來(lái)驚艷的演示視頻,展示出令人瞠目結(jié)舌的產(chǎn)品。
這其中,大部分視頻展示的是外表酷似人形的“具身智能體”,它們可以完成各類(lèi)復(fù)雜任務(wù)。
然而,這些演示視頻也引發(fā)了不少的爭(zhēng)議,有人懷疑這些機(jī)器人是否真的在自主執(zhí)行任務(wù)。
例如斯坦福大學(xué)推出的Mobile ALOHA系統(tǒng)機(jī)器人,就被曝出是真人遠(yuǎn)程操作,在自主模式下曾多次“翻車(chē)”,可見(jiàn)AI機(jī)器人離落地應(yīng)用還有很大差距。
不過(guò)在工業(yè)制造、倉(cāng)儲(chǔ)物流等場(chǎng)景里,工業(yè)機(jī)器人已經(jīng)在大模型(LLM)的加持下展現(xiàn)出一定的智能性與自主性。
在近期國(guó)投證券發(fā)布的報(bào)告《人工智能行業(yè)專(zhuān)題:大模型帶來(lái)機(jī)器人變革》一文里,分析師以“AMR機(jī)器人”為例,介紹了大模型給工業(yè)機(jī)器人帶來(lái)的影響與變革。
以下內(nèi)容為報(bào)告重點(diǎn)內(nèi)容精選:
AMR行業(yè)快速增長(zhǎng),軟件和算法是核心
(鎂客網(wǎng)注:在此部分,分析師介紹了AMR機(jī)器人的定義、技術(shù)路徑、技術(shù)核心等內(nèi)容,并介紹了英偉達(dá)等海外大廠的AMR機(jī)器人方案。)
移動(dòng)機(jī)器人,指在復(fù)雜環(huán)境下工作,具有自行組織、自主運(yùn)行、自主規(guī)劃的智能機(jī)器人,主要可以分為自主移動(dòng)機(jī)器人(AMR)、關(guān)節(jié)型機(jī)器人、人機(jī)協(xié)作機(jī)器人等。
根據(jù)GGII數(shù)據(jù),從全球維度來(lái)看,22年全球移動(dòng)機(jī)器人市場(chǎng)規(guī)模約292億,預(yù)計(jì)27年增長(zhǎng)至1874億元,對(duì)應(yīng)22-27年CAGR為45.07%;
從國(guó)內(nèi)維度來(lái)看,22年中國(guó)移動(dòng)機(jī)器人市場(chǎng)規(guī)模約97億元,預(yù)計(jì)27年增長(zhǎng)至462億元,對(duì)應(yīng)22-27年CAGR為36.74%,市場(chǎng)規(guī)模快速增長(zhǎng)。
其中,自主移動(dòng)機(jī)器人(AMR)是一種能夠獨(dú)立理解環(huán)境并在環(huán)境中移動(dòng)的機(jī)器人。
AMR與其前身自動(dòng)導(dǎo)引車(chē) (AGV) 不同,后者依賴(lài)于軌道或預(yù)定義路徑,并且通常需要操作員監(jiān)督。而AMR使用一組復(fù)雜的傳感器、人工智能、機(jī)器學(xué)習(xí)和計(jì)算來(lái)進(jìn)行路徑規(guī)劃,以解釋和導(dǎo)航其環(huán)境,不受有線電源的束縛。
AMR的背后有兩大關(guān)鍵技術(shù)路徑:
1、容器化的SDK工具集——包含感知、導(dǎo)航軟件堆棧;好用的開(kāi)發(fā)環(huán)境,模擬工具;后續(xù)優(yōu)化升級(jí)Containers;
2、邊緣微服務(wù)器支撐——包括無(wú)線通信,安全設(shè)備,協(xié)作SLAM Fleet管理。
AMR技術(shù)核心:
1、架構(gòu)
(1)AMR本體能力:具備傳感和智能路徑規(guī)劃,運(yùn)動(dòng)控制、安全和人機(jī)交互HMI,機(jī)器視覺(jué)和智能導(dǎo)航等能力, 賦能制造業(yè)向柔性化、智能化發(fā)展。
(2)云端交互任務(wù)處理:AMR本體通過(guò)網(wǎng)絡(luò)(WIFI/以太)與云端計(jì)算中心交互,在云端完成數(shù)據(jù)分析,推理,模擬等工作,需要云端AI芯片支持(例如英偉達(dá)H100等)。
(3)架構(gòu)組成:目前主要由控制系統(tǒng)、導(dǎo)航傳感系統(tǒng)、驅(qū)動(dòng)模塊、安全監(jiān)測(cè)模塊、交互模塊、通訊模塊、動(dòng)力模塊(電池等)、執(zhí)行機(jī)構(gòu)(機(jī)械裝置)組成,不同場(chǎng)景品類(lèi)的機(jī)器人對(duì)配置要求不同。
2、硬件
硬件部分主要包括TMT零部件(控制系統(tǒng)相關(guān)硬件、導(dǎo)航傳感器、驅(qū)動(dòng)模塊、通訊模塊等)、電池(動(dòng)力模塊)、機(jī)械裝置(執(zhí)行機(jī)構(gòu)等),隨著定位導(dǎo)航、機(jī)器視覺(jué)、規(guī)劃執(zhí)行等環(huán)節(jié)對(duì)芯片需求的增長(zhǎng),以及激光雷達(dá)等新型傳感器的應(yīng)用,機(jī)器人中TMT零部件的價(jià)值量持續(xù)提升。
未來(lái),AI將走出計(jì)算機(jī),進(jìn)而影響外部世界(物理世界),而機(jī)器人是AI最佳載體之一;隨著智能機(jī)器人的發(fā)展,機(jī)器人傳感器、執(zhí)行器將同AI相結(jié)合,具備模擬(用于仿真的虛擬空間)、映射(實(shí)時(shí)地圖創(chuàng)建能力)、自主(獨(dú)立運(yùn)行)等能力,需要強(qiáng)大的端側(cè)算力支撐,移動(dòng)GPU嵌入AMR本體是發(fā)展趨勢(shì)。
3、軟件、算法
在實(shí)際應(yīng)用中,移動(dòng)機(jī)器人通常以集群的方式系統(tǒng)完成特定任務(wù);
未來(lái),成百上千臺(tái)機(jī)器人規(guī)劃化集群作業(yè)是發(fā)展的必然趨勢(shì),即逐步從單體智能向群體智能演進(jìn),軟件和算法成為構(gòu)筑核心競(jìng)爭(zhēng)力的壁壘,例如統(tǒng)一環(huán)境下完成作業(yè)調(diào)度、找到全局最優(yōu)方案提升集群機(jī)器人工作總效率等。
因此分析師認(rèn)為,隨著行業(yè)應(yīng)用場(chǎng)景的豐富和技術(shù)的發(fā)展,產(chǎn)品模塊化、軟件模塊化將成為AMR發(fā)展的必然趨勢(shì)。
目前,端側(cè)(即機(jī)器人本體)軟件、算法主要有ROS 2、地圖規(guī)劃算法、AI算法、樣點(diǎn)算法等,支撐路徑規(guī)劃、障礙躲避、運(yùn)動(dòng)控制等功能;
而云側(cè)(及邊緣)軟件、算法主要有集群管理算法、訓(xùn)練、遠(yuǎn)端推理、遠(yuǎn)端SLAM、數(shù)據(jù)分析算法等,支撐算力調(diào)度、機(jī)器人集群協(xié)作、數(shù)據(jù)分析等功能。
目前,各頭部廠商擁有自己的解決方案,技術(shù)路徑隨大模型的發(fā)展,快速迭代。
以Intel為例,其提供相應(yīng)的開(kāi)發(fā)工具和平臺(tái),使開(kāi)發(fā)者可以快速、低成本地搭建、管理AMR機(jī)器人。
除此以外,英偉達(dá)旗下的ISAAC集成式端到端解決方案、Jetson系列產(chǎn)品以及特斯拉的FSD+Dojo都是目前業(yè)內(nèi)比較領(lǐng)先的解決方案。
值得一提的是,當(dāng)前機(jī)器人價(jià)值鏈劃分里面沒(méi)有智能系統(tǒng)。
分析師認(rèn)為,機(jī)器人是典型的機(jī)電軟一體化產(chǎn)品,軟件與硬件是相互限制又相互促進(jìn)的矛盾體;邊緣算力硬件將會(huì)制約機(jī)器人相關(guān)應(yīng)用的發(fā)展,邊緣算力硬件的突破使得機(jī)器人可以承載更強(qiáng)大的AI,同時(shí)機(jī)器人應(yīng)用的發(fā)展會(huì)倒逼邊緣算力硬件的提升。
當(dāng)下的機(jī)器人智能停留在視覺(jué)(vision)階段,機(jī)器人缺乏智能系統(tǒng)(即機(jī)器人的大腦);在未來(lái),在AI對(duì)機(jī)器人賦能的大背景下,機(jī)器人可以逐步理解物理世界,未來(lái)有可能向具身智能方向發(fā)展,智能系統(tǒng)對(duì)機(jī)器人的重要性愈發(fā)凸顯。
巨變:多模態(tài)大模型賦能機(jī)器人
(鎂客網(wǎng)注:在此部分,分析師介紹了多模態(tài)大模型如何賦能機(jī)器人。)
多模態(tài)大模型賦能機(jī)器人,主要體現(xiàn)為多模態(tài)感知和多模態(tài)交互。
• 多模態(tài)感知:通過(guò)多類(lèi)型傳感器的配合,機(jī)器人處理多個(gè)模態(tài)接收的信息,從而實(shí)現(xiàn)對(duì)文本、圖像、視頻、音頻等模態(tài)信息的學(xué)習(xí)和理解。
• 多模態(tài)交互:用戶(hù)可以同時(shí)使用語(yǔ)音、手勢(shì)、文本等與機(jī)器人交互,同單模態(tài)交互相比,多模態(tài)交互具有減輕用戶(hù)認(rèn)知負(fù)擔(dān)(交互更自然)、消除任 務(wù)歧義(交互更準(zhǔn)確)、降低環(huán)境干擾(交互更加魯棒)等優(yōu)勢(shì),使交互更加靈活和高效。
此外,大語(yǔ)言模型(LLM)賦能機(jī)器人語(yǔ)義理解,從傳統(tǒng)的關(guān)鍵詞語(yǔ)義識(shí)別,進(jìn)化到可以理解人類(lèi)復(fù)雜的語(yǔ)音命令;同時(shí),通過(guò)預(yù)訓(xùn)練大模型將“記憶”移植到智能機(jī)器人終端,機(jī)器人具備理解任務(wù)的能力。
由于機(jī)器人本體計(jì)算能力有限,需要通過(guò)強(qiáng)大的云端計(jì)算能力給機(jī)器人賦能。由此構(gòu)成了“云-網(wǎng)-端”架構(gòu)
“端”:是機(jī)器人本體及本體自身的控制系統(tǒng),嵌入式AI芯片逐步替代傳統(tǒng)嵌入式芯片,機(jī)器人本體的智能性快速提升;
“網(wǎng)”:主要指通過(guò)Wifi、5G及其他無(wú)線通信網(wǎng)絡(luò)將機(jī)器人連接起來(lái),實(shí)現(xiàn)機(jī)器人本體和云端大腦的連接;
“云”:通過(guò)機(jī)器學(xué)習(xí),不斷進(jìn)化,進(jìn)而使前端機(jī)器人本體的智能隨之提升。
未來(lái),隨著模型植入機(jī)器人本體。云端大模型泛化出基本能力,并把這部分“記憶”植入機(jī)器人邊緣端(通過(guò)蒸餾等方式壓縮模型大?。?,進(jìn) 而機(jī)器人本體可以將識(shí)別到的視覺(jué)、雷達(dá)、語(yǔ)音交互數(shù)據(jù)進(jìn)行處理,并規(guī)劃動(dòng)作,完成反饋。
在該部分,分析師以Google RT2 為例,介紹了新模型如何賦能機(jī)器人執(zhí)行各項(xiàng)任務(wù)。這是一個(gè)視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型,符號(hào)理解、推理、人類(lèi)識(shí)別等領(lǐng)域能力大幅提升,且泛化能力大幅提升。
國(guó)內(nèi)機(jī)器人產(chǎn)業(yè)蓬勃發(fā)展
(鎂客網(wǎng)注:在此部分,分析師介紹了國(guó)內(nèi)機(jī)器人產(chǎn)業(yè)的最新情況。)
國(guó)內(nèi)機(jī)器人產(chǎn)業(yè):機(jī)器人產(chǎn)業(yè)鏈上游包括核心零部件、配套零部件和軟件系統(tǒng)開(kāi)發(fā),中游為機(jī)器人本體的生產(chǎn)及系統(tǒng)集成,目前主要集 中在工業(yè)機(jī)器人和服務(wù)機(jī)器人領(lǐng)域,下游主要包括工業(yè)應(yīng)用(汽車(chē)制造、家電制造、航空航天等)和服務(wù)應(yīng)用(餐飲服務(wù)、酒店服務(wù)、
醫(yī)療服務(wù)、物流服務(wù)等);近兩年一些做算法的軟件公司借助海外大模型的風(fēng),開(kāi)始自研垂直小模型,并供給下游終端廠。
創(chuàng)業(yè)公司情況:根據(jù)中國(guó)機(jī)器人網(wǎng)統(tǒng)計(jì)數(shù)據(jù),2023年中國(guó)機(jī)器人行業(yè)共發(fā)生134起融資事件,其中近億/過(guò)億元級(jí)融資事件52起,2023年融資金額總計(jì)為200億元左右;2023年融資事件主要發(fā)生在工業(yè)機(jī)器人相關(guān)(37起左右)、醫(yī)療機(jī)器人(29起左右)、服務(wù)機(jī)器人(24起左右)、人形機(jī)器人(12起左右)等領(lǐng)域。
上市公司情況:目前上市公司以提供終端硬件為主,并逐步優(yōu)化機(jī)器人軟件(模型、算法等),提升機(jī)器人性能表現(xiàn)。
在此部分,研報(bào)列舉了海康機(jī)器人等國(guó)內(nèi)多家優(yōu)秀機(jī)器人企業(yè),這里就不詳細(xì)展開(kāi)介紹。
最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新
