唱跳全能的「擎天柱」Optimus,背后其實是真人遙控?

IM2Maker 1年前 (2024-10-14)

留給Optimus的算力不多了。 跌麻了!特斯拉“We, Robot”發(fā)布會完第二天,投資者們集體用腳投票,最終股價大...

留給Optimus的算力不多了。

跌麻了!特斯拉“We, Robot”發(fā)布會完第二天,投資者們集體用腳投票,最終股價大跌8.78%,創(chuàng)下兩個月來的最大跌幅。

有分析師表示,這次發(fā)布會雖有驚喜,但馬斯克并沒有給出細(xì)節(jié),再結(jié)合此前多次承諾都無法實現(xiàn),投資者的失望情緒可以理解。

當(dāng)然,大多數(shù)人的關(guān)注點都放在無人駕駛車上面,其實這次推出的新款Optimus在靈活性上的進(jìn)步其實值得拿出來講一講。

從多家媒體現(xiàn)場拍攝的視頻可以看出來,這次的Optimus不僅可以調(diào)酒跳舞,甚至可以聊天互動,甚至可以現(xiàn)場指揮大家給當(dāng)天生日的觀眾唱生日歌,無論是語氣還是邏輯都非常像

事實上,昨天展示的Optimus就是由真人遠(yuǎn)程遙控而不是自主AI,這是一種類似VR眼鏡的設(shè)備,人類訓(xùn)練員可以進(jìn)行遠(yuǎn)程實時操控。

這種利用VR技術(shù)訓(xùn)練的路徑其實已經(jīng)在多家機(jī)器人平臺上被應(yīng)用,比較成熟的包括Optimus以及英偉達(dá)Project GR00T,國內(nèi)一些具身智能企業(yè)也開始選擇使用真人動捕提高機(jī)器人的靈活性。

VR遙控機(jī)器人,已成主流

如果單就人形機(jī)器人這一形態(tài)來說,該路徑已經(jīng)成為仿人機(jī)器人AI訓(xùn)練的主流方法。

作為VR訓(xùn)練機(jī)器人的帶頭人,特斯拉在今年5月的一段公開的視頻里揭露了訓(xùn)練的大致流程。

從視頻里可以看到,Optimus的訓(xùn)練數(shù)據(jù)都是來自穿戴VR頭顯的人類訓(xùn)練員,這套完整的系統(tǒng)集成了 VR 頭顯、傳感器、手套、動捕服和相關(guān)軟件。

通過VR頭顯,Optimus可以1: 1地復(fù)刻映射人類操作員的動作,而軟件可以以實現(xiàn)第一人稱視頻的實時傳輸和精確控制輸出,并保持極低的延遲。

在最近,特斯拉進(jìn)一步加大了數(shù)據(jù)采集操作員(Data Collection Operator)的招募力度,這些操作員通過佩戴 VR 頭顯和使用高精度傳感器及動作捕捉服,為機(jī)器人提供高質(zhì)量的訓(xùn)練數(shù)據(jù)。

據(jù)招聘公告內(nèi)容,這些操作員需要長時間佩戴 VR 頭顯,每天步行超過7小時,攜帶重達(dá)30磅(約 13.61千克)的設(shè)備,根據(jù)要求執(zhí)行站立、行走等特定動作。

雖然累,但特斯拉的待遇給得是真的多,薪酬大約每小時25.25-48美元,另外還有股票獎勵以及福利。

當(dāng)然,如此誘人的報酬,硬性要求非常高,首先就是身高、體力以及操作經(jīng)驗的三重考驗,其次長時間操作VR設(shè)備并不是一件簡單的事情。

最后,從這次發(fā)布會的視頻可以看出來,機(jī)器人背后的操作人員需要極快的反應(yīng)能力,這一點能力也很難替代。當(dāng)然從效果來看,由真人訓(xùn)練的Optimus確實效果明顯。     

不僅是特斯拉,英偉達(dá)也將Vision Pro 納入其人形機(jī)器人平臺的訓(xùn)練體系中,研究員將仿真訓(xùn)練框架整合到英偉達(dá) Omniverse 平臺和 Isaac 機(jī)器人開發(fā)平臺,同時開發(fā)人員能夠使蘋果 Vision Pro 來遠(yuǎn)程操控人形機(jī)器人來執(zhí)行任務(wù)。

不只是人形機(jī)器人,四足機(jī)器人也可以使用此方法。騰訊 Robotics X此前發(fā)布了基于真狗的動捕思路,可以看到四足機(jī)器人明顯的運(yùn)動能力提升。

AI難堪大任?做好硬件更重要

你以為的Optimus代表了最先進(jìn)的AI,實際上的Optimus其實是真人遙控,而不是AI自驅(qū)的行為(autonomous)。

而這也不是什么秘密,現(xiàn)場的科技媒體和機(jī)器人行業(yè)從業(yè)者都認(rèn)可這一行為,也難怪投資者不感興趣。

除此以外,對比仿真、模仿等訓(xùn)練方式,VR訓(xùn)練在數(shù)據(jù)采集成本上非常高,并且不見得可以完全離開人類操作員。

因此,目前各家具身智能項目真正比拼的其實是硬件。

以此次發(fā)布的新版Optimus為例,目前特斯拉已經(jīng)做到了22個自由度,操作上可以像真人一樣彈鋼琴,這個程度目前可以說是領(lǐng)先全球絕大多數(shù)非實驗室企業(yè)。而特斯拉的目標(biāo)是將執(zhí)行器從手部完全移至前臂,最終實現(xiàn)像人類那樣的工作方式。

當(dāng)然,提高自由度的同時,研發(fā)的成本也隨之提高。

據(jù)大摩人形機(jī)器人報告對上一代Optimus 的拆解,一雙機(jī)器手接近1萬美元,整體BOM更是高達(dá)50-60k美元,距離馬斯克計劃的 1 萬美元還有很長的路,而這次的22自由度的新款機(jī)器人成本只會更高,那么所謂2-3萬美元的成本又是在畫餅?

當(dāng)然作為控制成本狂魔,馬斯克在降成本的實力有目共睹。

可以猜測一下,未來Optimus還是以硬件優(yōu)勢+人工控制為主,自主AI大概率不要指望了。

值得一提的,特斯拉的訓(xùn)練算力很大一部分都放在FSD以及自家AI公司Grok,能留給Optimus的,還剩多少呢?

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動創(chuàng)新

分享到