首頁|必讀|視頻|專訪|運(yùn)營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|低空經(jīng)濟(jì)|智能汽車|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片|報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁 >> 人工智能 >> 正文

人形機(jī)器人加速“進(jìn)化”,專家:距離像人一樣思考和行動(dòng)還很遠(yuǎn)

2025年2月26日 07:11  環(huán)球時(shí)報(bào)  作 者:陳子帥

從簡單的獨(dú)立行走到精準(zhǔn)的前后空翻,從經(jīng)過反復(fù)訓(xùn)練才能抓取物品到無須訓(xùn)練就能聽從指令處理家務(wù)……人形機(jī)器人的“進(jìn)化”速度令人驚訝。最近,硅谷機(jī)器人創(chuàng)新公司Figure AI的最新大模型Helix亮相,業(yè)內(nèi)有觀點(diǎn)認(rèn)為,Helix的能力“前所未有”,讓機(jī)器人能夠像人一樣思考與行動(dòng)。Figure AI這次發(fā)布究竟有哪些重大突破?它會(huì)是現(xiàn)階段人形機(jī)器人的主流發(fā)展方向嗎?中外人形機(jī)器人具有哪些不同的發(fā)力方向?《環(huán)球時(shí)報(bào)》記者對(duì)此進(jìn)行了采訪和調(diào)查。

Figure AI公司兩個(gè)共用“大腦”的機(jī)器人配合完成一系列復(fù)雜任務(wù)

這個(gè)刷屏的美國機(jī)器人有啥絕活

在Figure AI公布的一段近3分鐘視頻里,兩臺(tái)Figure人形機(jī)器人按照工作人員的指令,配合默契地將一堆食物與雜貨放入冰箱等相應(yīng)的位置。

美國機(jī)器人網(wǎng)站The Robot Report提到,視頻中有幾個(gè)值得注意的要點(diǎn),例如兩個(gè)機(jī)器人并不進(jìn)行語言交流,但它們?cè)诨?dòng)過程中會(huì)有明顯的停頓,它們盯著對(duì)方,似乎是一種不可思議的“心靈感應(yīng)”。

按照Figure AI公司的說法,兩臺(tái)機(jī)器人共用一個(gè)大模型“大腦”,協(xié)作完成復(fù)雜任務(wù),這在行業(yè)內(nèi)是首例。此外,Helix還創(chuàng)造了其他多項(xiàng)“第一”:它是全球首個(gè)能夠?qū)φ麄(gè)人形機(jī)器人上半身進(jìn)行高頻率、連續(xù)控制的視覺-語言-動(dòng)作(VLA)模型;它僅需接收自然語言指令,就能拾取幾乎任何小型家用物品,包括數(shù)千種它從未見過的物品。這些體現(xiàn)了人形機(jī)器人的“泛化”能力。

“Helix最大的突破在于它是一個(gè)‘通用’的視覺-語言-動(dòng)作(VLA)模型。這意味著它將機(jī)器人的視覺感知、自然語言理解和動(dòng)作控制整合到了一個(gè)統(tǒng)一的框架中,這就是有點(diǎn)奔著端到端具身智能大模型方向去了。”一位人工智能專家告訴《環(huán)球時(shí)報(bào)》記者,傳統(tǒng)的機(jī)器人系統(tǒng)往往針對(duì)特定任務(wù)進(jìn)行設(shè)計(jì),需要大量的編程工作,難以適應(yīng)新的環(huán)境和任務(wù)。而Helix模型則具備更強(qiáng)的泛化能力,能夠理解自然語言指令,并處理之前從未見過的任務(wù),這大大減少了對(duì)特定任務(wù)演示或大量手動(dòng)編程的需求。

《環(huán)球時(shí)報(bào)》記者在調(diào)查和采訪中了解到,Helix模型目前還存在一些短板。首先,Helix目前主要應(yīng)用于Figure機(jī)器人的上半身控制,包括手腕、頭部、手指甚至軀干。這意味著,對(duì)于下半身的控制,比如行走、奔跑等,可能還需要進(jìn)一步研發(fā)和完善。其次,盡管Helix在數(shù)據(jù)利用效率上表現(xiàn)出色,但其訓(xùn)練所用的數(shù)據(jù)量仍然相對(duì)較少,這可能會(huì)影響它在處理更復(fù)雜、更多樣化任務(wù)時(shí)的表現(xiàn)。

代表未來發(fā)展方向嗎

值得關(guān)注的是,大模型與人形機(jī)器人的融合日益加深。Helix模型不僅讓機(jī)器人能夠“看懂”“聽懂”,更重要的是,能夠讓機(jī)器人根據(jù)所見所聞,做出相應(yīng)的行動(dòng)。這打破了以往機(jī)器人技術(shù)中感知、理解和行動(dòng)之間的壁壘,實(shí)現(xiàn)了更高層次的智能化。有專家告訴記者,Helix模型可以被視為人形機(jī)器人發(fā)展歷程中的一個(gè)重要節(jié)點(diǎn),是數(shù)字化的AI模型與物理世界的真實(shí)交互,是一種“虛實(shí)融合”。

《環(huán)球時(shí)報(bào)》記者在采訪中了解到,從Helix的架構(gòu)來看,它與最近一篇發(fā)表在2024年機(jī)器人學(xué)習(xí)大會(huì)(CoRL)上的論文“非常相似”。

“Figure AI認(rèn)可了這條路線并成功移植到實(shí)體機(jī)器人上。Helix的出現(xiàn)證明了‘具身智能’方向的迭代速度越來越快,許多最新提出的技術(shù)路線能迅速落地到真實(shí)機(jī)器人身上。不過,目前我們依然處在技術(shù)爬坡階段,量產(chǎn)仍是具身智能機(jī)器人領(lǐng)域面臨的最大挑戰(zhàn)!鄙钲谑腥斯ぶ悄芘c機(jī)器人研究院具身智能中心主任劉少山對(duì)《環(huán)球時(shí)報(bào)》記者表示。

業(yè)內(nèi)普遍認(rèn)為,“端到端”具身智能大模型是人形機(jī)器人發(fā)展的重要方向之一。即希望機(jī)器人能夠像人一樣,直接根據(jù)眼睛看到的、耳朵聽到的信息,做出相應(yīng)的反應(yīng),然后去執(zhí)行任務(wù)。

“像Helix這樣的通用型VLA(視覺-語言-動(dòng)作)模型,很可能代表了人形機(jī)器人大模型的一種主流發(fā)展方向。從目前的技術(shù)趨勢來看,人形機(jī)器人需要的大模型,不僅僅是‘大’,更重要的是‘通’(指的是模型的通用性和泛化能力)和‘精’(模型的高效性和精確性)!睂<艺f。

不過,“端到端”具身智能大模型并非是人形機(jī)器人發(fā)展的唯一目標(biāo),也不是現(xiàn)階段的全部。業(yè)界還存在另一種技術(shù)路線,即基于LLM(大語言模型)或VLM(視覺-語言模型)的分層大模型。此方案難度低一些,一般將任務(wù)分解為感知、決策、執(zhí)行等多個(gè)模塊,每個(gè)模塊可以使用不同的模型來實(shí)現(xiàn),更易于快速落地和迭代。一些行業(yè)內(nèi)的頭部企業(yè),都采用了這種方案。

劉少山表示,與聊天式大模型相比,具身智能大模型更需要的是強(qiáng)大的“學(xué)習(xí)能力”——它必須能在陌生環(huán)境中,通過與環(huán)境的交互不斷學(xué)習(xí)和進(jìn)化。當(dāng)前大模型大多是從海量數(shù)據(jù)中提取知識(shí),而具身智能則強(qiáng)調(diào)“學(xué)習(xí)如何學(xué)習(xí)”,而非簡單記憶已有的知識(shí)。只有具備這類元學(xué)習(xí)、上下文強(qiáng)化學(xué)習(xí)等理論基礎(chǔ),才能真正實(shí)現(xiàn)通用智能。雖然這類研究方向提供了思路,但還需要時(shí)間來發(fā)展和完善。

國內(nèi)外機(jī)器人各有側(cè)重

全球人形機(jī)器人的技術(shù)競賽正在升溫,新技術(shù)亮相越來越密集。近日,國產(chǎn)“天工”機(jī)器人成為全球首例可在室外連續(xù)攀爬多級(jí)階梯的人形機(jī)器人。“天工”實(shí)現(xiàn)了基于視覺的感知行走,可實(shí)現(xiàn)無磕碰、不踩棱、不踏空地跨越連續(xù)多級(jí)樓梯和35厘米大高差臺(tái)階,奔跑時(shí)速提高至12公里,并且能在雪地進(jìn)行高速奔跑。深圳一家機(jī)器人公司的產(chǎn)品則完成了全球首例人形機(jī)器人“前空翻”特技。

“與Figure的最新機(jī)器人技術(shù)相比,國內(nèi)的機(jī)器人是在不同領(lǐng)域各有側(cè)重!币晃蝗斯ぶ悄軐<腋嬖V《環(huán)球時(shí)報(bào)》記者,國內(nèi)機(jī)器人公司在運(yùn)動(dòng)控制方面取得了顯著成果,例如跳舞、空翻等。這些機(jī)器人可能在部分處理復(fù)雜任務(wù),特別是涉及與環(huán)境的深度交互、理解自然語言指令等方面,與Figure相比可能有一定差距。

何時(shí)能像人一樣思考

在Helix的加持下,人形機(jī)器人能夠直接理解自然語言、解析視覺信息,并執(zhí)行相應(yīng)動(dòng)作。有科技媒體評(píng)論稱,Helix讓機(jī)器人像人一樣思考和行動(dòng)。Figure AI首席執(zhí)行官宣稱,“Helix的思維方式類似于人類!眲⑸偕秸J(rèn)為,“目前仍處于行業(yè)的早期階段,要讓人形機(jī)器人真正具備與人類相似的思維能力,還有很長的路要走。即便最先進(jìn)的大模型,在幾乎無限算力的支持下,與人類的思維方式和水平依然存在顯著差距!

另一位專家稱,綜合國內(nèi)外多篇論文來看,目前最先進(jìn)的大模型應(yīng)該定性于“初始AGI(通用人工智能)”階段,雖然能力很強(qiáng),但仍局限于特定領(lǐng)域,比如做題目等,無法在所有通用任務(wù)中始終超越人類。要實(shí)現(xiàn)真正像人一樣思考,人形機(jī)器人需要實(shí)現(xiàn)通用人工智能(AGI)乃至超級(jí)人工智能(ASI)。這就得包括更先進(jìn)的算法、更強(qiáng)大的計(jì)算能力、更完善的感知系統(tǒng),以及對(duì)人類大腦工作機(jī)制的更深入理解。“這是一個(gè)長期、漸進(jìn)的過程,可能需要十幾年、幾十年甚至更長時(shí)間!

“大家都是在黑暗中摸索,你現(xiàn)在走的路線看似取得了一定成果,最后這個(gè)路線就一定能走得通嗎?這個(gè)問題沒有人能夠給出答案。”上述不具名專家告訴《環(huán)球時(shí)報(bào)》記者,發(fā)展未來產(chǎn)業(yè)的精神,就是在不確定性中尋找最大的確定性。階段性的成果也能夠形成較好的規(guī)模應(yīng)用,造福社會(huì),賦能產(chǎn)業(yè)!拔覀円婚_始奔著終極目標(biāo),哪怕遭遇挫折,有部分技術(shù)轉(zhuǎn)化為成果也可以,并不強(qiáng)求非得造出一個(gè)全知全能的AGI!

專家在受訪時(shí)還提到,未來人形機(jī)器人可能會(huì)出現(xiàn)新的形態(tài)。一方面,機(jī)器人不必非得是人形,“實(shí)際上人形態(tài)并不是專業(yè)場景下最好的選擇,有時(shí)候輪式甚至機(jī)械臂工作效果更好、性價(jià)比更高!绷硪环矫妫诵螜C(jī)器人可能會(huì)呈現(xiàn)虛擬形態(tài),類似更智能、更完善的數(shù)字人。“類似于電影《流浪地球2》中的MOSS系統(tǒng),也有一定的可能,但這些距離現(xiàn)實(shí)還相當(dāng)遙遠(yuǎn)!

編 輯:章芳
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
vivo胡柏山:手機(jī)行業(yè)是最典型的新質(zhì)生產(chǎn)力代表
精彩專題
低空經(jīng)濟(jì)2025:助力中國經(jīng)濟(jì)騰飛,成就高質(zhì)量發(fā)展
2024通信業(yè)年終盤點(diǎn)
2024數(shù)字科技生態(tài)大會(huì)
2024年度中國光電纜優(yōu)質(zhì)供應(yīng)商評(píng)選活動(dòng)
CCTIME推薦
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱: 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像