首頁(yè)> 中國(guó)式現(xiàn)代化之路>

具身智能何時(shí)能擺脫遙控器？距“全自主”還有多遠(yuǎn)？

2025-11-19 14:24

來源：新華社

分享到：

鏈接已復(fù)制

字體：小大

觸覺融入、硬件、模型等方面的挑戰(zhàn)，制約著具身智能向通用智能演進(jìn)

文|《瞭望》新聞周刊記者王鶴龔雯

從央視春晚上宇樹機(jī)器人“扭秧歌”開始，中國(guó)具身智能正以驚人速度成長(zhǎng)，跑馬拉松、打拳擊、踢足球、跳街舞，還可以在汽車工廠“上崗”……每一個(gè)“驚人”的技能都在凸顯這個(gè)行業(yè)的發(fā)展新高度。

“這些花樣玩活的視頻放出來，把大家的胃口吊起來了，容易讓人誤判形勢(shì)，以為機(jī)器人已經(jīng)高度成熟，可以做很多高難度事情，就快上天入地、無所不能了?！币晃还I(yè)機(jī)器人企業(yè)高管感嘆，我們需要透過“表面繁榮”，看到具身智能的實(shí)際能力。

細(xì)心的人會(huì)發(fā)現(xiàn)，幾乎所有做高難度動(dòng)作的機(jī)器人身旁，都有一位人類工程師在遙操，或者機(jī)器人提前植入了程序，也就是說，這些機(jī)器人還是“提線木偶”，需要人類“把著手”做事。

具身智能何時(shí)才能擺脫遙控器，距離“全自主”還有多遠(yuǎn)？

機(jī)器人在北京國(guó)家速滑館“冰絲帶”舉行的2025世界人形機(jī)器人運(yùn)動(dòng)會(huì)開幕式上進(jìn)行100米賽跑（2025年8月14日攝）謝晗攝/本刊

大腦“進(jìn)化”

突破遙操的關(guān)鍵是要具備強(qiáng)大大腦，即機(jī)器能夠理解物理世界并與之交互，實(shí)現(xiàn)感知—決策—執(zhí)行—反饋的閉環(huán)。以自動(dòng)駕駛領(lǐng)域?yàn)槔?，VLA大模型（視覺—語言—行動(dòng)模型）、端到端強(qiáng)化學(xué)習(xí)和世界模型是三類核心技術(shù)要素，三者協(xié)同實(shí)現(xiàn)機(jī)器從感知環(huán)境到執(zhí)行動(dòng)作的自主智能。

VLA大模型融合視覺、語言和動(dòng)作三種模態(tài)，用于讓機(jī)器人理解環(huán)境、接受指令并執(zhí)行物理動(dòng)作，是具身智能基礎(chǔ)模型。今年6月銀河通用發(fā)布了面向零售場(chǎng)景的大模型GroceryVLA，實(shí)現(xiàn)機(jī)器人對(duì)復(fù)雜環(huán)境的自主決策與精準(zhǔn)執(zhí)行，例如當(dāng)人類發(fā)出“幫我拿點(diǎn)吃的”指令后，機(jī)器人無需遙操作，無事先采集場(chǎng)景數(shù)據(jù)，通過自主規(guī)劃路徑，從貨架中識(shí)別并抓取餅干飲料送達(dá)。

端到端強(qiáng)化學(xué)習(xí)是能夠直接從圖像、傳感器數(shù)據(jù)等原始輸入到動(dòng)作輸出的強(qiáng)化學(xué)習(xí)系統(tǒng)，中間不依賴路徑規(guī)劃器等模塊，是訓(xùn)練VLA大模型的關(guān)鍵方法。在2025世界人形機(jī)器人運(yùn)動(dòng)會(huì)上，清華大學(xué)教授、機(jī)器人控制實(shí)驗(yàn)室主任趙明國(guó)帶領(lǐng)的機(jī)器人足球隊(duì)“清華火神隊(duì)”贏得足球賽冠軍。比賽中機(jī)器人已實(shí)現(xiàn)無遙操，能夠走、跑、跳、翻跟頭，具備在復(fù)雜、有障礙物路面上行走所需的平衡和適應(yīng)能力。趙明國(guó)團(tuán)隊(duì)的核心突破是采用端到端強(qiáng)化學(xué)習(xí)算法，直接將機(jī)器人的視覺信號(hào)，如球的位置、隊(duì)友/對(duì)手的位置、球場(chǎng)邊界等映射到運(yùn)動(dòng)控制指令，實(shí)現(xiàn)機(jī)器人的行走方向、踢球力度、身體姿態(tài)調(diào)整。

世界大模型是模擬環(huán)境動(dòng)態(tài)的“虛擬大腦”，其核心是通過學(xué)習(xí)環(huán)境的物理規(guī)律，如物體運(yùn)動(dòng)、碰撞后果，預(yù)測(cè)未來狀態(tài)，為VLA大模型提供環(huán)境認(rèn)知支持。在攻堅(jiān)世界模型技術(shù)瓶頸方面，智元近期發(fā)布了自主研發(fā)的世界模型GE。相比傳統(tǒng)機(jī)器人的你說什么、它做什么，GE通過學(xué)習(xí)物理規(guī)律、環(huán)境動(dòng)態(tài)，在內(nèi)部預(yù)測(cè)未來狀態(tài)，模擬人類“腦內(nèi)推演”，從而讓機(jī)器人具備了主動(dòng)預(yù)判與決策的能力，像人一樣先想、再練、后做。搭載該模型的機(jī)器人已實(shí)現(xiàn)“做三明治”“倒茶”“擦桌面”等任務(wù)。GE平臺(tái)開放底層架構(gòu)，未來或成為機(jī)器人界的“安卓系統(tǒng)”。

通用智能還需突破核心挑戰(zhàn)

具身智能大腦技術(shù)不斷有突破，但要實(shí)現(xiàn)通用智能，讓機(jī)器像人一樣“理解”環(huán)境，具備舉一反三的泛化能力，受訪專家認(rèn)為目前水平差距極大?！皺C(jī)器人在某些特殊場(chǎng)景下能自主完成動(dòng)作，比如足球比賽，但到了別的場(chǎng)景就不會(huì)了?！壁w明國(guó)說。

業(yè)界專家認(rèn)為，觸覺融入、硬件、模型等方面的挑戰(zhàn)，制約著具身智能向通用智能演進(jìn)。

觸覺融入方面，機(jī)器人從“看得見”走向“摸得著、懂力度、會(huì)適應(yīng)”任重道遠(yuǎn)。VLA大模型整合了視覺、語言、動(dòng)作三種模態(tài)，如果再加上觸覺則困難重重。觸覺感知是一個(gè)多維度感知的能力，除了力度感知外，還涉及材質(zhì)感知，比如表面干性程度、溫度高低、柔性還是脆性等。

“當(dāng)視覺數(shù)據(jù)跟觸覺數(shù)據(jù)加在一起，要考慮的有效數(shù)據(jù)元素過多，模型體量增大，難度也必然提升?！彼娇萍糃EO、聯(lián)合創(chuàng)始人馬揚(yáng)舉例，他山科技正在研究機(jī)器人剝小龍蝦任務(wù)，這種看似非常簡(jiǎn)單的精細(xì)動(dòng)作，實(shí)則需要大量的訓(xùn)練和學(xué)習(xí)。“我們目前在武漢招募了十幾個(gè)人的團(tuán)隊(duì)做小龍蝦項(xiàng)目，計(jì)劃今年底完成模型訓(xùn)練，并推進(jìn)小批量試驗(yàn)?！?/p>

硬件方面，具身智能本體端部署的大模型，對(duì)算力水平要求高，專用芯片仍不夠成熟。“需要加速發(fā)展低功耗、高性能且專用于具身智能大模型的芯片；同時(shí)將大參數(shù)模型輕量化、小型化，并保證在執(zhí)行任務(wù)時(shí)性能不會(huì)大幅下降。”一位高校具身智能專家提出。

算法層面，業(yè)界仍難以訓(xùn)練出強(qiáng)泛化能力的大模型。中國(guó)信息通信研究院人工智能所安全與具身智能部副主任張蔚敏介紹，在3D場(chǎng)景中的情景問答（SQA3D）任務(wù)中，當(dāng)前最先進(jìn)的模型準(zhǔn)確率已提升至55%～60%區(qū)間，但仍遠(yuǎn)低于人類的90.06%，這表明算法成熟度不夠高。

此外，目前探討的具身智能多為單體智能，在實(shí)際應(yīng)用中，多臺(tái)機(jī)器人協(xié)同工作的群體智能，亦是行業(yè)需要攻克的課題。

不可否認(rèn)，具身智能產(chǎn)業(yè)飛速發(fā)展，泛化能力正越來越強(qiáng)大?！安糠謭?chǎng)景樂觀估計(jì)三五年就能在技術(shù)上實(shí)現(xiàn)突破?！壁w明國(guó)表示。

分級(jí)分類加快落地

加速實(shí)現(xiàn)通用智能，僅靠實(shí)驗(yàn)室環(huán)境無法模擬復(fù)雜場(chǎng)景的動(dòng)態(tài)不確定性，需要在真實(shí)落地場(chǎng)景中暴露問題并找到解決方案?！熬呱碇悄苄枰粋€(gè)標(biāo)準(zhǔn)分層，有標(biāo)準(zhǔn)就可以實(shí)現(xiàn)技術(shù)對(duì)齊，加速產(chǎn)品落地?！比疸y證券中國(guó)工業(yè)分析師王斐麗說。

目前，國(guó)內(nèi)一些行業(yè)機(jī)構(gòu)效仿智能駕駛分級(jí)標(biāo)準(zhǔn)，提出了具身智能相關(guān)分級(jí)框架，以加快技術(shù)進(jìn)步和場(chǎng)景落地。

例如，2024年10月國(guó)家地方共建人形機(jī)器人創(chuàng)新中心聯(lián)合行業(yè)內(nèi)企業(yè)和機(jī)構(gòu)，在上海發(fā)布了《人形機(jī)器人分類分級(jí)應(yīng)用指南》團(tuán)體標(biāo)準(zhǔn)和《具身智能智能化發(fā)展階段分級(jí)指南》團(tuán)體標(biāo)準(zhǔn)。

北京人形機(jī)器人創(chuàng)新中心有限公司牽頭制定的團(tuán)標(biāo)《人形機(jī)器人智能化分級(jí)》從感知、決策、執(zhí)行、協(xié)作四個(gè)維度建立了四維五級(jí)評(píng)價(jià)體系，給出了通用安全底線，明確了不同等級(jí)機(jī)器人的能力要求和適用場(chǎng)景，有助于加速推動(dòng)人形機(jī)器人在特種作業(yè)、物流搬運(yùn)、教育科研、商業(yè)服務(wù)、健康養(yǎng)老等多領(lǐng)域的應(yīng)用落地，打破技術(shù)與場(chǎng)景之間的壁壘。

受訪專家建議，參照自動(dòng)駕駛在封閉場(chǎng)景和開放場(chǎng)景中不同等級(jí)的應(yīng)用，加速人形機(jī)器人等分級(jí)應(yīng)用。工廠車間等封閉場(chǎng)景，障礙物、光線、地形等因素都比較容易預(yù)測(cè)和控制，高等級(jí)人形機(jī)器人可以在這樣的環(huán)境中更穩(wěn)定地執(zhí)行復(fù)雜任務(wù)，如進(jìn)行高精度的零件裝配、特定區(qū)域的貨物搬運(yùn)等。而開放場(chǎng)景，具有高度的不確定性，人形機(jī)器人在這些場(chǎng)景中運(yùn)行需要應(yīng)對(duì)各種突發(fā)情況，因此可以使用較低等級(jí)的人形機(jī)器人執(zhí)行一些特定任務(wù)，如引導(dǎo)服務(wù)、物品配送等，逐步積累開放場(chǎng)景運(yùn)行經(jīng)驗(yàn)。

【責(zé)任編輯：吳聞達(dá)】

狙击手终极猎杀电影未删减完整版,完美搭档未删减版在线观看完整版,久青视频,激情综合色五月丁香六月亚洲,久久伊人欧美,色玖玖综合,九九av

LANGUAGE

新聞

財(cái)經(jīng)

觀點(diǎn)

文化

國(guó)情

承建網(wǎng)站

專業(yè)平臺(tái)

外宣平臺(tái)

具身智能何時(shí)能擺脫遙控器？距“全自主”還有多遠(yuǎn)？

狙击手终极猎杀电影未删减完整版,完美搭档未删减版在线观看完整版,久青视频,激情综合色五月丁香六月亚洲,久久伊人欧美,色玖玖综合,九九av

LANGUAGE

新聞

財(cái)經(jīng)

觀點(diǎn)

文化

國(guó)情

承建網(wǎng)站

專業(yè)平臺(tái)

外宣平臺(tái)

具身智能何時(shí)能擺脫遙控器？距“全自主”還有多遠(yuǎn)？

具身智能何時(shí)能擺脫遙控器？距“全自主”還有多遠(yuǎn)？