中國信通院許志遠(yuǎn):人工智能為通用機(jī)器人打開大門
“以大模型為代表的人工智能技術(shù)突破性發(fā)展,為通用機(jī)器人打開了大門。目前硬件解決方案基本收斂,但軟件算法仍在快速迭代創(chuàng)新,數(shù)據(jù)稀缺性是機(jī)器人能力泛化的關(guān)鍵制約。”在12月23日舉辦的“2025中國信通院深度觀察報(bào)告會(huì)”上,中國信息通信研究院副總工程師許志遠(yuǎn)拋出了這一觀點(diǎn)。
在許志遠(yuǎn)看來,人工智能技術(shù)突破性發(fā)展,其核心是增強(qiáng)機(jī)器人的認(rèn)知與交互能力,并賦予機(jī)器人在物理世界中執(zhí)行任務(wù)的強(qiáng)大泛化能力?!澳芰Ψ夯梢岳斫鉃橐环N遷移學(xué)習(xí),即把從過去的經(jīng)驗(yàn)中學(xué)習(xí)到的知識(shí)、策略和行為應(yīng)用到新領(lǐng)域,這使機(jī)器人能在動(dòng)態(tài)和復(fù)雜環(huán)境中自主進(jìn)行任務(wù)理解,并通過感知、決策規(guī)劃和運(yùn)動(dòng)控制實(shí)現(xiàn)任務(wù)閉環(huán),機(jī)器人真正成為一個(gè)能與世界交互、存在自主智能的個(gè)體?!痹S志遠(yuǎn)進(jìn)一步解釋道。
近兩年,投資市場和產(chǎn)業(yè)界對(duì)機(jī)器人的關(guān)注熱度高漲,“具身智能”和“人形機(jī)器人”這兩個(gè)詞高頻出現(xiàn)。其中,中國和美國是最活躍的兩個(gè)國家,谷歌、特斯拉、OpenAI等國外頭部科技企業(yè)紛紛加碼對(duì)機(jī)器人領(lǐng)域的投入,國內(nèi)也涌現(xiàn)出銀河通用、智元等優(yōu)秀的機(jī)器人企業(yè),同時(shí)小米、小鵬等知名企業(yè)也在造人形機(jī)器人。
許志遠(yuǎn)介紹,機(jī)器人的概念最早起源于上世紀(jì)20年代,經(jīng)過多年發(fā)展,相關(guān)硬件技術(shù)趨于成熟,模塊化、高度集成等成為重要特點(diǎn),移動(dòng)機(jī)器人形態(tài)基本收斂至人形、四足、輪式等。
硬件創(chuàng)新方面,機(jī)器人主要涉及執(zhí)行機(jī)構(gòu)、傳感器、芯片、電池和新材料等技術(shù)。執(zhí)行機(jī)構(gòu)作為機(jī)器人本體的核心,近兩年已從液壓驅(qū)動(dòng)轉(zhuǎn)向電驅(qū)動(dòng),相關(guān)旋轉(zhuǎn)和線性運(yùn)動(dòng)方案也基本清晰。“未來,隨著技術(shù)進(jìn)步和需求聚焦,機(jī)器人將進(jìn)一步與前沿仿生、類腦等技術(shù)結(jié)合,并融合新材料、電子皮膚、仿生設(shè)計(jì)等技術(shù),實(shí)現(xiàn)類人級(jí)感知與精巧操作?!?/span>
軟件算法方面,目前業(yè)界主流的智能機(jī)器人解決方案是將大腦和小腦分層。大腦負(fù)責(zé)交互、感知、決策,基于現(xiàn)有大語言模型(LLM)或視覺語言模型(VLM);小腦負(fù)責(zé)具體的運(yùn)動(dòng)控制,有的基于傳統(tǒng)動(dòng)力學(xué)建模,還有的基于模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等技術(shù)?!拔磥砜?,隨著邊緣計(jì)算增強(qiáng)、交互數(shù)據(jù)豐富,軟件技術(shù)可能逐步向端到端大模型驅(qū)動(dòng)的一體化架構(gòu)演進(jìn),以全面實(shí)現(xiàn)自學(xué)習(xí)、自適應(yīng)和自演化能力,即只需要一個(gè)模型便可以驅(qū)動(dòng)多個(gè)不同的異構(gòu)機(jī)器人?!痹S志遠(yuǎn)說。
人形機(jī)器人距離走入日常生活還有多遠(yuǎn)?談及這一話題,許志遠(yuǎn)坦言,工業(yè)制造、商業(yè)服務(wù)、家庭服務(wù)將是人形機(jī)器人落地的3個(gè)主要場景,并且呈依次漸進(jìn)落地的關(guān)系。未來1至3年內(nèi),用于汽車制造、商超補(bǔ)貨等封閉/半封閉場景的人形機(jī)器人將出現(xiàn),與人共處同一場景;助老、做家務(wù)等人形機(jī)器人應(yīng)用落地可能還需要5年甚至10年以上。
究其原因,許志遠(yuǎn)表示,人形機(jī)器人在環(huán)境適應(yīng)性、人機(jī)交互的自然性和接受度等方面更具優(yōu)勢,是通用機(jī)器人追求的終極形態(tài)。但是,現(xiàn)階段“人形”并不一定是商業(yè)化落地的最優(yōu)解,因此,人形機(jī)器人不一定完全仿照人來設(shè)計(jì)。短期內(nèi),市場上還會(huì)存在“主體人形”搭配“定制化組件”的機(jī)器人產(chǎn)品,例如,腿部采用輪式底盤或輪腿組合,上肢采用機(jī)械臂,手部為三指靈巧手或夾爪、吸盤等。
總體來看,目前人形機(jī)器人仍然不夠成熟。硬件方面,頭部公司的人形機(jī)器人產(chǎn)品除手部以外,全身有50多個(gè)自由度,如果在復(fù)雜環(huán)境中行走,需要更強(qiáng)大的運(yùn)動(dòng)控制能力。例如,機(jī)器人上肢想實(shí)現(xiàn)精細(xì)化操作,需依賴高自由度的靈巧手,但目前手部觸覺傳感器、執(zhí)行機(jī)構(gòu)等關(guān)鍵部分仍不完善。此外,電池續(xù)航、成本、端側(cè)算力等也是機(jī)器人規(guī)?;瘧?yīng)用的重要難題。
除硬件以外,軟件是機(jī)器人落地的更大挑戰(zhàn)。大模型的本質(zhì)是數(shù)據(jù)驅(qū)動(dòng),只有基于龐大的數(shù)據(jù)量進(jìn)行訓(xùn)練,才能實(shí)現(xiàn)智能。而機(jī)器人大模型與近年來成熟的大語言模型不同,語言模型所需的數(shù)據(jù)可以來自龐大的互聯(lián)網(wǎng),而機(jī)器人需要物理世界中的高精度操作數(shù)據(jù),這些數(shù)據(jù)是互聯(lián)網(wǎng)不具備的。只有攻克這一難題,機(jī)器人才可能大規(guī)模走入日常生活。