C114訊 10月9日消息(九九)當我們還在為大模型的文本生成能力驚嘆不已時,一場為人工智能賦予“身體”、激發(fā)其行動力的具身智能革命,已悄然而至。
9月24日,“具身智能前沿”論壇在2025年中國國際信息通信展覽會(2025PT展)期間舉辦。政產(chǎn)學研各方聚焦前沿算法、支撐平臺和落地應用,進行多層次的深入探討,分享創(chuàng)新成果,凝聚產(chǎn)業(yè)共識,同頻發(fā)力推動具身智能的高質(zhì)量發(fā)展。

技術(shù)有溫度,探索開放環(huán)境下的具身視覺導盲
聚焦前沿技術(shù)如何賦能特殊場景,中國科學院計算技術(shù)研究所研究員闞美娜帶來《開放環(huán)境下的具身視覺導盲》主題演講,讓與會人員感受到了具身智能在無障礙領(lǐng)域的溫暖力量。
闞美娜提出,開放環(huán)境下的具身視覺導盲,能夠解決盲人獨立出行難題,需將高帶寬視覺信息轉(zhuǎn)化為低帶寬聽覺/觸覺信號,涉及視覺感知、行為決策、人機交互三大技術(shù)方向。
在感知層,“多模態(tài)大語言模型在推理規(guī)劃和常見的視覺感知上已經(jīng)做得非常不錯,但是在比較穩(wěn)定的精細感知能力上遠遠不如專用小模型,因此我們提出大模型和小模型的協(xié)同方式提升大語言模型的視覺能力。”闞美娜說。
在決策層,搭建條件預測模型能夠提升行為規(guī)劃精度,在導盲測試中明顯提升行走速度、并減少提示次數(shù),大大降低交互認知的負荷。
在系統(tǒng)層,中國科學院計算技術(shù)研究所研發(fā)可穿戴導盲系統(tǒng),具體包括頭盔、背包、腰帶等。頭盔主要采集視覺信息和進行語音提示,背包里放置計算單元,腰帶用來做振動提示。這一套系統(tǒng)可以支持主動提示和被動響應,并支持用戶的問答。
當AI有了“視覺”,世界便少了黑暗,開放環(huán)境下的具身視覺導盲,是具身智能服務社會、造福人類的重要體現(xiàn)。
大小腦協(xié)同,邁向通用的具身智能
要實現(xiàn)真正的通用具身智能,“大腦”的規(guī)劃與“小腦”的控制缺一不可。論壇上,中國電信人工智能研究院主任研究員白辰甲帶來主題演講《具身大小腦協(xié)同:邁向通用的具身智能》。
現(xiàn)在大家都有一個共識,具身智能需要有大小腦。LLM、VLM、VPM作為大腦的基座,能夠為具身智能提供環(huán)境感知、任務規(guī)劃、未來推演等能力,這種通用能力負責上層大腦的基礎(chǔ);下層需要類比人的小腦,主要負責全身控制、運動規(guī)劃和行為克隆。
白辰甲指出,小腦是一個特別高頻的決策過程,需要跟機器人本體非常快速地連通,運動系統(tǒng)達到500赫茲的決策水平,只能用一些領(lǐng)域特有的小模型進行實現(xiàn)。最終如何把大小腦拼接起來,實現(xiàn)人形機器人大小腦協(xié)同是一項非常復雜的工作。
白辰甲介紹,中國電信TeleAI也在做大小腦協(xié)同方面的工作。大腦層用分割大模型+ 3D感知融合,在規(guī)劃層面提出結(jié)合大模型的通用能力以及特定任務場景的專用能力,引入少量專家數(shù)據(jù),使之在特有場景下做出場景合理的規(guī)劃。數(shù)據(jù)是具身智能等主要瓶頸,依靠真機素材成本比較高,TeleAI嘗試利用仿真數(shù)據(jù),形成人形機器人的優(yōu)質(zhì)軌跡。
小腦主要面向人形機器人的控制,窄環(huán)境行走對人形機器人來講是比較大的挑戰(zhàn)。需探索如何平衡人形機器人重心的投影和支撐平面的關(guān)系,并且訓練成一個強化學習的機制,使機器人能夠走比較窄的路線,并且在負重情況下和干擾情況下取得平衡。
百家爭鳴,但依然處于嬰兒“襁褓期”
“從2023、2024到2025年,具身智能大模型呈現(xiàn)百花齊放、百家爭鳴的態(tài)勢。具身智能產(chǎn)業(yè)和技術(shù)已經(jīng)成為國家層面科技競爭的高地,也是各個企業(yè)戰(zhàn)略布局的重點。”中國移動具身智能產(chǎn)業(yè)創(chuàng)新中心人形機器人技術(shù)負責人趙永生在《從模型到場景:具身智能商業(yè)化探索》主題演講談到:“即使如此火熱,目前具身智能依然處于‘嬰兒襁褓期’。”
趙永生指出,雖然業(yè)界發(fā)布了非常多的VLA大模型,但是語言跟隨能力、空間位置和操作對象的泛化能力依然沒有有效的解決方案。在此背景下,為什么還有如此多的高校、企業(yè)涌進這個賽道,歸根結(jié)底還是因為它的潛力和想象空間是無限的——機器人五年、十年、二十年或者更長的周期進入千家萬戶是業(yè)界的共識。
趙永生認為,機器人可能在三個領(lǐng)域成為勞動力替代:第一,對于碳基生命不適合的場景,如星際探索,高溫、高熱、高腐蝕的場所;第二,碳基生命不喜歡的場景,如工廠流水線;第三,隨著社會發(fā)展、技術(shù)變革不再必要的勞動場景,例如洗衣、拖地、洗碗等。
目前整個電信行業(yè)所做的工作是對國內(nèi)10億、全球數(shù)十億的自然人的運營,解決他們網(wǎng)絡(luò)通信的一系列訴求。未來,整個電信行業(yè)的命題就會變成如何運營好機器人。馬斯克有一個結(jié)論,未來社會里機器人和人的比例將會達到1:1或者2:1,如何做好運營,是大家現(xiàn)在開始就做好準備的課題。
趙永生介紹,中國移動今年2月份成立具身智能產(chǎn)業(yè)中心,目標是成為全球最大的機器人運營商。具身智能的商業(yè)化落地高度依賴上下游產(chǎn)業(yè)鏈的協(xié)同,中國移動更聚焦于模型能力、共性平臺能力的搭建,希望與產(chǎn)業(yè)鏈共筑模式、共創(chuàng)價值、共建生態(tài),打造技術(shù)、市場、生產(chǎn)和商業(yè)化的閉環(huán)。
端云協(xié)同,賦能具身智能體驗躍遷
華為無線網(wǎng)絡(luò)產(chǎn)品線5G-A領(lǐng)域總裁方坤鵬帶來主題演講《無線網(wǎng)絡(luò)筑基,具身體驗躍遷》,他強調(diào),無線網(wǎng)絡(luò)是具身智能體驗躍遷的關(guān)鍵,華為不造機器人,而是通過“端云協(xié)同”架構(gòu)賦能機器人發(fā)展。
2025年8月,全球首屆人形機器人運動會在北京的順利舉辦極具象征意義——如同1896年人類運動會標志“身體覺醒”,機器人運動會標志著具身智能進入發(fā)展新階段。
但未知與挑戰(zhàn)同樣明顯:運動會中多數(shù)機器人需人工遙控參賽,暴露出“大模型價值未充分賦能機器人本體”的核心問題。“當前智能仍處于‘初覺醒’階段,如何將算法、模型、數(shù)據(jù)的進展真正落地到機器人上,是產(chǎn)業(yè)突破的關(guān)鍵。”方坤鵬說。
方坤鵬介紹,用端云協(xié)同的架構(gòu)賦能具身產(chǎn)業(yè)發(fā)展具有三個優(yōu)勢:一是本體上加載的算力有限,云端算力可以更好地支撐大模型;二是機器人搭載算力卡會造成20%~30%的能耗,云端算力功耗更低,續(xù)航更長;三是云端算力協(xié)同,單體成本必然會下降,終端用戶易能接受。
演講最后,方坤鵬提出行業(yè)協(xié)作倡議:當前通信行業(yè)組織如GTI、GSMA已聯(lián)合產(chǎn)業(yè)伙伴成立了Mobile AI社區(qū)和項目,今年華為參與蘇州、上海等多地機器人測試場的研究,并聯(lián)合研究院推進AI業(yè)務體驗標準建設(shè)。未來需基于國標、行標組織,進一步研究明確通信標準,適配具身智能發(fā)展需求。
盡管當前具身智能仍處于“嬰兒襁褓期”,面臨著大模型落地、成本控制、標準統(tǒng)一等諸多挑戰(zhàn),但政產(chǎn)學研的同頻共振,已為其鋪就了從實驗室到千行百業(yè)的大道。
咨詢機構(gòu)預測,2030年具身智能體規(guī)模將達5000多萬臺,產(chǎn)值超2000億元。從為視障人士驅(qū)散黑暗的導盲系統(tǒng),到邁向通用智能的“大小腦”協(xié)同,再到無線網(wǎng)絡(luò)與端云架構(gòu)的技術(shù)賦能,具身智能正以“技術(shù)+人文”的雙重姿態(tài),在產(chǎn)業(yè)浪潮中加速生長。 








































