C114訊9月26日消息(水易)近日,以“做實萬兆多維能力,加速5G-A商業成功”為主題的第二屆5G-A萬兆網論壇在北京召開,旨在促進5G-A多維網絡能力及用戶多維體驗全面提升,推動5G-A產業商用發展進程。
北京大學博雅特聘教授、國家杰青程翔發表題為《機器聯覺:AI原生的通信與多模態感知智能融合》的主旨演講,系統介紹了北京大學泛在連接與網聯智能實驗室(PCNI)對于機器聯覺的研究和實踐,支撐通信網絡和AI的雙向奔赴與深度融合。

人類聯覺啟發下的“機器聯覺”
6G將在5G原有三大場景基礎上擴展深化,實現通信、感知、計算、AI等能力的深度融合,支撐具身智能場景(如無人駕駛、人形機器人、低空經濟)。程翔表示,不管哪一種智能體,都會配備大量通信和感知設備,在網聯場景下存在豐富的通信和多模態感知信息。
不過,當前通信和多模感知互相獨立、各自為政,通信作為管道無法獲知傳輸的信息,感知只為智能體對環境的理解和認知服務,不會輔助通信網絡。因此,需要將兩者進行緊耦合的設計,實現多模態信息智能融合和互惠互利,進一步達到AI for Comm和Comm For AI。
不過,多模態感知信息和通信信道信息在數據表現形式上、采集頻段上、面向應用上均有顯著差異,提升了通信和多模態感知融合難度,需要探索新理論與新方法實現通信與多模態感知的智能融合。
受人類聯覺(Synesthesia of Human)的啟發,團隊創新性提出“機器聯覺” (Synesthesia of Machines, SoM)概念和架構。
程翔介紹了什么是人類聯覺,比如睜著眼睛品嘗美食,視覺對味覺有增強作用,再比如冷色系、暖色系是視覺喚醒觸覺。也就是說,如果負責傳遞一種感官信號的神經元被激活,它們可能會觸發負責傳遞另一種感官信號的神經元的自發交叉激活,腦神經網絡發揮重要作用。
通過類比,攝像頭、激光雷達、射頻雷達、通信設備等是機器的感官系統,通過AI人工神經網絡實現與人類聯覺同樣的作用。程翔表示,總結來說,機器聯覺是面向任務的AI原生通信與多模態感知智能融合。
基座模型賦能機器聯覺系統設計
對于機器聯覺的系統設計,程翔介紹,現有AI賦能的機器聯覺系統設計以任務專用模型/AI小模型為主,面臨著大規模高質量數據集稀缺、建模能力不足、數據泛化性受限和任務通用性缺乏等問題。
近年來,基座模型的興起推動了深度學習范式的變革,通過在海量數據上進行大規模自監督預訓練,基座模型可以在多種下游任務中展現出卓越的推理能力和泛化能力。目前基座模型在自然語言處理等領域取得一系列成果,但其在機器聯覺相關領域的應用仍有疑問。
為此,團隊系統調研并首次提出基座模型賦能機器聯覺的兩種新范式。范式一:基于預訓練LLM(通用基座模型),通過微調等方式,利用LLM的通用知識賦能機器聯覺任務;范式二:基于無線基座模型(專用基座模型)在海量通信與多模態感知混合數據集上進行大規模預訓練,完成后可少樣本甚至零樣本應用于多種機器聯覺任務和系統配置,實現推理和泛化能力的飛躍。
程翔表示,范式一是站在巨人肩上,主要解決如何打破“領域鴻溝”問題,實現通用知識從自然語言域到無線通信域的高效遷移。
其優勢在于,具備強大的語義理解以及語言數據生成能力,助力高質量語言類機器聯覺數據集構建;依托上下文學習機制,展現出出色的少樣本建模能力,降低模型對大量標簽數據的依賴;借助語義通用知識,通過跨域特征適配,能夠快速適應多變的無線通信場景;同樣得益于語義通用知識,展現出高效的多任務學習能力,可靈活適配多種下游任務。
范式二是從無到有,從0到1構建專用無線基座模型,核心挑戰是如何設計通信特征嵌入的專用基座模型網絡架構與預訓練方案。
優勢在于,具備強大的跨模態數據生成能力,有效助力高質量多模態混合通感數據集構建;遵循尺度定律,大規模無線基座模型涌現出強大物理層建模能力,有效處理高難度機器聯覺任務;挖掘異構數據分布下的無線通用表征,在新系統配置和新場景展現強大的少樣本和零樣本性能;具備強大的無線任務一模多用能力,同時掌握多種機器聯覺任務,降低所需模型數量。
機器聯覺的核心研究內容
對于機器聯覺的研究內容,程翔表示,數據是基礎,在多模態數據稀缺的背景下,團隊歷經兩年時間,搭建首個時空一致的多模態通感仿真數據生成和采集平臺,并構建了多樣場景、多種場景條件、數據類型豐富的數據集,目前數據集已開源。
在此基礎上進行通信與多模態感知聯覺機理(映射關系)挖掘與建模,團隊首次將大語言模型應用于多模態通感聯覺機理挖掘與建模,同時提出了首個面向多模態通感映射聯覺挖掘與建模的無線信道基座模型。
基于所構建的混合多模態通感數據集和所建立的映射機理,團隊在機器聯覺輔助增強的高效通信傳輸方案設計方面,引入多模態感知,實現物理空間與無線射頻空間的可解釋性智能融合,將多模態感知轉化為導頻等效替代,賦能通信傳輸全流程多任務。同時,首次將大語言模型應用于非語言形式的物理層任務,提出了首個基于預訓練大語言模型的信道預測方案(LLM4CP)。進一步地,構建了首個面向信道預測的無線基座模型(WiFo),首次實現一個模型同時處理異構的信道預測任務和數據。
基于聯覺特征高效傳輸的協同感知方案設計方面,面向協同感知任務,深度耦合受限通信(低帶寬、強干擾、信道衰落)下物理層傳輸,實現通感融合的聯覺特征協同感知,并進一步基于基座模型實現模態與任務泛化,賦能高效魯棒的網聯具身智能。
支撐機器聯覺的通感存算一體化彈性網絡研究方面,設計支撐通用復雜任務的網絡異構資源彈性分配、資源規劃方案,保證端到端時延約束,實現網絡吞吐量最優,利用最小網絡開銷支撐復雜任務。利用人工神經網絡提取網絡拓撲、資源及任務需求表征,構建基座模型支撐多任務、多目標、可泛化的網絡資源管理與優化。
值得一提的是,團隊搭建了機器聯覺軟硬件平臺,包括通信與多模態感知數據時空同步采集平臺、映射機理挖掘平臺、虛實結合數據生成泛化平臺,實現快速真實通信與多模態感知數據同步采集,支撐機器聯覺研究;基礎模型賦能多模態感知增強的高帶寬、低時延通信網絡優化;機器聯覺特征高效編碼傳輸賦能的協同感知。團隊搭建了首個無線基座模型賦能的無線傳輸系統硬件Demo,驗證了無線基座模型在實際系統中優越的零樣本信道預測和估計性能,在保障傳輸性能的同時大幅降低導頻開銷。此外,通過量化等技術加速模型推理,驗證了其在端側設備上實時部署的可行性。
據程翔介紹,目前機器聯覺方案已經在自動駕駛乘用車、無人物流車、智能網聯車路協同等室外場景,以及在物流/服務機器人教學、倉儲/車間機器人應用等場景進行了實踐驗證,成效顯著。









































