C114訊 9月24日消息(水易)今日,2025年中國國際信息通信展覽會開幕式在北京舉辦。在主論壇上,中國工程院院士鄔賀銓發表《開發數據要素推進數實融合》的主旨演講。
他表示,當前,我們正進入智能體時代,AI將是數實融合發展新階段的最大變量,上云是支撐數實融合的關鍵,而數據作為推動數字化轉型走深走實的抓手,數據要素的發揮決定了數實融合的成效。

不過,當前數據要素市場化面臨多重挑戰。據統計,72%的企業因權屬不清而拒絕數據共享;數據資產評估誤差幅度超過±300%;跨省政務數據調用平均耗時高達17天。另外,企業數據80%還要靠自身數據,同時企業生產數據中僅2.9%被存儲,其中40%在一年內未被有效利用。
以上種種嚴重制約了數據要素的流通與價值釋放。與此同時,企業對數據要素的開發仍存在困惑和顧慮,集中體現在不會用:需要專業技術支持;不敢用:涉及用戶隱私和數據安全風險;不愿用:投入產出比不確定,回報周期長,麥肯錫預計平均超5年。
鄔賀銓表示,破解上述難題,激活數據要素價值需要在技術、制度和生態上協同,可從完善數據全生命周期開發與安全技術及服務入手。通過數字網絡基礎設施、算力基礎設施、數據流通利用基礎設施和數據安全基礎設施,完成數據預處理、數據資源調用、數據可信計算。
數據預處理是數據產業鏈的關鍵環節,包括數據生成、采集、存儲、標識、編目、索引、清洗和標注等步驟。
數據采集(生成)可通過API、爬蟲、傳感器實現,但傳感采集成本高昂,同時中文開源語料庫不足,預計高質量語料將在2026年面臨枯竭,此外原始數據的采集已跟不上AI訓練的需求。因此,用AI生成數據成為必然趨勢,但需注意反復迭代可能導致數據失真,需附加標記以示與原生數據區別,一定比例的原生數據仍是必須。采集完數據需要存儲,存儲需統一標準格式,便于結構化調用。
數據標識方面,網絡層依靠IPv6,應用層依靠OID和UUID,但行業標識標準各異,如金融SWIFT、醫療HL7,需針對性定義語義。值得一提的是,標識字段如直接使用身份證號/手機號將導致隱私泄露,需采用哈希替代或采用UUID。
數據編目與索引方面,通過目錄分類(結構化/半結構化、存儲模式、敏感程度、來源、生成方式、使用頻度、流規模、任務類型、預處理等)和索引規則,實現數據高效檢索。
數據清洗需去重、補漏、邏輯校驗,以及脫敏和匿名化,同時避免過度清洗或惡意保留錯誤數據。數據標準是為數據添加機器可讀標簽,如拉框打點,當前多依賴人力外包,需防范數據外泄和惡意代碼注入風險。
數據資源調用前首先需要對數據供給/使用者進行接入認證,不僅需要源宿IP地址認證,還要采用屬性基訪問控制等方式提升安全性。
數據調用時,企業需明確自身數據需求,如財務分析、生產監控,選擇云服務商完成數據預處理。調用第三方數據時需簽名驗證、PKI認證,可利用區塊鏈確權,通過聯邦學習實現“可用不可見”,需嚴格審核第三方服務商資質,防范配置錯誤、內部威脅等風險。
數據開發時可以利用數據集成、數據建模、工作流調度和數據治理等工具鏈提升效率,需防范憑證泄露等風險。模型與算力調用時,評估模型適用性,通過容器快速部署,根據任務類型調度算力資源。同時,需落實角色訪問控制、安全審批流程,遵守《數據安全法》和《個人信息保護法》。
數據需要可信計算,通過可信計算、隱私保護、存證和審計等技術,形成可信數據空間。這是基于共識規則,聯接多方主體,實現數據資源共享共用的一種數據流通利用基礎設施。
鄔賀銓介紹,可信數據空間不僅有安全加密計算,還提供數據源認證和接入身份認證,提供數據資源目錄,提供數據格式和協議的轉換,對敏感數據提供過濾和去標識化,提供算力調用和數據挖掘工具鏈,提供可信計算平臺和數據流通安全合規管理,支持聯邦學習與隱私計算等等,破解企業不會用、不敢用、不愿用的“三不”難題。 








































