12月13日,在“2026中國信通院深度觀察報告會”上,中國信息通信研究院云計算與大數據研究所所長何寶宏就面向AI的數據發展分享了自身思考和見解。

數據的規模、質量決定大模型的上限
談及在AI大模型發展中,數據扮演的角色,何寶宏分別從AI和數據的發展兩個角度進行了解答。他表示,早期的人工智能是基于規則,和數據關系不大;而這一波以大模型為代表的人工智能,數據扮演著非常核心的角色。
從數據的角度來看,大數據上一波的核心驅動主要是推薦算法,典型的應用包括一些用戶畫像,風險控制、市場獲客等;而這一波數據的熱潮主要是以人工智能驅動,可以說數據在這一波人工智能大模型的發展中,起著非常核心的作用。“數據的規模、數據的質量決定著大模型的上限,所以能看到數據是重中之重。”
人工智能發展對數據提出新的需求和挑戰
2025年以來,人工智能的發展呈現出一些新特征,對數據也提出了一些新需求。比如語言大模型,它的邊際效應遞減已經非常明顯,所以語言大模型要進一步提高它的能力,就需要更高質量的數據。另外一方面,除了語言大模型,越來越多的關注點開始轉向了多模態,無論是對語言大模型的持續優化,還是對多模態模型等數據都提出了一些新的需求、新的挑戰。
何寶宏指出,為了進一步提高語言大模型的能力,就需要發展更高質量、覆蓋范圍更廣的數據。為了提升語言大模型推理能力,圍繞推理甚至應用如Agent等,需要結合場景和應用等一些私域的、行業的、專有的數據。對于多模態大模型的發展來說,就不能僅僅只有文字類,還需要音頻、視頻等,這些數據如何對齊,在數據發展中也提出新的需求和挑戰。
數據技術正以體系化的方式發生巨大變革
在何寶宏看來,為應對這些新需求、新挑戰,數據技術正以體系化的方式發生巨大變革。
具體來看,一方面,現有數據體系需面向人工智能進行定制化轉型與適配。以數據治理為例,以往通用的治理模式,如今需結合人工智能的專用場景進行調整優化;即便是已有的DataOps體系,也需要衍生出面向AI的專屬分支(DataOps For AI),重點推進數據安全治理等相關工作,本質上是現有數據領域工作向AI適配的轉型。
另一方面,人工智能的發展也催生了數據領域的新情況、新問題,這是以往未曾出現的。當前這一波人工智能以生成式AI為核心,其生成的結果本身也屬于數據范疇。隨著近年來生成式AI的快速迭代,如今的數據格局已發生改變——人類產生的數據、傳統互聯網數據與AI合成/生成的數據日益交融,難以精準區分。后續,如何應對AI合成數據帶來的挑戰,尤其是如何規范AI合成數據在模型訓練與迭代中的應用,已成為數據領域亟待解決的新課題。
何寶宏進一步講到:“除了數據資源層面的變化,數據技術層面也需同步迭代升級。”受上述數據資源體系變革的驅動,數據技術正迎來一系列新調整:在數據存算領域,宏觀層面上存算架構逐步向分布式、存算分離的方向發展,而面向本地或就近數據處理的需求,近存計算模式也愈發重要;同時,由于數據體量激增,需根據數據“溫度”(熱數據、溫數據、冷數據)進行分級存儲,對應的存儲介質也需隨之優化。在數據庫技術領域,人工智能的發展同樣提出了新要求——隨著AI向多模態方向演進,傳統單模態數據庫已顯現出效率偏低、成本偏高的問題,因此向量數據庫、多模態數據庫成為技術升級的重要方向。
最后,何寶宏強調,受人工智能技術發展的驅動,當前數據技術正經歷全方位的巨大變革,其核心目標是實現數智深度融合。 








































