中國電信研究院依托中國電信云網融合大科創裝置智算資源,聯合北京大學在大模型分布式推理優化領域實現了重大技術突破,攻克大模型推理效率與硬件成本的核心矛盾,成功打造出一套高效率、低成本的企業級LLM推理優化方案,覆蓋了大模型推理的主要應用場景。
在集群場景的優化上,為解決多任務混合場景中短請求受長請求干擾導致時延顯著增長的問題,電信研究院聯合北京大學研發面向多任務場景的編排調度算法,并將其與云原生推理集群架構整合,實現在1k-32k多長度請求混合的典型應用場景中,所有請求的平均端到端時延降低40%,短請求首token時延和解碼時延下降75%。在邊緣一體機場景的優化上,針對大語言模型在邊緣場景部署時資源受限問題,電信研究院改進了現有的低比特量化算法,篩選了一部分重要權重作為保留,極大限度壓縮模型權重的同時保證了模型精度。該算法應用于 DeepSeek V3/R1,將最小部署單元從 6 臺 A800 縮減至單臺,硬件成本節約超 80%,推理效率提升 50%,助力存量A卡高效利用。在問答場景,該方案將投機采樣與算子融合相結合,實現了DeepSeek R1 671B全量版2.8倍推理吞吐效率提升,同時在多輪對話、智能體+RAG的長文本場景中應用KV Cache多級緩存,通過區分冷熱數據進一步提升推理效率。
該試驗成果自年初在中國電信云網融合大科創裝置上線以來,為中國電信集團公司、研究院、省專公司等30余個科研項目提供API服務,累計處理Token超260億個,同時在集團、省公司等多個項目試點落地,充分證明了技術方案的可行性以及其在推理效率、吞吐量等方面的性能增益,為大規模部署提供了解決方案支持及驗證數據參考。未來,電信研究院將繼續深耕大模型分布式推理優化技術,攜手業界伙伴,共同推動推理優化關鍵技術創新、標準制定和產業發展。









































