C114訊 10月13日消息(水易)近日,在中國移動全球合作伙伴大會算力網絡創新聯合體分論壇期間,移動云聯合中國科學院計算所、中國移動研究院等多家產業鏈核心企業,發布《云智算光互連發展報告》。
報告系統梳理了在智能算力爆發式增長背景下,光互連技術所面臨的機遇與挑戰。圍繞構建超高帶寬、超低時延、超低功耗的云智算光互連基礎設施,提出了一系列關鍵路徑與創新方案,推動算力基礎設施效能不斷提升。報告還系統介紹了移動云在智算場景下的光互連應用展望。
隨著AIGC智能化程度持續提升,大模型在參數量、模型框架上的進展都會推高計算節點之間的通信量,任何網絡延遲或帶寬瓶頸都會導致昂貴的GPU空閑等待,大幅降低整體計算效率。移動云需要在下一步智算中心的網絡通信布局上充分考慮由此帶來的通信高吞吐、低延遲、全連接需求。
智算中心的交換網絡架構在帶寬、時延及能效比等方面都遇到了提升瓶頸,這不僅影響著數據的傳輸,更會影響分布式計算的執行效率和系統可擴展性。智算中心網絡的演進正經歷著物理層基礎技術的革新。
傳統的電分組交換機的交換容量受限于SerDes速率和Crossbar芯片規模,交換容量停滯在51.2T量級,光交換技術可以通過光域信號處理突破電互連的物理極限,成為未來智算中心網絡架構演進的基石。
當前的技術路徑中,商用高速光模塊已經實現4×100G(400G)至8×200G(1.6T)的傳輸能力,單通道速率突破224Gbps。在研技術的單波400G光互連,有望提供3.2T光模塊和Pb級別的交換容量。
在Scale-Up層面,移動云計劃在1-3年的短期內,采用銅纜配合CPO光纖互連的方案:于近距離場景(≤7米),優先采用銅纜互連方案(如,AEC增強型銅纜),充分發揮低功耗、低成本及高可靠性優勢;當傳輸距離超出銅纜有效傳輸范圍(>7米),優先選擇CPO光纖互連方案,在滿足長距傳輸的同時,最大程度降低功耗與成本。
從3-5年長期來看,超節點Scale-Up網絡互連將向端到端CPO互連方式演進。為滿足不斷增長的Scale-Up網絡高帶寬需求,XPU普遍具備單位面積高密度端口,且端口速率更高。光引擎與XPU合封是極具潛力的技術方向,隨著技術突破與成本下降,端到端CPO有望成為主流技術選擇。
在產業生態建設方面,移動云將加大與相關廠商的合作投入,包括封裝廠(OSAT)封裝能力建設、基板廠商提升大尺寸基板制作工藝及能力、連接器廠商提供通用的可拆卸光纖接口方案的合作等,通過全產業鏈生態逐步建立構建端到端全光互連芯片生態。
在具體的實施層面,移動云在超節點Scale-Up網絡互連技術研發和部署方面會分場景、分階段推進:針對整機柜超節點方案,推廣正交矩陣互連方案或AEC銅纜互連方案;針對分機柜或級聯超節點方案,優先推廣一級和二級交換機之間CPO互連方案,為將來的端到端CPO化升級積累工程經驗。
隨著XPU側CPO技術成熟,逐步推進端到端CPO互連方案,即在一級交換機到二級交換機采用CPO互連的基礎之上,進一步將XPU與一級交換機之間的互連方案從銅纜互連切換為CPO互連。
在Scale-Out層面,移動云將在未來考慮在各平面使用OCS替代原有的Super Spine。OCS替代Super Spine并非單一設備升級,而是移動云算網架構從“電為主、光為輔”向“全光原生”的范式轉變,本質是通過算網底層的全光重構,破解大規模AI算力集群的帶寬瓶頸、延遲損耗與擴展桎梏,為“N+X”智算節點的彈性組網提供核心支撐。
這一升級并非簡單的硬件替換,而是覆蓋數據、控制、管理多平面的系統性算網協同革新。
隨著移動云呼和浩特、貴陽等超大規模智算中心的落地,單集群AI加速卡規模已突破2萬張,算力達6.7EFLOPS,傳統基于電交換的Super Spine在橫向擴展中逐漸暴露性能、成本、擴展性的三重矛盾。
未來大規模智算集群性能上限的突破將依靠OCS為代表的光互連模式,通過全光算網的Scale-Out能力,可支撐未來百萬卡級智算集群的落地,為通用人工智能的發展提供底層算力底座。 








































