C114訊 9月12日消息(九九)在昨日上午舉行的“2025中國國際光電高峰論壇—超萬卡智算集群新型光技術發展論壇”上,阿里云計算有限公司光網絡架構師王鵬發表題為《超大規模智算集群光互聯演進技術及思考》的主旨演講。

隨著大模型崛起,算力狂飆,超大規模集群涌現。王鵬指出,超大規模智算集群特征是算力密度極高、通信密集型負載、訓練任務周期長、系統復雜度爆表、能耗與成本敏感、高帶寬與低延遲互聯。
超大智算集群的光互聯需要在帶寬密度、能效、時延、成本以及可靠性之間尋找平衡,“可插拔光模塊是短期最優解,中長期NPO/CPO會成為部署關鍵,終極方案可能是光電芯片融合。”王鵬說。
王鵬認為,CPO相比可插拔光模塊會帶來產業鏈的關鍵環節轉移,傳統光模塊制造商需要在CPO產業鏈中找到新的定位。系統組裝/生產廠商需要承擔更多CPO散熱、光學耦合以及性能和可靠性測試等工作,此外,封裝工藝復雜性、互操作生態、系統可靠性、可量產程度、現場維護性等均需要更多時間解決。
王鵬介紹,阿里云基于400G以太網的智算集群2023年開始規模上線,支持千卡~十萬卡GPU靈活部署;基于800G以太網的智算集群將于2026年開始規模上線,支持千卡~十萬卡GPU靈活部署。
在演講中,王鵬還介紹了阿里云的光模塊演進路徑。從2014年設計40G光模塊,到2017年批量交付100G光模塊,2021年和2022年,阿里云實現傳統數據中心和智算中心的200G光模塊批量交付。2023年,400G光模塊批量交付。預計2025年在智算中心導入800G光模塊,2026年開始導入1.6T光模塊。
在光模塊技術方案上,Q112 400G及以下速率,采用單多模混布策略,VCSEL/SiPh/EML為主,LPO小批量部署;OSFP 800G (單波100G),采用單多模混布策略,VCSEL/SiPh/EML為主,LPO/LRO技術儲備;OSFP 1.6T(單波200G),預計單模技術為主流應用,SiPh和EML方案為主,LPO/LRO技術儲備;3.2T光模塊暫未啟動預研,預計單模技術為主流應用,SiPh和EML方案為主,LPO/LRO/NPO/CPO技術儲備。
王鵬最后總結說,近3年內,阿里云智算架構主要聚焦400G、800G、1.6T光模塊的批量部署應用。可插拔光模塊仍是短中期主力方案,NPO相比CPO可能落地更快,技術演進需循序漸進,避免“為了CPO而CPO”,在帶寬、功耗、成本、可靠性之間找到最優解,才是業務發展的主流選擇。只有產業協同,才能讓光互聯真正從“連接”走向“賦能”,支撐AI時代的算力革命。









































