C114訊 9月18日專稿(蔣均牧)生成式AI蓬勃發展,大模型訓練對算力的需求呈指數級增長,超萬卡智算集群已成為支撐大模型訓練與推理的核心基礎設施。在這一背景下,高效互聯成為制約智算集群性能的關鍵瓶頸,傳統網絡技術難以滿足高帶寬、低時延、高可靠性的傳輸需求,新型光技術的創新與應用迫在眉睫。
就在第26屆中國國際光電博覽會期間召開的“超萬卡智算集群新型光技術發展論壇”上,華為Fellow & 光傳送首席架構師羅軍以 “光技術在智算中心新場景的挑戰和機會”為題,對此展開了探討——他不僅剖析了智算中心的業務趨勢,還提出了集群光互聯的針對性解決方案,更展望了未來技術演進方向,為光產業在智算領域的發展提供了清晰的指引。

大模型迭代倒逼算力升級,網絡成關鍵
當前,大模型技術正處于快速迭代演進階段,主流模型參數規模從千億向萬億跨越,且多模態發展趨勢明顯,大規模算力供給、尤其是智算算力的供給成為行業最迫切需求。國家數據局統計,截至2025年6月,我國日均Token消耗量已突破30萬億,一年半間激增300倍;綜合第三方預測,到2030年,全球通用算力將增長十倍,智算算力將增長千倍。
羅軍指出,集群是解決大規模算力需求的重要方案,但無論是參數面Scale Out還是超節點Scale Up,都需依托網絡實現從單卡到多卡、框內到框間、單Pod到多Pod的連接,進而完成規模突破。在這一過程中,光技術的三大核心要素——光模塊、光傳輸介質、光交換,將成為支撐大規模集群的關鍵力量。
他以光交換為例指出,谷歌從V4到V7三代產品中,始終保持3D Torus架構,且相關產品發貨量可觀;英偉達面向超萬卡集群,也明確提出光交叉、光模塊和光纖三要素的重要性。這些行業動態充分表明,光技術在智算集群中的應用已從概念走向實踐,成為解決算力互聯瓶頸的重要方向。
從超節點與參數面,看新技術、新方案優勢
面對智算集群的復雜需求,新型光技術究竟有何優勢,又如何與場景融合以形成針對性的解決方案?羅軍在分享中,圍繞超節點和參數面兩大場景作出深入分析。
超節點作為智算集群的重要組成部分,其連接正從直連拓撲向Switch拓撲演進,從框內互聯向框間互聯拓展。這一演進過程中,規模擴展、低時延、性能匹配不同模型需求成為三大核心訴求。從規模來看,超節點規模已從128卡向512卡持續演進,這就要求光交叉端口數量隨之從百卡級向千卡級提升。而光技術天然具備的透明性,使其能夠兼容不同協議,為規模擴展提供了靈活支撐。
時延方面,超節點對時延的要求極為苛刻,端到端時延的降低成為提升集群性能的關鍵。羅軍介紹,端到端時延由交換時延、傳輸介質時延和光模塊時延三部分構成。引入光交叉后,相比電交叉,不僅能將跳數從6跳減少到4跳,時延還能降低30%,接近零時延;若進一步引入空芯光纖,時延可再降30%;而光模塊從DPO到xPO的演進,省去DSP后,時延更是能實現10倍下降。這一系列技術組合,為超節點打造了極致的低時延網絡環境。
在性能匹配上,光交叉可根據不同模型需求,通過算法與模型的聯動,實現 RING、FullMech、M2N 等拓撲的完美匹配,確保網絡性能能夠充分適配各類大模型的運算需求。
參數面場景下,隨著集群從千卡向超萬卡乃至十萬卡規模發展,大規模擴展、高可用性、高效率轉發成為核心需求。羅軍就超萬卡集群介紹了兩大解決方案:其一是在數據中心內部,依托OCS構建光底座,滿足不同Pod的靈活擴展需求。OCS天然對速率不敏感,不同Pod可運行不同速率;同時,省去光模塊不僅降低了成本,還大幅提升了可靠性,減少轉發層也有效提升了參數面性能。
其二是跨數據中心場景,受功耗、能源供應、散熱等因素限制,單數據中心規模擴展面臨瓶頸,通過OTN超寬無損網絡可將多個數據中心連接起來,實現跨數據中心集群訓練。當前400G場景下,OTN單波帶寬已達1.2T~1.6T,800G場景下帶寬還將進一步提升,且能實現百公里甚至千公里無損傳輸,保障參數面穩定運行。
展望未來,三大核心領域技術演進方向
在明確解決方案的基礎上,羅軍展望了智算集群光互聯領域的技術演進方向,為光產業未來發展提供了戰略參考。
OCS光交叉技術方面,目前基于MEMS微鏡、LC液晶、硅光的三條技術路線各有特點。MEMS微鏡技術可實現上千個端口,且插損無明顯劣化;LC液晶技術端口規模居中,適合100個端口以內場景;硅光技術切換速度快,但插損較大。未來OCS將沿著“百端口-千端口-更高性能”的路線演進,不僅端口規模持續擴大,切換速度也將從百毫秒級向十毫秒級、納秒級跨越,同時通過外部OA等技術降低插損,進一步提升性能。
光模塊領域呈現分場景演進態勢。超節點短距離光模塊從DPO到LPO,時延從100納秒降至10納秒,功耗大幅下降;從LPO到xPO,通過“光多跑、電少跑”的方式,解決電傳輸性能問題,同時大幅提升密度;未來OIO技術將進一步提升密度,滿足超節點多方向、高密出口需求。參數面FR 2公里模塊從112G向224G、400G、448G演進,400G場景下直調直檢與相干技術將共存,448G場景下直調直檢技術持續突破,相干技術下沉,以滿足不同傳輸距離需求。
空芯光纖作為一種優勢顯著的光傳輸介質,在時延降低方面效果突出,但目前面臨成本、性能與兼容性三大挑戰。今年國內運營商、OTT的采購中,空芯光纖價格昂貴,而降低成本需提升拉絲長度;性能上,空芯與空芯光纖的高性能耦合、抗彎設計等問題尚待解決;兼容性方面也需進一步優化。羅軍認為,一旦這些問題得到解決,空芯光纖將在數據中心內乃至數據中心間實現大規模應用,為光傳輸介質升級提供新的可能。
寫在最后
從行業發展規律來看,任何一項新技術從實驗室走向大規模商用,都需經歷技術完善、成本下降、生態適配的過程。光技術在智算集群領域的應用也不例外,隨著OCS、光模塊、空芯光纖等技術的持續突破,以及成本與兼容性問題的逐步解決,光產業有望在智算領域迎來更大的發展空間。對廣大行業內廠商而言,亦需緊跟智算中心業務需求,加快技術創新與產品迭代,如此方能在這場算力革命中搶占先機,為我國智算產業的高質量發展夯實光互聯基礎。









































