C114訊 9月11日消息(水易)當前,人工智能與實體經(jīng)濟深度融合的特征更加明顯,開始賦能千行百業(yè)、走進千家萬戶,成為經(jīng)濟增長的新引擎。與此同時,人工智能應(yīng)用百花齊放,算力需求呈指數(shù)級增長,引發(fā)“算力焦慮”,催生智算中心建設(shè)熱潮。
“智能算力建設(shè)供給與算力需求存在矛盾,小而散、異構(gòu)化、碎片化問題突出。”2025年中國光博會(CIOE)期間,中國電信研究院副院長李俊杰介紹,目前智算中心呈現(xiàn)“東部為主、向中西部擴展”的分散特征;分批次建設(shè)導致標準不一、規(guī)模各異、算力性能參差;且單智算中心往往存在資源利用率不足,傳統(tǒng)GPU利用方式難以提升資源利用率。

面對這一局面,亟需通過“以網(wǎng)強算”,打造覆蓋全國的一體化智算基礎(chǔ)設(shè)施。與此同時,大模型訓練和推理等工作需要在大量的計算單位中傳遞海量數(shù)據(jù),需要作為承載底座的光網(wǎng)絡(luò)具備超大規(guī)模、超大帶寬、超高可靠、超低時延的關(guān)鍵特征。
智算時代光通信新技術(shù)探索
在應(yīng)對超大規(guī)模智算需求,李俊杰介紹,應(yīng)當探索通過光網(wǎng)絡(luò)實現(xiàn)跨集群、跨區(qū)域的多數(shù)據(jù)中心協(xié)同,采用多智算節(jié)點下的超大規(guī)模分布式訓練方式,解決“零散算力資源閑置”與“高質(zhì)量大算力難求”的供需矛盾。
超大帶寬方面:將持續(xù)提升單波速率,200GBaud將成為主要發(fā)展方向。同時,波分復用(WDM)傳輸系統(tǒng)還將向著多波段擴展,進一步提升容量,但是多波段擴展還需解決多波段器件、系統(tǒng)優(yōu)化與產(chǎn)業(yè)成熟度等問題。此外,CPO/LPO/LRO等新型封裝與架構(gòu)設(shè)計有效提升集成度并優(yōu)化超高速性能。
超高可靠方面:模型訓練對光網(wǎng)絡(luò)故障極其敏感,丟包率/光層故障對GPU有效計算時間影響較大。研究數(shù)據(jù)顯示,光層掉波會損失40%的算效,斷纖時間超過50ms對業(yè)務(wù)影響明顯;網(wǎng)絡(luò)系統(tǒng)的多個環(huán)節(jié)故障,導致訓練中斷,對于整體訓練效率和成本也會產(chǎn)生極大的損耗。為此,可通過快速協(xié)議+極速WSS+DSP的創(chuàng)新,在ROADM全光網(wǎng)中構(gòu)建電信級50ms保護機制,實現(xiàn)快速恢復。同時,引入光纖感知與 AI 分析,基于 OTDR 或 DSP 提取溫度、應(yīng)變、振動、共路由等多狀態(tài)參量,建立端到端性能模型,提升光網(wǎng)絡(luò)整體可靠性。
超低時延方面:以1750億參數(shù)規(guī)模的GPT-3模型訓練為例,從理論估算模型分析,當時延從10us提升至1ms時,GPU有效計算時間占比將降低接近10%。因此,需優(yōu)化光纜網(wǎng)布局,加快重點IDC(含通算、智算)光纜資源建設(shè),解決算力樞紐間光纜直連資源不足以及時延較高的問題;此外,探索引入具備低時延特性的空芯光纖,在相同時延圈下,具有更廣的覆蓋范圍,或?qū)⒊蔀樗憔W(wǎng)有力解決方案。同時,通過超低采樣率處理、簡化結(jié)構(gòu)、集成化處理單元等方案創(chuàng)新DSP算法,實現(xiàn)低時延、低功耗光系統(tǒng)。
智算時代光通信新技術(shù)實踐
李俊杰表示,面向AI業(yè)務(wù)大規(guī)模算力需求,中國電信基于光交換機與大容量光網(wǎng)絡(luò),積極推進低時延入算、超大規(guī)模智算中心組網(wǎng),以及跨域一體化試驗等關(guān)鍵技術(shù)研究,構(gòu)筑智能時代堅實光底座,推動智算基礎(chǔ)設(shè)施高質(zhì)量發(fā)展。
入算(DCA)方面:M-OTN/OSU技術(shù)是面向城域優(yōu)化的光傳送網(wǎng)技術(shù),通過引入靈活映射的光業(yè)務(wù)單元(OSU),為智算時代的全光運力網(wǎng)絡(luò)提供低時延、高可靠、靈活帶寬配置的綜合業(yè)務(wù)承載。目前,中國電信已在多個省市完成M-OTN/OSU技術(shù)現(xiàn)網(wǎng)試點和試商用,為客戶提供專線服務(wù)和入算服務(wù),時延降低效果顯著。
算內(nèi)(DCN)方面:基于全光交換機(OCS)可實現(xiàn)智算DCN網(wǎng)絡(luò)的新架構(gòu),有效提升超大規(guī)模集群的性能、擴展性與靈活性。未來,需進一步降低光口切換速度、提升交換維度,以及創(chuàng)新動態(tài)路由與管控方式,提高系統(tǒng)的整體效率。
中國電信完成全球運營商首個基于光電協(xié)同的DCN新架構(gòu),面向未來智算中心超萬卡集群規(guī)模組網(wǎng)挑戰(zhàn),GPU點到點通信時延下降14%,集群網(wǎng)絡(luò)功耗降低19%,可靠性提升17%。
算間(DCI)方面:基于800G C+L技術(shù),滿足多數(shù)據(jù)中心分布式訓練對數(shù)據(jù)傳輸中帶寬、可靠性與規(guī)模的需求,融合業(yè)界首創(chuàng)的50ms WSON技術(shù),構(gòu)筑超大帶寬、超高可靠與超大規(guī)模的海量數(shù)據(jù)運力光網(wǎng)。
中國電信在全國三大核心ROADM網(wǎng)絡(luò)區(qū)域內(nèi)/間進行400G/800G混合速率傳輸現(xiàn)網(wǎng)試點,結(jié)果表明400G骨干ROADM網(wǎng)絡(luò)具備400G/800G雙速率混傳及混合WSON全光調(diào)度能力,支持現(xiàn)有400G ROADM網(wǎng)絡(luò)平滑升級至800G。
據(jù)介紹,中國電信基于百公里真實節(jié)點環(huán)境開展模型拉遠訓練效果系列試驗驗證,實現(xiàn)了兩點到多點,百卡到千卡,800G C波段到C+L波段,帶寬收斂比1:1到32:1等技術(shù)指標突破,向行業(yè)全面展示了長距無損智算網(wǎng)支撐分布式智算集群的創(chuàng)新路徑。









































