當下,AI正在煥醒全行業(yè)創(chuàng)新視角,智算系統(tǒng)的連續(xù)、穩(wěn)定運行至關(guān)重要。但據(jù)一份關(guān)于LLaMA 3的官方論文報告顯示:萬卡集群平均每3小時故障一次,其中10%的故障因網(wǎng)絡(luò)引起,而由光模塊/光纖引起故障的概率達到8%。但網(wǎng)絡(luò)系統(tǒng)故障原因“盤根錯節(jié)”,排障往往需要耗費數(shù)小時甚至數(shù)天,這導致AI時代下的網(wǎng)絡(luò)運維工作更加復雜。
那么,如何讓網(wǎng)絡(luò)運維跟緊智能化演進步伐?如何對故障率較高的光模塊/光纖狀態(tài)進行監(jiān)測和預警?如何端到端提升AI網(wǎng)絡(luò)效率?
元脈網(wǎng)絡(luò)智能運管平臺ICE 打造光鏈路智能運維新功略
智能運管平臺ICE集成了元脈網(wǎng)絡(luò)自研“光鏈路監(jiān)測小模型”,該模型以完整的“本端光模塊-光纖-對端光模塊”監(jiān)測鏈條為基礎(chǔ)。并通過神經(jīng)網(wǎng)絡(luò)預測、削頂雙高斯混合數(shù)學建模、時間序列分析等多種方式進行聯(lián)合決策,實現(xiàn)對光纖/光模塊部件的全局監(jiān)控。打破被動防御的桎梏,是業(yè)界首個具備光鏈路主動守護能力的純軟件監(jiān)測模型,無需其他硬件、測試儀器等設(shè)備的輔助,部署更容易、資源占用更少、響應速度更快。

① 信息多維度采集 預測結(jié)論更精準
ICE通過收集光模塊的收發(fā)光功率、電壓、電流、溫度、糾前BER(Raw Physical BER)、糾后誤碼數(shù)(Effective Physical Error)、高階(13階及以上)FEC Symbol Error等參數(shù)進行分析,提高預測結(jié)論的精準度,為智算系統(tǒng)的連續(xù)運行提供保障。
② 獨創(chuàng)輕量化算法模型 運維工作更穩(wěn)妥
ICE內(nèi)置80KB的自研輕量化“光鏈路監(jiān)測小模型”,使運維工作不依賴外網(wǎng)環(huán)境,也可在不中斷業(yè)務的前提下完成在線升級,擺脫外部模型資源牽制,節(jié)約算力成本,讓AI網(wǎng)絡(luò)運維工作“輕裝上陣”。
③ 獨立全景圖界面 故障分析更立體
在界面展示設(shè)計上,ICE采用“全景圖”的設(shè)計思路,可動態(tài)展示光模塊的健康狀態(tài)、故障位置、故障原因等信息,真正實現(xiàn)運維工作的全面可視。
④ 預警分級提示 障前干預更即時
ICE可提前對光模塊異常原因進行分級,并在全景圖中以不同等級的“告警標識”進行提示,方便用戶依據(jù)優(yōu)先級進行提前干預,提高運維效率,降低運維成本。幫助客戶實現(xiàn)從“被動修”到“主動防”的轉(zhuǎn)型,大幅提升智算系統(tǒng)的有效訓練時間比(ETTR)。
AI賦能未來 互聯(lián)構(gòu)筑基石
作為AI時代網(wǎng)絡(luò)創(chuàng)新引領(lǐng)者,元脈網(wǎng)絡(luò)可以為用戶提供面向AI時代的智算中心、數(shù)據(jù)中心、邊緣網(wǎng)絡(luò)等全棧網(wǎng)絡(luò)方案。并堅持可靠、開放、智能的發(fā)展理念,持續(xù)深化自身在技術(shù)創(chuàng)新、場景創(chuàng)新、合作創(chuàng)新上的能力,為AI時代算力、數(shù)據(jù)價值的釋放,打造堅實互聯(lián)基石。









































