亚洲AV综合色区无码二区爱AV,国产乱对白中文乱人伦,国产在线观看无码免费视频

華為創(chuàng)造AI算力新紀錄

萬卡集群訓練98%可用度秒級恢復

日期： 2025-06-11

來源：快科技

關鍵詞： 華為昇騰萬卡算力集群大模型

大模型的落地能力，核心在于性能的穩(wěn)定輸出，而性能穩(wěn)定的底層支撐，是強大的算力集群。其中，構建萬卡級算力集群，已成為全球公認的頂尖技術挑戰(zhàn)。

但是，在華為，昇騰萬卡算力集群，已經可以做到近乎“永不罷工”了：

-訓練可用度達98%：這就好比你開著一輛車，全年365天里，有358天無論刮風下雨都能一腳油門就出發(fā)，從不掉鏈子，有問題可以隨時檢修，幾乎不會耽誤你的任何行程。

-線性度超95%：比如用1000臺算力卡干活比用100臺快9.5倍以上，疊加更多算力，訓練速度近似等比提升，不浪費資源。

-秒級恢復、分鐘級診斷：不論訓練還是推理，故障后幾秒鐘就可恢復；幾分鐘內定位到具體是哪臺機器、哪個部件出問題。

或許有小伙伴要問了：AI算力需要如此24小時不間斷的運作嗎？

答案是肯定的，需要，且有必要。

因為小到我們用手機導個航，背后都會有幾十個AI模型在發(fā)力來分析路況、預測擁堵；再如醫(yī)院用AI輔助診斷癌癥，系統(tǒng)得在瞬間處理掉成百上千的CT照片。

這些看似簡單的智能應用，其實都離不開如 “超級大腦” 般的AI算力集群，需要它們全天候不停歇地運轉著。

而要保證有這樣的能力，高訓練可用度、高線性度、快速消除故障，就相當于給AI發(fā)動機上了一份強有力的保險。

更嚴格來說，AI推理的可用度甚至還需要達到99.95%的程度。

那么華為又是如何做到這點的？

關于這一切背后的秘密，華為在今天首次把技術給公開了出來。

高可用的核心：三套“智能保險系統(tǒng)”

AI大集群出問題時，定位故障特別麻煩；畢竟系統(tǒng)規(guī)模龐大，軟件和硬件組成的技術棧錯綜復雜，而且調用鏈條還很長。

要解決問題，首先得確定故障出在哪個大的領域，接著再在這個領域內部一步步排查，確定具體的故障位置。在整個故障診斷過程中，面臨的挑戰(zhàn)非常大。

以往技術人員進行故障定位時，短則需數小時，長則可能耗時數天。這一過程不僅對技術人員的專業(yè)技能要求頗高，且往往難以快速鎖定故障設備及根本原因。

為此，華為團隊針對AI大集群面臨的復雜挑戰(zhàn)，構建了三大基礎能力。

首先是全棧可觀測能力。

它像是給集群裝了一套“火眼金睛”監(jiān)控系統(tǒng)（故障感知），主要包含這幾部分：

-集群運行視圖：實時查看集群整體運行狀態(tài)，哪里 “卡殼” 一目了然；

-告警視圖：哪里出問題了，系統(tǒng)會主動 “打報告”，快速發(fā)出警報；

-網絡鏈路監(jiān)控：盯著網絡連接的 “血管”，確保數據傳輸順暢；

-告警接入和配置：統(tǒng)一管理各種警報信息，還能根據需求靈活設置提醒規(guī)則；

-網絡流可觀測能力：追蹤數據在網絡中的 “流動軌跡”，哪里堵了馬上能發(fā)現。

同時，華為還拿出了一套 “故障診斷組合拳”，包含四大核心能力：

-全棧故障模式庫：就像一本 “故障字典”，收錄了各種可能的問題模式，方便快速對照排查；

-跨域故障診斷：不管故障藏在哪個 “領域”（軟件、硬件、網絡等），都能跨區(qū)域 “聯(lián)合破案”；

-計算節(jié)點故障診斷：精準定位計算單元（比如服務器）的具體問題，揪出 “罷工” 的節(jié)點；

-網絡故障診斷：專門對付網絡里的 “疑難雜癥”，比如斷網、延遲高、鏈路異常等。

這套組合拳讓集群故障診斷更高效，就像給工程師配了 “智能偵探工具”，大大縮短了找問題的時間。

最后，是一套“鋼鐵韌帶”自愈系統(tǒng)（容錯設計）。

想要把超平面網絡的厲害之處完全發(fā)揮出來，超節(jié)點的規(guī)模就得足夠大。不過到現在，還沒有哪個團隊能用光鏈路搭建超節(jié)點并成功的。

于是，華為團隊就琢磨出一套超節(jié)點光鏈路軟件容錯的好辦法。

這套辦法就像給超節(jié)點穿上了好幾層 “防護鎧甲”，用上 “超時代答”“綠色通道” 這些關鍵技術后，超節(jié)點基本不會出現大故障。

同時，又通過鏈路級重傳、光模塊動態(tài)調整Lane、重新執(zhí)行HCCL算子、借軌通信、雙層路由快速恢復、Step級重新調度等技術，讓超節(jié)點對光模塊突然中斷這類故障的承受能力變得超強，能容忍超過99%的光模塊閃斷情況。

哪怕超節(jié)點里的光模塊數量一下子增加了10倍還多，依靠軟件提升可靠性的手段，再配合光鏈路壓力測試技術，光模塊閃斷的概率能降低到和傳統(tǒng)電鏈路差不多的水平，穩(wěn)穩(wěn)保障超平面網絡不出問題。

而且，華為團隊還打造出Step級重調度能力，以前遇到頻繁的 HBM 多比特 ECC 故障，修復可能要花很長時間，現在1分鐘內就能搞定，用戶因為故障損失的算力也減少了5%，實實在在地省下了不少 “計算力”。

計算卡再多，也不影響效率

線性度指標，簡單來說就是看算力卡數量增加后，訓練任務的速度或效率能提高多少（比如完成時間縮短的比例）。

舉個例子：如果算力卡增加2倍，訓練速度也能接近2倍，說明線性度高；如果速度只提高1.2倍，就說明線性度差，資源沒被充分利用。

為了讓訓練效率隨著算力卡增多而 “更成正比地提升”，華為團隊研發(fā)了四項關鍵技術：

TACO（拓撲感知的協(xié)同編排技術）：就像給算力卡 “排兵布陣”，根據硬件連接結構（比如網絡拓撲）智能分配任務，避免 “通信堵車”。

NSF（網絡級網存算融合技術）：把網絡傳輸、數據存儲和計算能力 “打包優(yōu)化”，讓數據在算力卡之間流動更順暢，減少等待時間。

NB（拓撲感知的層次化集合通信技術）：針對大規(guī)模集群設計 “分層通信策略”，比如讓同一區(qū)域的算力卡先快速協(xié)作，再跨區(qū)域同步，提升整體通信效率。

AICT（無侵入通信跨層測量與診斷技術）：不干擾正常訓練的前提下，實時 “監(jiān)控” 通信鏈路，快速發(fā)現哪里 “卡頓” 并修復，確保數據傳輸穩(wěn)定。

通過這四項技術，華為讓Pangu大模型的訓練線性度（即效率隨算力卡增加的提升比例）明顯提高。

整體方案的思路大概如下圖所示：

實驗及理論分析結果顯示，訓練Pangu Ultra 135B稠密模型時，4K卡Atlas 800T A2集群相比256卡基線，線性度為96%。

訓練Pangu Ultra MoE 718B稀疏模型時，8K卡Atlas 800T A2集群相比512卡基線，線性度95.05%；4K卡CloudMatrix 集群相比256卡基線，線性度96.48%。

具備秒級恢復的能力

在大規(guī)模AI集群運行時，經常會因為各種硬件或軟件故障，導致訓練任務突然中斷。

目前行業(yè)里常用的辦法是，在訓練過程中定期保存 “進度存檔”（CKPT），等故障修復后從存檔點繼續(xù)訓練。

華為則憑借軟硬件全方面的技術創(chuàng)新，打造了一套 “分層分級” 的訓練任務故障快速恢復系統(tǒng)。

簡單來說，就是針對不同類型、不同程度的故障，制定了對應的 “快速重啟方案”，讓訓練任務能更快 “續(xù)上”。

不同層級的故障恢復能力可以參考下面這張圖：

除此之外，華為采用了一系列提速 “黑科技”：比如優(yōu)化數據集查找速度、緩存模型編譯結果、加快通信鏈路建立、提升訓練進度保存效率。

這些技術效果顯著：如果是萬卡規(guī)模的超大型集群，從故障中恢復訓練，10分鐘內就能搞定；要是用 “進程級重調度恢復” 方法，3分鐘內就能接著訓練；要是用更厲害的 “進程級在線恢復”，30秒就能重新開始訓練。

而且，不管集群規(guī)模有多大，模型有多復雜，恢復時間基本不受影響，還能把因為故障導致的訓練進度倒退時間，壓縮到一次訓練循環(huán)的時長。

這么一來，AI集群能用的時間大大增加，大模型訓練的效率也快了很多。

在訓練階段后的推理，也有諸多問題亟待解決。

當千億級MoE模型不斷升級，模型部署的網絡結構也跟著變了。以前單機8卡就足夠跑一個推理實例，如今，大EP模型架構下，需要數十乃至上百張卡才能支撐推理運行。

但新架構帶來個麻煩：用的設備越多，出故障的可能性就越大，而且一旦有問題，影響的范圍會特別廣。

只要有一個硬件出故障，整個Decode實例（可以理解成模型運行的一個 “小團隊”）就沒法工作了，直接導致AI推理業(yè)務出問題，嚴重的話整個業(yè)務都會停擺。

為了解決大EP推理架構容易出故障的難題，華為團隊想出了一個分三步的 “保險計劃”：

第一步是實例間切換，就像給業(yè)務準備了 “備用團隊”，一個實例不行了，馬上換另一個頂上；

第二步是實例內重啟恢復，發(fā)現實例里有問題，快速重啟內部程序，讓它重新正常工作；

第三步是實例內無損恢復，即使出故障也不丟失數據，在不影響業(yè)務的情況下修復問題。

這三步方案需要芯片驅動、框架軟件、平臺系統(tǒng)各個層面緊密配合，組成一套完整的 “防護網”。遇到不同類型的故障，就用最合適的恢復方法，盡可能減少對用戶的影響，讓AI推理業(yè)務穩(wěn)穩(wěn)運行。

在實例內重啟恢復技術中，通過構建帶內快速故障感知和重調度機制，搭配參數權重預熱和鏡像預熱技術，能把實例內部的重啟恢復時間壓縮到5分鐘以內。

還有一項很厲害的TOKEN級重試技術，當遇到HBM KV Cache故障時，從故障發(fā)生到重新輸出Token的整個恢復過程不到10秒。

對比業(yè)界通常需要10分鐘才能恢復實例的情況，這項技術能將故障帶來的影響降低60倍，幾乎讓用戶感覺不到故障發(fā)生，極大提升了系統(tǒng)的穩(wěn)定性和用戶體驗。

總結來看，針對AI算力集群的高可用性，華為團隊創(chuàng)新性提出了“3+3”雙維度技術體系，即故障感知診斷、故障管理、集群光鏈路容錯等三大基礎能力，以及集群線性度、訓練快恢、推理快恢等三大業(yè)務支撐能力。

這六大創(chuàng)新均帶來了非?？捎^的收益，比如萬卡集群訓練可用度達到98%、集群訓推最快達到秒級快恢、集群線性度達到95%+、千種故障模式庫與分鐘級故障診斷等。

Magazine.Subscription.jpg

版權聲明：本站內容除特別聲明的原創(chuàng)文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

華為創(chuàng)造AI算力新紀錄

日期： 2025-06-11

來源：快科技

相關內容