大模型的落地能力,核心在于性能的穩(wěn)定輸出,而性能穩(wěn)定的底層支撐,是強大的算力集群。其中,構(gòu)建萬卡級算力集群,已成為全球公認的頂尖技術挑戰(zhàn)。
但是,在華為,昇騰萬卡算力集群,已經(jīng)可以做到近乎“永不罷工”了:
-訓練可用度達98%:這就好比你開著一輛車,全年365天里,有358天無論刮風下雨都能一腳油門就出發(fā),從不掉鏈子,有問題可以隨時檢修,幾乎不會耽誤你的任何行程。
-線性度超95%:比如用1000臺算力卡干活比用100臺快9.5倍以上,疊加更多算力,訓練速度近似等比提升,不浪費資源。
-秒級恢復、分鐘級診斷:不論訓練還是推理,故障后幾秒鐘就可恢復;幾分鐘內(nèi)定位到具體是哪臺機器、哪個部件出問題。
或許有小伙伴要問了:AI算力需要如此24小時不間斷的運作嗎?
答案是肯定的,需要,且有必要。
因為小到我們用手機導個航,背后都會有幾十個AI模型在發(fā)力來分析路況、預測擁堵;再如醫(yī)院用AI輔助診斷癌癥,系統(tǒng)得在瞬間處理掉成百上千的CT照片。
這些看似簡單的智能應用,其實都離不開如 “超級大腦” 般的AI算力集群,需要它們?nèi)旌虿煌P剡\轉(zhuǎn)著。
而要保證有這樣的能力,高訓練可用度、高線性度、快速消除故障,就相當于給AI發(fā)動機上了一份強有力的保險。
更嚴格來說,AI推理的可用度甚至還需要達到99.95%的程度。
那么華為又是如何做到這點的?
關于這一切背后的秘密,華為在今天首次把技術給公開了出來。
高可用的核心:三套“智能保險系統(tǒng)”
AI大集群出問題時,定位故障特別麻煩;畢竟系統(tǒng)規(guī)模龐大,軟件和硬件組成的技術棧錯綜復雜,而且調(diào)用鏈條還很長。
要解決問題,首先得確定故障出在哪個大的領域,接著再在這個領域內(nèi)部一步步排查,確定具體的故障位置。在整個故障診斷過程中,面臨的挑戰(zhàn)非常大。
以往技術人員進行故障定位時,短則需數(shù)小時,長則可能耗時數(shù)天。這一過程不僅對技術人員的專業(yè)技能要求頗高,且往往難以快速鎖定故障設備及根本原因。
為此,華為團隊針對AI大集群面臨的復雜挑戰(zhàn),構(gòu)建了三大基礎能力。
首先是全棧可觀測能力。
它像是給集群裝了一套“火眼金睛”監(jiān)控系統(tǒng)(故障感知),主要包含這幾部分:
-集群運行視圖:實時查看集群整體運行狀態(tài),哪里 “卡殼” 一目了然;
-告警視圖:哪里出問題了,系統(tǒng)會主動 “打報告”,快速發(fā)出警報;
-網(wǎng)絡鏈路監(jiān)控:盯著網(wǎng)絡連接的 “血管”,確保數(shù)據(jù)傳輸順暢;
-告警接入和配置:統(tǒng)一管理各種警報信息,還能根據(jù)需求靈活設置提醒規(guī)則;
-網(wǎng)絡流可觀測能力:追蹤數(shù)據(jù)在網(wǎng)絡中的 “流動軌跡”,哪里堵了馬上能發(fā)現(xiàn)。
同時,華為還拿出了一套 “故障診斷組合拳”,包含四大核心能力:
-全棧故障模式庫:就像一本 “故障字典”,收錄了各種可能的問題模式,方便快速對照排查;
-跨域故障診斷:不管故障藏在哪個 “領域”(軟件、硬件、網(wǎng)絡等),都能跨區(qū)域 “聯(lián)合破案”;
-計算節(jié)點故障診斷:精準定位計算單元(比如服務器)的具體問題,揪出 “罷工” 的節(jié)點;
-網(wǎng)絡故障診斷:專門對付網(wǎng)絡里的 “疑難雜癥”,比如斷網(wǎng)、延遲高、鏈路異常等。
這套組合拳讓集群故障診斷更高效,就像給工程師配了 “智能偵探工具”,大大縮短了找問題的時間。
最后,是一套“鋼鐵韌帶”自愈系統(tǒng)(容錯設計)。
想要把超平面網(wǎng)絡的厲害之處完全發(fā)揮出來,超節(jié)點的規(guī)模就得足夠大。不過到現(xiàn)在,還沒有哪個團隊能用光鏈路搭建超節(jié)點并成功的。
于是,華為團隊就琢磨出一套超節(jié)點光鏈路軟件容錯的好辦法。
這套辦法就像給超節(jié)點穿上了好幾層 “防護鎧甲”,用上 “超時代答”“綠色通道” 這些關鍵技術后,超節(jié)點基本不會出現(xiàn)大故障。
同時,又通過鏈路級重傳、光模塊動態(tài)調(diào)整Lane、重新執(zhí)行HCCL算子、借軌通信、雙層路由快速恢復、Step級重新調(diào)度等技術,讓超節(jié)點對光模塊突然中斷這類故障的承受能力變得超強,能容忍超過99%的光模塊閃斷情況。
哪怕超節(jié)點里的光模塊數(shù)量一下子增加了10倍還多,依靠軟件提升可靠性的手段,再配合光鏈路壓力測試技術,光模塊閃斷的概率能降低到和傳統(tǒng)電鏈路差不多的水平,穩(wěn)穩(wěn)保障超平面網(wǎng)絡不出問題。
而且,華為團隊還打造出Step級重調(diào)度能力,以前遇到頻繁的 HBM 多比特 ECC 故障,修復可能要花很長時間,現(xiàn)在1分鐘內(nèi)就能搞定,用戶因為故障損失的算力也減少了5%,實實在在地省下了不少 “計算力”。
計算卡再多,也不影響效率
線性度指標,簡單來說就是看算力卡數(shù)量增加后,訓練任務的速度或效率能提高多少(比如完成時間縮短的比例)。
舉個例子:如果算力卡增加2倍,訓練速度也能接近2倍,說明線性度高;如果速度只提高1.2倍,就說明線性度差,資源沒被充分利用。
為了讓訓練效率隨著算力卡增多而 “更成正比地提升”,華為團隊研發(fā)了四項關鍵技術:
TACO(拓撲感知的協(xié)同編排技術):就像給算力卡 “排兵布陣”,根據(jù)硬件連接結(jié)構(gòu)(比如網(wǎng)絡拓撲)智能分配任務,避免 “通信堵車”。
NSF(網(wǎng)絡級網(wǎng)存算融合技術):把網(wǎng)絡傳輸、數(shù)據(jù)存儲和計算能力 “打包優(yōu)化”,讓數(shù)據(jù)在算力卡之間流動更順暢,減少等待時間。
NB(拓撲感知的層次化集合通信技術):針對大規(guī)模集群設計 “分層通信策略”,比如讓同一區(qū)域的算力卡先快速協(xié)作,再跨區(qū)域同步,提升整體通信效率。
AICT(無侵入通信跨層測量與診斷技術):不干擾正常訓練的前提下,實時 “監(jiān)控” 通信鏈路,快速發(fā)現(xiàn)哪里 “卡頓” 并修復,確保數(shù)據(jù)傳輸穩(wěn)定。
通過這四項技術,華為讓Pangu大模型的訓練線性度(即效率隨算力卡增加的提升比例)明顯提高。
整體方案的思路大概如下圖所示:
實驗及理論分析結(jié)果顯示,訓練Pangu Ultra 135B稠密模型時,4K卡Atlas 800T A2集群相比256卡基線,線性度為96%。
訓練Pangu Ultra MoE 718B稀疏模型時,8K卡Atlas 800T A2集群相比512卡基線,線性度95.05%;4K卡CloudMatrix 集群相比256卡基線,線性度96.48%。
具備秒級恢復的能力
在大規(guī)模AI集群運行時,經(jīng)常會因為各種硬件或軟件故障,導致訓練任務突然中斷。
目前行業(yè)里常用的辦法是,在訓練過程中定期保存 “進度存檔”(CKPT),等故障修復后從存檔點繼續(xù)訓練。
華為則憑借軟硬件全方面的技術創(chuàng)新,打造了一套 “分層分級” 的訓練任務故障快速恢復系統(tǒng)。
簡單來說,就是針對不同類型、不同程度的故障,制定了對應的 “快速重啟方案”,讓訓練任務能更快 “續(xù)上”。
不同層級的故障恢復能力可以參考下面這張圖:
除此之外,華為采用了一系列提速 “黑科技”:比如優(yōu)化數(shù)據(jù)集查找速度、緩存模型編譯結(jié)果、加快通信鏈路建立、提升訓練進度保存效率。
這些技術效果顯著:如果是萬卡規(guī)模的超大型集群,從故障中恢復訓練,10分鐘內(nèi)就能搞定;要是用 “進程級重調(diào)度恢復” 方法,3分鐘內(nèi)就能接著訓練;要是用更厲害的 “進程級在線恢復”,30秒就能重新開始訓練。
而且,不管集群規(guī)模有多大,模型有多復雜,恢復時間基本不受影響,還能把因為故障導致的訓練進度倒退時間,壓縮到一次訓練循環(huán)的時長。
這么一來,AI集群能用的時間大大增加,大模型訓練的效率也快了很多。
在訓練階段后的推理,也有諸多問題亟待解決。
當千億級MoE模型不斷升級,模型部署的網(wǎng)絡結(jié)構(gòu)也跟著變了。以前單機8卡就足夠跑一個推理實例,如今,大EP模型架構(gòu)下,需要數(shù)十乃至上百張卡才能支撐推理運行。
但新架構(gòu)帶來個麻煩:用的設備越多,出故障的可能性就越大,而且一旦有問題,影響的范圍會特別廣。
只要有一個硬件出故障,整個Decode實例(可以理解成模型運行的一個 “小團隊”)就沒法工作了,直接導致AI推理業(yè)務出問題,嚴重的話整個業(yè)務都會停擺。
為了解決大EP推理架構(gòu)容易出故障的難題,華為團隊想出了一個分三步的 “保險計劃”:
第一步是實例間切換,就像給業(yè)務準備了 “備用團隊”,一個實例不行了,馬上換另一個頂上;
第二步是實例內(nèi)重啟恢復,發(fā)現(xiàn)實例里有問題,快速重啟內(nèi)部程序,讓它重新正常工作;
第三步是實例內(nèi)無損恢復,即使出故障也不丟失數(shù)據(jù),在不影響業(yè)務的情況下修復問題。
這三步方案需要芯片驅(qū)動、框架軟件、平臺系統(tǒng)各個層面緊密配合,組成一套完整的 “防護網(wǎng)”。遇到不同類型的故障,就用最合適的恢復方法,盡可能減少對用戶的影響,讓AI推理業(yè)務穩(wěn)穩(wěn)運行。
在實例內(nèi)重啟恢復技術中,通過構(gòu)建帶內(nèi)快速故障感知和重調(diào)度機制,搭配參數(shù)權(quán)重預熱和鏡像預熱技術,能把實例內(nèi)部的重啟恢復時間壓縮到5分鐘以內(nèi)。
還有一項很厲害的TOKEN級重試技術,當遇到HBM KV Cache故障時,從故障發(fā)生到重新輸出Token的整個恢復過程不到10秒。
對比業(yè)界通常需要10分鐘才能恢復實例的情況,這項技術能將故障帶來的影響降低60倍,幾乎讓用戶感覺不到故障發(fā)生,極大提升了系統(tǒng)的穩(wěn)定性和用戶體驗。
總結(jié)來看,針對AI算力集群的高可用性,華為團隊創(chuàng)新性提出了“3+3”雙維度技術體系,即故障感知診斷、故障管理、集群光鏈路容錯等三大基礎能力,以及集群線性度、訓練快恢、推理快恢等三大業(yè)務支撐能力。
這六大創(chuàng)新均帶來了非??捎^的收益,比如萬卡集群訓練可用度達到98%、集群訓推最快達到秒級快恢、集群線性度達到95%+、千種故障模式庫與分鐘級故障診斷等。