在淘金熱時期,懷揣著致富夢想的探礦者們紛紛涌入美國西部,希望通過淘金發(fā)家致富。如今,科技領(lǐng)域的開拓者也同樣躍躍欲試,希望在人工智能(AI)領(lǐng)域大展拳腳。普華永道(PWC)估計,到2030年,全球經(jīng)濟總收益的45%將由人工智能驅(qū)動,越來越多的行業(yè)將受益于人工智能帶來的生產(chǎn)力和產(chǎn)品性能提升。普華永道的研究進一步指出,人工智能有望為全球GDP額外貢獻15.7萬億美元,增幅約為14%。然而,這一具有劃時代意義的經(jīng)濟機遇,對計算能力和功率密度的需求已經(jīng)遠遠超過了當前的承載能力。
無論是為淘金者提供商品、服務(wù)和安全保障,還是為企業(yè)提供服務(wù)器、存儲系統(tǒng)、網(wǎng)絡(luò)設(shè)施和數(shù)據(jù)存儲,基礎(chǔ)設(shè)施始終是推動發(fā)展的重要驅(qū)動力。隨著人工智能應(yīng)用的增加,對人工智能就緒的計算、存儲和網(wǎng)絡(luò)容量的需求早已超過了其可用性。這一劃時代的經(jīng)濟機遇推動了對計算能力和功率密度的需求,使其超出了現(xiàn)有能力所能處理的范圍。
全球政府和商界領(lǐng)袖都將目光投向了人工智能(AI)所帶來的無限可能。政府的政策框架和投資計劃,為各方在人工智能“淘金熱”中搶占一席之地提供了政策框架和資金支持。
企業(yè)和產(chǎn)業(yè)界也在大力投資基礎(chǔ)設(shè)施建設(shè),以支持未來的創(chuàng)新發(fā)展。據(jù)《福布斯》11月估計,2025年,大型科技公司在人工智能方面的支出將超過2500億美元,其中大部分投入將用于基礎(chǔ)設(shè)施建設(shè)。僅微軟一家公司今年就將投資800億美元用于建設(shè)具備訓(xùn)練強大人工智能模型所需能力和速度的數(shù)據(jù)中心。這些數(shù)字看似驚人,但為了滿足對計算能力的需求,確保人工智能創(chuàng)新不會停滯不前,這些投資是必不可少的。
計算能力:當今世界最寶貴的資源
人工智能數(shù)據(jù)中心提供人工智能工作負載所需的海量數(shù)據(jù)存儲空間、閃電般快速的網(wǎng)絡(luò)連接,以及高性能計算(HPC)能力,并以此推動人工智能的創(chuàng)新。人工智能數(shù)據(jù)中心還擁有精密的冷卻和功率管理系統(tǒng),能夠應(yīng)對人工智能硬件因高密度功率需求而帶來的相關(guān)挑戰(zhàn)。如果沒有這些獨特的功能,如今推動人工智能突破極限的開拓性創(chuàng)新就不可能實現(xiàn)。然而,隨著越來越多的企業(yè)希望利用人工智能的潛力,人工智能數(shù)據(jù)中心的設(shè)計及其采用的系統(tǒng)也必須不斷發(fā)展。
人工智能系統(tǒng)扎根于機器學習(ML)和深度學習技術(shù),這兩種技術(shù)都以計算強度大而“聲名在外”。人工智能模型在訓(xùn)練過程中會處理大量數(shù)據(jù)。它們會在整個訓(xùn)練過程中調(diào)整和完善參數(shù),以優(yōu)化性能。即使對于基本模型而言,這也是一個計算密集型過程。
短短幾年間,基于人工智能的應(yīng)用已經(jīng)發(fā)展到了收益遞減的階段。業(yè)界需要越來越復(fù)雜的模型來增強現(xiàn)有用例,并推動生成式人工智能(gen AI)等新興用例的發(fā)展。然而,隨著模型越來越先進,其對計算能力的要求也與日俱增,訓(xùn)練高級人工智能和機器學習算法所需的計算能力也會呈指數(shù)級攀升。OpenAI早期的生成式人工智能機器模型就是這種龐大計算能力需求的典型展示。在六年時間里,該公司的機器學習模型運行所需的計算能力增長了驚人的30萬倍。
六年前,在獲取訓(xùn)練模型(這些模型后來發(fā)展成為ChatGPT)的資源方面,OpenAI幾乎不會遇到什么競爭對手。然而如今訓(xùn)練生成式人工智能模型的“參與者”大幅增加,所有人都在爭奪那增長幅度極為有限的資源。生產(chǎn)下一個ChatGPT所需的大規(guī)模計算能力變得珍貴而有限。擴大這種資源的使用范圍是一件成本高昂的事情,這一點從為構(gòu)建這些資源而進行的投資規(guī)模就可見一斑。隨著人工智能的飛速發(fā)展,人工智能數(shù)據(jù)中心開發(fā)人員正在尋找解決方案,以確保這些關(guān)鍵的創(chuàng)新驅(qū)動因素能夠適應(yīng)和擴展,從而滿足未來的需求。
為不可預(yù)測的情況制定應(yīng)對之策
在人工智能時代構(gòu)筑數(shù)據(jù)中心意味著要確保這些設(shè)施能夠適應(yīng)大規(guī)模GPU集群的功耗,適應(yīng)云計算和邊緣計算之間動態(tài)變化的平衡,并提高容量以跟上不斷增長的需求,避免出現(xiàn)中斷或停機的情況。除了通過建設(shè)新數(shù)據(jù)中心來擴充容量外,確保數(shù)據(jù)中心的可靠性和安全性也至關(guān)重要。目前,傳統(tǒng)的數(shù)據(jù)中心測試解決方案用于設(shè)計和測試構(gòu)成人工智能數(shù)據(jù)中心的各類組件和系統(tǒng)。但這種方法已經(jīng)難以為繼,人們亟需一種全新途徑。
人工智能數(shù)據(jù)中心由錯綜復(fù)雜的系統(tǒng)組成,而這些系統(tǒng)又是由一個個獨立組件組成的復(fù)雜網(wǎng)絡(luò)。其中任何一個環(huán)節(jié)出現(xiàn)問題,這些支撐創(chuàng)新和市場資本支出的基礎(chǔ)設(shè)施就會受到影響。因此,人工智能數(shù)據(jù)中心的可靠性取決于其最薄弱的環(huán)節(jié)。在追求高性能的前沿領(lǐng)域,每一塊芯片、每一根電纜、每一次互連、每一臺交換機、每一臺服務(wù)器和每一塊GPU都蘊含著巨大的潛力,也都伴隨著同等程度的風險。為了降低這種風險,每個組件都必須能作為一個系統(tǒng),在日益增長的需求下獨立、協(xié)調(diào)地工作。
構(gòu)建能夠應(yīng)對人工智能工作負載巨大需求的網(wǎng)絡(luò),意味著要對每個組件、連接和配置進行驗證。由于其所涉及的巨大風險和規(guī)模,即使是最小的效率提升、運營改進或性能增強,都會抵消創(chuàng)新的收益遞減。因此,要想在這場現(xiàn)代“淘金熱”中獲得成功和利潤,就必須采用能夠承受未來各種挑戰(zhàn)的新技術(shù)堆棧。
面向未來的人工智能創(chuàng)新
為滿足未來對人工智能就緒型網(wǎng)絡(luò)、半導(dǎo)體和數(shù)據(jù)中心設(shè)備的需求,就必須具備人工智能就緒型測試和仿真工具的技術(shù)堆棧。在這場“淘金熱”中,無數(shù)數(shù)字勘探者會競相角逐,爭搶先機,而具備人工智能就緒的測試和仿真工具將幫助參與者脫穎而出。是德科技正在幫助人工智能數(shù)據(jù)中心設(shè)計人員進行面向未來的設(shè)計,并針對此類復(fù)雜環(huán)境的動態(tài)需求量身打造強大的工具技術(shù)堆棧。憑借涵蓋仿真器、模擬器和測試硬件的全棧產(chǎn)品組合,是德科技解決方案可輕松模擬真實世界中的人工智能工作負載,對網(wǎng)絡(luò)組件進行驗證,并優(yōu)化從物理硬件到應(yīng)用層行為等各個層面的系統(tǒng)級性能。