《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 人工智能 > 解決方案 > 重新思考數(shù)據(jù)中心架構(gòu),推進(jìn)AI的規(guī)?;涞?/span>

重新思考數(shù)據(jù)中心架構(gòu),推進(jìn)AI的規(guī)模化落地

2025-05-20
作者:是德科技高級(jí)副總裁Marie Hattar
來(lái)源:是德科技

8.jpg

人工智能(AI)對(duì)計(jì)算資源的貪婪需求推動(dòng)了基礎(chǔ)設(shè)施的變革,業(yè)界正著力解決如何滿足AI在功率、可擴(kuò)展性以及效率等方面的需求。這促使大量投資涌入,旨在重新配置數(shù)據(jù)中心架構(gòu),以更好應(yīng)對(duì)上述及其他技術(shù)要求。問(wèn)題的核心在于,智能性的構(gòu)建需要巨大的算力支持。隨著AI復(fù)雜度以每年一個(gè)數(shù)量級(jí)的速度遞增,數(shù)據(jù)中心必須快速擴(kuò)展。一個(gè)直觀的參照可以說(shuō)明這一需求增長(zhǎng)的速度:到2027年,AI工作負(fù)載的能源消耗將超過(guò)阿根廷的年用電量。

沒(méi)有萬(wàn)能之法

AI正在重新定義各類數(shù)據(jù)中心的架構(gòu),包括超大規(guī)模數(shù)據(jù)中心、現(xiàn)場(chǎng)數(shù)據(jù)中心、主機(jī)托管數(shù)據(jù)中心和邊緣數(shù)據(jù)中心。迄今為止,大家的注意力主要集中在超大規(guī)模數(shù)據(jù)中心的競(jìng)爭(zhēng)上。指數(shù)級(jí)增長(zhǎng)的計(jì)算資源需求正在催生站點(diǎn)容量超過(guò)1GW的AI集群。麥肯錫預(yù)測(cè),到2030年,歐洲和美國(guó)60%以上的AI工作負(fù)載將托管在超大規(guī)模基礎(chǔ)設(shè)施上。

從超大規(guī)模數(shù)據(jù)中心到邊緣:架構(gòu)的演進(jìn)

數(shù)據(jù)中心必須能夠支持像大型語(yǔ)言模型(LLM)訓(xùn)練這樣的AI工作負(fù)載。這就需要對(duì)設(shè)施的設(shè)計(jì)和架構(gòu)進(jìn)行全面升級(jí)。每個(gè)機(jī)架的功率必須增加到200-300kW,以支持密集型計(jì)算,并配備增強(qiáng)冷卻解決方案以滿足這種密集性需求。GPU和TPU等專用硬件必須與擴(kuò)展的存儲(chǔ)系統(tǒng)相集成,以應(yīng)對(duì)海量數(shù)據(jù)的管理需求。為實(shí)現(xiàn)硬件的獨(dú)立管理和擴(kuò)展,分離架構(gòu)正被廣泛部署,支持不同工作負(fù)載高效利用資源。為了適應(yīng)AI的流量模式,網(wǎng)絡(luò)架構(gòu)也需要進(jìn)行更新,否則AI集群可能會(huì)陷入“數(shù)字交通堵塞”——強(qiáng)大的數(shù)據(jù)處理能力因數(shù)據(jù)瓶頸而無(wú)法發(fā)揮其應(yīng)有的效能。

9.jpg

除了超大規(guī)模設(shè)施外,AI正在推動(dòng)對(duì)去中心化基礎(chǔ)設(shè)施的需求,以支持本地?cái)?shù)據(jù)處理。這需要專為邊緣工作負(fù)載設(shè)計(jì)的數(shù)據(jù)中心——在較小的物理空間和較低能耗下實(shí)現(xiàn)高性能。到2030年,隨著越來(lái)越多的處理任務(wù)向邊緣轉(zhuǎn)移,該市場(chǎng)預(yù)計(jì)將超過(guò)1600億美元。

該增長(zhǎng)源于自動(dòng)駕駛等應(yīng)用中,對(duì)于更加貼近終端用戶的實(shí)時(shí)處理能力的迫切需求。在這些應(yīng)用中,更快的決策速度至關(guān)重要。該方法可以降低延遲,更好地支持這個(gè)由物聯(lián)網(wǎng)和5G技術(shù)驅(qū)動(dòng)的超連接世界。

隨著AI應(yīng)用的日益成熟,推理工作負(fù)載的增長(zhǎng)速度已經(jīng)遠(yuǎn)超模型訓(xùn)練。基礎(chǔ)設(shè)施也需要適應(yīng)這種從訓(xùn)練到推理的轉(zhuǎn)變——DeepSeek R1和OpenAI v3的成功有賴于此。這類推理系統(tǒng)利用經(jīng)過(guò)訓(xùn)練的模型來(lái)評(píng)估實(shí)時(shí)數(shù)據(jù),從而高效地做出決策或完成任務(wù)。

邊緣連接設(shè)備將產(chǎn)生大量的數(shù)據(jù)。因此,數(shù)據(jù)中心需要達(dá)到一定規(guī)模,以支持低延遲網(wǎng)絡(luò)和靈活的資源分配,從容應(yīng)對(duì)突發(fā)推理需求高峰。

以AI擴(kuò)展AI

有趣的是,AI既是問(wèn)題所在,又是解決問(wèn)題的關(guān)鍵。智能化對(duì)于應(yīng)對(duì)擴(kuò)展挑戰(zhàn)和確保高效運(yùn)營(yíng)至關(guān)重要。AI可以通過(guò)多種方式助力數(shù)據(jù)中心現(xiàn)代化,其中包括:

提高能源效率對(duì)于可持續(xù)運(yùn)營(yíng)至關(guān)重要。數(shù)據(jù)中心可以通過(guò)部署AI來(lái)自動(dòng)調(diào)節(jié)冷卻系統(tǒng)和服務(wù)器工作負(fù)載,應(yīng)對(duì)需求高峰。實(shí)施智能節(jié)能技術(shù)有助于最大限度地減少浪費(fèi)和運(yùn)營(yíng)成本,同時(shí)保持性能水平。

預(yù)測(cè)性維護(hù)利用機(jī)器學(xué)習(xí)在問(wèn)題發(fā)生前進(jìn)行預(yù)測(cè)。這可以最大限度地減少停機(jī)時(shí)間,并有助于延長(zhǎng)基礎(chǔ)設(shè)施的使用壽命。考慮到擴(kuò)展所涉及的規(guī)模和成本,主動(dòng)安排維修和更新以優(yōu)化資源利用率的能力具有重要意義。

數(shù)字孿生與AI相結(jié)合,可創(chuàng)建動(dòng)態(tài)模型來(lái)對(duì)組件和系統(tǒng)進(jìn)行測(cè)試和驗(yàn)證。這些解決方案可用于確保復(fù)雜的數(shù)據(jù)中心保持穩(wěn)健、富有彈性,并能支持未來(lái)的需求。AI算法會(huì)分析有關(guān)性能和環(huán)境條件的歷史數(shù)據(jù),為優(yōu)化運(yùn)營(yíng)提供洞察。這些解決方案可以使用AI工作負(fù)載來(lái)模擬網(wǎng)絡(luò)性能,從而發(fā)現(xiàn)并解決潛在的瓶頸問(wèn)題。先進(jìn)的測(cè)試和仿真工具是創(chuàng)建可擴(kuò)展、高效、可靠的基礎(chǔ)設(shè)施所需的技術(shù)堆棧的重要組成部分。

AI將加速完全自主的智能數(shù)據(jù)中心的實(shí)現(xiàn),這些數(shù)據(jù)中心幾乎可以處理所有操作,包括監(jiān)控、維護(hù)、聯(lián)網(wǎng)、能源管理和安全等,并且只需極少的人工投入。

面向未來(lái)的AI基礎(chǔ)設(shè)施

隨著AI的不斷發(fā)展,數(shù)據(jù)中心必須適應(yīng)日益復(fù)雜的工作負(fù)載。運(yùn)營(yíng)商迫切希望能以可持續(xù)的方式擴(kuò)展基礎(chǔ)設(shè)施來(lái)滿足需求,而不必犧牲性能或可靠性。由于AI的未來(lái)發(fā)展仍存在不確定性,打造靈活、富有彈性且易于適應(yīng)的基礎(chǔ)設(shè)施至關(guān)重要。

通過(guò)AI系統(tǒng)編排在超大規(guī)模計(jì)算能力和邊緣靈活性之間取得平衡將成為區(qū)分成敗的關(guān)鍵,而那些能夠順應(yīng)這一趨勢(shì)的企業(yè)將在AI革命中脫穎而出。

2.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。