12 月 26 日消息,以“創(chuàng)新驅(qū)動智啟新程”為主題的 2024 中國人工智能大會(CCAI)開幕式于本月在北京召開,超節(jié)點(diǎn)算力集群創(chuàng)新聯(lián)合體揭牌儀式舉行。
會上,北京市科委、中關(guān)村管委會、中國移動、浪潮集團(tuán)、阿里云、清華大學(xué)、中國科學(xué)院等單位共同為“超節(jié)點(diǎn)算力集群創(chuàng)新聯(lián)合體”揭牌。
據(jù)中國移動介紹,隨著人工智能大模型的迅猛發(fā)展,其參數(shù)規(guī)模正向超萬億級別演進(jìn),模型的性能和泛化能力不斷提升,對高性能智算基礎(chǔ)設(shè)施的需求更為迫切。在此背景下,傳統(tǒng)單臺智算服務(wù)器僅能容納 8 張 GPU 芯片的算力模式正被“超節(jié)點(diǎn)算力集群”這一形態(tài)所取代,以適應(yīng)日益增長的算力需求。
“超節(jié)點(diǎn)算力集群創(chuàng)新聯(lián)合體”的 GPU 卡間互聯(lián)是基于中國移動原創(chuàng)的 OISA(全向智感互聯(lián))協(xié)議所構(gòu)建,OISA 旨在打造一個高效、智能、靈活且開放的 GPU 卡間互聯(lián)體系,該架構(gòu)致力于支持大模型訓(xùn)練、推理、高性能計算等數(shù)據(jù)密集型的 AI 應(yīng)用。
為了實(shí)現(xiàn)這一目標(biāo),OISA 采用了全向連接設(shè)計,確保大規(guī)模 GPU 之間對等通信;引入智能感知設(shè)計,通過定義流量感知標(biāo)簽,并結(jié)合流控和重傳機(jī)制,優(yōu)化數(shù)據(jù)傳輸效率。
在協(xié)議層面,OISA 采用精悍的報文格式、支持內(nèi)存和消息的多語義融合、多層次流控重傳以及預(yù)設(shè)集合通信加速等多個關(guān)鍵技術(shù),實(shí)現(xiàn)高帶寬、低時延和高可靠的 GPU 通信能力。
在當(dāng)前 Gen1.1 版本下,OISA 支持超節(jié)點(diǎn)內(nèi)任意 GPU 卡間的點(diǎn)對點(diǎn)讀寫互聯(lián)帶寬達(dá)到 896GB/s,每個 OISA-Switch 芯片支持 128 個端口、交換容量 51.2T。
從中國移動官方獲悉,中國移動未來將全面支持超節(jié)點(diǎn)算力集群創(chuàng)新聯(lián)合體發(fā)展,計劃聯(lián)合產(chǎn)業(yè)界優(yōu)先完成在單層 Switch 條件下基于 OISA 互聯(lián)技術(shù)的 32/64 卡超節(jié)點(diǎn)產(chǎn)品落地,并加速 128 卡超節(jié)點(diǎn)產(chǎn)品的輸出。