6 月 19 日消息,科技媒體 chipsandcheese 昨日(6 月 18 日)發(fā)布博文,報(bào)道稱(chēng) AMD 正式發(fā)布 CDNA 4 架構(gòu),在保持在通用向量運(yùn)算領(lǐng)域的優(yōu)勢(shì)外,主要聚焦提升低精度數(shù)據(jù)類(lèi)型的矩陣乘法性能,以強(qiáng)化人工智能(AI)工作負(fù)載處理能力。
CDNA 4 延續(xù)了 CDNA 3 的模塊化設(shè)計(jì),采用類(lèi)似 CPU 的芯粒(chiplet)布局。每個(gè)計(jì)算芯片單元(XCD)搭載 CDNA 計(jì)算單元(CU),通過(guò)四塊基底芯片整合八塊 XCD,形成包含 256MB 內(nèi)存?zhèn)染彺娴耐暾?GPU 架構(gòu)。
與 CDNA 3 的 MI300X 相比,CDNA 4 的 MI355X 通過(guò)減少單 XCD 的 CU 數(shù)量并關(guān)閉部分單元以提升良率,但憑借更高時(shí)鐘頻率縮小了性能差距。
在低精度矩陣運(yùn)算這個(gè) AI 關(guān)鍵指標(biāo)中,CDNA 4 的每 CU 矩陣吞吐量翻倍,其 FP6 精度性能與英偉達(dá) B200 的流式多處理器(SM)持平。
但在 8 位與 16 位數(shù)據(jù)類(lèi)型中,英偉達(dá)仍保持單周期吞吐量?jī)?yōu)勢(shì)。然而,AMD 憑借更高的 CU 數(shù)量與頻率,維持了通用向量運(yùn)算(如 FP32)的絕對(duì)領(lǐng)先,單 CU 仍提供 128 條 FP32 運(yùn)算管線,整體性能遠(yuǎn)超英偉達(dá) Blackwell 架構(gòu)。
CDNA 4 的核心改進(jìn)之一是提升本地?cái)?shù)據(jù)共享(LDS)的容量與帶寬。LDS 容量從 64KB 增至 160KB,讀取帶寬翻倍至每周期 256 字節(jié),并新增“轉(zhuǎn)置讀取”指令,優(yōu)化矩陣乘法的內(nèi)存訪問(wèn)效率。
盡管英偉達(dá)的共享內(nèi)存(Shared Memory)在單核容量與緩存靈活性上更優(yōu)(最高 228KB 可分配為共享內(nèi)存或 L1 緩存),但 AMD 通過(guò) 40MB 全 GPU LDS 容量(B200 僅約 33MB)彌補(bǔ)了核心級(jí)存儲(chǔ)的不足。
顯存方面,MI355X 升級(jí)至 HBM3E 技術(shù),總帶寬達(dá) 8TB/s,容量 288GB,顯著超越英偉達(dá) B200 的 7.7TB/s 與 180GB。這一優(yōu)勢(shì)在大數(shù)據(jù)量運(yùn)算中尤為重要,尤其當(dāng) AI 模型超出顯存容量時(shí),AMD 的架構(gòu)可減少數(shù)據(jù)交換延遲。
該媒體認(rèn)為 AMD 的 CDNA 4 延續(xù)了 CDNA 3 的“保守進(jìn)化”路線,類(lèi)似 Zen 3 到 Zen 4 的迭代邏輯,通過(guò)優(yōu)化而非顛覆性創(chuàng)新鞏固優(yōu)勢(shì)。其策略聚焦于擴(kuò)大計(jì)算規(guī)模與顯存帶寬,同時(shí)針對(duì)性補(bǔ)足 AI 短板。
該媒體認(rèn)為在提升性能方面,AMD 和英偉達(dá)的路徑差異顯著:AMD 依賴(lài)“大芯片 + 大緩存”模式,而英偉達(dá)更注重顯存帶寬與單核效率。