當?shù)貢r間4月9日,谷歌公司在美國舉行了“Google Cloud Next 25”大會,正式發(fā)布了專為AI量身打造的第七代TPU(Tensor Processing Unit)加速器“Ironwood”,這是谷歌首款專為推理設計的TPU,可驅動思考型(thinking)和推理型(inferential)模型,單芯片峰值算力可達4,614 TFLOPs。
據(jù)介紹,Ironwood是谷歌首款在其張量核和矩陣數(shù)學單元中支持 FP8 計算的 TPU,此前谷歌的 TPU 僅支持用于推理的 INT8 格式和處理以及用于訓練的 BF16 格式和處理。Ironwood 芯片還擁有第三代 SparseCore 加速器,該加速器首次在 TPU v5p 中首次亮相,并在去年的 Trillium 芯片中得到了增強。SparseCore 芯片最初旨在加速推薦模型,這些模型利用嵌入來跨用戶類別進行推薦。Ironwood 芯片中的第三代 SparseCore 編碼了各種算法,以加速金融和科學計算,但具體細節(jié)未透露。
Ironwood還大幅增加高頻寬內存(HBM)容量,每顆芯片的HBM容量提高到了192GB,達到了Trillium的6倍,可處理更大型的模型和數(shù)據(jù)集運算,減少頻繁的數(shù)據(jù)傳輸需求,提升整體性能。同時,HBM帶寬也大幅提升,Ironwood單顆芯片的內存帶寬可達7.2Tbps,是Trillium的4.5倍。如此高速的帶寬可確保數(shù)據(jù)快速存取。
谷歌還強化了Ironwood芯片間互連(Inter-Chip Interconnect,ICI)帶寬,雙向傳輸提高至1.2Tbps,是Trillium的1.5倍,如此一來加速芯片間的通信,提升大型分布式訓練和推理的效率。
△Ironword 封裝包括計算芯片上方的中央小芯片,以及沿頂部邊緣的HBM上方的另外兩個小芯片。這些無疑是谷歌用于將 TPU 芯片電氣連接成 pod 的芯片間互連 (ICI) 的 I/O 芯片。更大的 TPU 聚合與谷歌的“Jupiter”光電路開關進一步捆綁在一起。
總體來看,得益于計算核心、HBM等多方面的提升,Ironword單芯片峰值算力可達4,614 TFLOPs,達到了上一代 Trillium的10倍。
▲近三代谷歌TPU產(chǎn)品比較
在提升性能的同時,谷歌還提升了“Ironwood”能效表現(xiàn)。據(jù)介紹,相比 2024年推出的第六代TPU “Trillium”,Ironwood的性能功耗比達到了Trillium的2倍。Ironwood 還可結合先進的液冷解決方案和芯片設計優(yōu)化,即使持續(xù)面對繁重AI工作負載,也能維持相比標準氣冷高出近2倍的性能。
Ironwood 根據(jù)客戶對AI工作負載的需求提供2種規(guī)模配置,分別是面向推理的256個計算引擎的版本、面向訓練的9,216個計算引擎的版本。
當擴展至每個Pod達到9,216顆晶片時,總運算能力可達42.5 Exaflops,是世界上最大的超級電腦El Capitan的24倍以上,El Capitan每個Pod僅提供1.7 Exaflops。由于Ironwood提供大規(guī)模運算能力,能夠支持最嚴苛的AI工作負載,例如用于訓練和推理、具備思考能力的超大型密集LLM或MoE。
Ironwood 還配備增強版的SparseCore,這是一種專門用于處理進階排序和推薦系統(tǒng)工作負載常見的超大規(guī)模嵌入加速器。此外,Google DeepMind 開發(fā)的機器學習執(zhí)行階段構架Pathways,可在多個TPU間達成高效的分布式運算。Google Cloud 上的Pathways讓客戶輕易超越單個Ironwood Pod的限制,將數(shù)十萬顆芯片組合在一起,快速推進AI發(fā)展。
AI芯片競爭激烈之際,英偉達仍處于領先地位,除谷歌外,亞馬遜和微軟等科技巨頭都在發(fā)展自家的解決方案,亞馬遜擁有AWS Trainium / Inferentia芯片以及Graviton處理器,微軟則有Maia 100、Cobalt 100芯片。現(xiàn)在Ironwood加入TPU陣容,有望繼續(xù)強化Google Cloud服務。