《電子技術應用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > 英偉達AI芯片故障引發(fā)微軟等客戶砍單

英偉達AI芯片故障引發(fā)微軟等客戶砍單

股價一度重挫近5%
2025-01-14
來源:網易科技

美東時間1月13日周一,據《The Information》報道,英偉達最新一代人工智能芯片Blackwell在部署至數(shù)據中心時遇到了技術問題,主要包括服務器機架過熱和芯片連接異常。

這些問題對數(shù)據中心的部署進程造成阻礙,英偉達多家客戶(包括微軟、亞馬遜旗下AWS、谷歌、Meta)最近砍掉了部分Blackwell GB200機架的訂單。

因延遲交付,微軟原本計劃安裝大量GB200的鳳凰城數(shù)據中心現(xiàn)在已經裝滿了H200芯片。有消息人士透露,如果英偉達無法解決這些問題,其性能可能會低于公司承諾的水平。

消息公布后,英偉達美股早盤一度跌超4.7%。


主要客戶削減訂單,尋求替代方案

Blackwell芯片以其卓越性能和高能效廣受期待。與上一代產品Hopper相比,Blackwell的能源效率提高了四倍,吸引了微軟、亞馬遜、谷歌和Meta等科技巨頭。每家公司為此下達了價值逾100億美元的訂單。

然而,將多個高功耗芯片集成到一個服務器機架中比預期更具挑戰(zhàn)。每個Blackwell機架比家用冰箱還高,重量接近一輛本田思域汽車。由于計算密度極高,機架必須采用水冷系統(tǒng),而非傳統(tǒng)的風冷系統(tǒng)。對于多數(shù)AI開發(fā)商和數(shù)據中心運營商而言,部署這種特殊機架是全新且復雜的任務。此外,并非所有數(shù)據中心都能滿足這些機架的環(huán)境需求,客戶必須重新規(guī)劃部署方案。

因過熱和連接問題,部分客戶削減了Blackwell GB200機架的訂單。例如,有客戶選擇等待可能在今年下半年推出的改進版本,另一些則計劃采購英偉達的舊款AI芯片作為替代方案。雖然英偉達推薦整機架方案,但部分客戶可能改為單獨購買Blackwell芯片以便自行組裝。

盡管面臨挑戰(zhàn),英偉達仍有機會挽回局面。如果能夠及時解決這些技術問題,客戶或許會重新增加訂單。此外,盡管機架存在問題,Blackwell芯片的性能仍然優(yōu)于上一代產品,英偉達可能會為問題機架找到其他買家。

英偉達去年11月曾預測,新一代AI芯片Blackwell將在今年第一季度為公司帶來數(shù)十億美元的收入,并助推其全年數(shù)據中心芯片收入從475億美元增長至1500億美元。Blackwell芯片的高能效本是吸引云服務提供商的關鍵因素,這些供應商希望在固定能源條件下實現(xiàn)更高的計算效率。

芯片延遲影響數(shù)據中心部署計劃

據知情人士透露,作為OpenAI的服務器提供商,微軟原計劃在其鳳凰城的一個設施中安裝至少包含5萬枚Blackwell芯片的GB200機架。然而,由于Blackwell芯片從去年開始延遲交付,OpenAI要求微軟盡早為其提供上一代英偉達H200芯片。這一變化導致原本計劃安裝大量GB200的鳳凰城數(shù)據中心現(xiàn)在已經裝滿了H200芯片。

據知情人士透露,微軟現(xiàn)在計劃在今年3月在鳳凰城的一個設施中安裝包含12000枚Blackwell芯片的GB200機架,這一數(shù)量約為最初計劃的四分之一。另一位與微軟合作的人士表示,該公司還計劃在今年晚些時候GB300 Blackwell機架上市時進行采購。

英偉達原本計劃在去年年底開始向客戶交付Blackwell機架,但由于芯片設計缺陷導致初期延遲了三個月。盡管英偉達已經修復了這一問題,但到11月份時,客戶開始擔心機架的過熱問題。為此,英偉達多次要求供應商更改設計。

然而,問題并未得到完全解決。據參與機架測試的三位人士透露,客戶還發(fā)現(xiàn)芯片之間數(shù)據傳輸(即網絡)存在不一致的情況。這些問題可能導致Blackwell機架的設置時間比預期更長,如果英偉達無法解決這些問題,其性能可能會低于公司承諾的水平。


Magazine.Subscription.jpg

本站內容除特別聲明的原創(chuàng)文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。