97久久精品伊人,少妇大叫太大太爽受不了

TPU芯片：國內(nèi)面對AI大模型的另一種解法

日期： 2024-07-24

來源：電子工程世界

關(guān)鍵詞： TPU芯片 AI大模型

自從 AI 大模型來了，英偉達喝湯喝到撐，GPU 自然也就成了香餑餑。但在地緣政治局勢愈發(fā)緊張的現(xiàn)如今，國內(nèi)高端 AI 芯片不斷被圍追堵截。

就比如，7 月 22 日就出現(xiàn)了戲劇性的一幕，英偉達出現(xiàn)一正一反的消息：一方面，美政府正考慮新的貿(mào)易限制，阻止英偉達向中國市場推出 " 特供版 "HGX-H20 AI GPU，如果限制正式實施，英偉達可能會損失約 120 億美元的收入；另一方面，英偉達正在為中國市場打造全新的特供版 GPU，以剛推出的 "Blackwell" 為基礎(chǔ)打造 B20。

可以說，美國方面的態(tài)度非常鮮明，就是要全面圍堵中國獲取高端 AI 芯片的渠道，以此占領(lǐng) AI 領(lǐng)域的高地。

在這種情況下，國內(nèi)又該如何應(yīng)對？最近一段時間內(nèi)，國內(nèi)開始瞄準 TPU（張量處理單元），另辟蹊徑。

國內(nèi)也有廠商做 TPU 了

眾所周知，AI 大模型主要分為兩個階段，一是訓(xùn)練，二是推理。

推理芯片常見，而訓(xùn)練芯片不常見，這是因為訓(xùn)練不僅消耗巨大的算力資源，同時需要處理大量的并行任務(wù)，所以 GPU 才會成為當(dāng)前的主流。

TPU 全稱 Tensor Processing Unit，是一種專為處理張量運算而設(shè)計的 ASIC 芯片，由谷歌自研在 2016 年推出首款產(chǎn)品。在深度學(xué)習(xí)的世界里，張量（多維數(shù)組）是無處不在的。TPU 就是為了高效處理這些張量運算而誕生的。

TPU 內(nèi)置大量矩陣運算單元，使得其能夠并行處理大量的矩陣運算，大大提高計算效率。

不過相比 GPU 或者說 GPGPU，TPU 太專用了，但是應(yīng)付 AI 訓(xùn)練還是綽綽有余。

簡單粗暴對比起來就是：TPU 與同期的 CPU 和 GPU 相比，可以提供 15～30 倍的性能提升，以及 30～80 倍的效率（性能 / 瓦特）提升。

早在 2018 年，就有一家 AGM Micro 國內(nèi)公司提供 TPU 推理技術(shù)授權(quán)，不過，后來這家公司基本不怎么發(fā)布關(guān)于 TPU 相關(guān)的消息了。

而最近，一家名為中昊芯英的國產(chǎn)公司，就展出了其首枚高性能 TPU（張量處理器）AI 訓(xùn)練芯片。

據(jù)了解，中昊芯英 TPU" 剎那 " 于去年成功量產(chǎn)，已在全國多地千卡集群規(guī)模的智算中心交付落地。該芯片以 1024 片芯片高速片間互聯(lián)的能力構(gòu)建了大規(guī)模智算集群 " 泰則 "，系統(tǒng)集群性能遠超傳統(tǒng) GPU 數(shù)十倍，可支撐超千億參數(shù) AIGC 大模型訓(xùn)練與推理。

公開資料顯示，中昊芯英創(chuàng)始人楊龔軼凡曾在谷歌作為芯片研發(fā)核心人員，深度參與了谷歌 TPU 2/3/4 的設(shè)計與研發(fā)，在他看來，TPU 是為 AI 大模型而生的優(yōu)勢架構(gòu)。

碳納米管和 TPU，牽手了

昨日，也傳出另一個與 TPU 相關(guān)的消息。

消息顯示，北京大學(xué)電子學(xué)院碳基電子學(xué)研究中心的彭練矛 - 張志勇團隊，在下一代芯片技術(shù)領(lǐng)域取得突破，成功研發(fā)出世界首個基于碳納米管的張量處理器芯片（TPU）。

官方表示，高能效計算芯片的發(fā)展有兩個重大瓶頸：一是傳統(tǒng)馮諾依曼架構(gòu)已經(jīng)無法滿足高速、高帶寬的數(shù)據(jù)搬運和處理需求；二是構(gòu)建芯片的硅基互補金屬氧化物半導(dǎo)體晶體管，進入了尺寸縮減、功耗劇增的困境，亟需發(fā)展超薄、高載流子遷移率的半導(dǎo)體作為溝道材料。

而碳納米管具有優(yōu)異的電學(xué)特性和超薄結(jié)構(gòu)，碳納米管晶體管已經(jīng)展現(xiàn)出超越商用硅基晶體管的性能和功耗潛力。不過，為了最大化發(fā)揮芯片算力和能效，必須將新材料與器件結(jié)合，北大的這一個成果就主要圍繞這方面進行了研究。

作為世界首個碳納米管基的張量處理器（TPU）芯片，可實現(xiàn)高能效的卷積神經(jīng)網(wǎng)絡(luò)運算。省流版總結(jié)如下：

工藝：該芯片采用 2bit MAC（乘累加單元），3 微米工藝技術(shù)節(jié)點，集成 3000 個碳基晶體管，可實現(xiàn)圖像輪廓識別、提取等功能，圖像輪廓提取正確率達 100%；

架構(gòu)：該芯片采用脈動陣列架構(gòu)設(shè)計，可實現(xiàn)高效地數(shù)據(jù)復(fù)用，大大節(jié)約張量運算所需的數(shù)據(jù)存儲、搬運等操作，精準匹配了神經(jīng)網(wǎng)絡(luò)的運算特點；

識別率：其上搭建了 5 層卷積神經(jīng)網(wǎng)絡(luò)，實現(xiàn)手寫數(shù)字識別的應(yīng)用，理論正確率 90%，實際正確率可達 86%；

功耗：僅為 295μW，器件總數(shù)也為新型卷積加速硬件中的最低值；

實際應(yīng)用效果：該芯片可使用 180 nm 碳基技術(shù)進行流片加工，仿真結(jié)果表示，碳基神經(jīng)網(wǎng)絡(luò)加速芯片可在 1 V 電壓下工作，可運行的最高主頻為 850 MHz，能效可以達到 1TOPS/w。

" 群毆 " 英偉達

相比其它 AI 芯片來說，TPU 的關(guān)注度的確高很多。今年 6 月，就有消息稱，生成式 AI 技術(shù)大廠 OpenAI 為了自研 AI 芯片，新招募的研究人員幾乎為谷歌 TPU 團隊的前員工?？梢哉f，在大規(guī)模訓(xùn)練和推理上，TPU 是相對成熟的方案。

作為 TPU 的發(fā)明者，谷歌之所以推出 TPU，其目標便是為企業(yè)提供 Nvidia GPU 的替代品。前陣子的 Google I/O 2024 上，谷歌推出第六代 TPU，性能有顯著提升。

與 TPU v5e 相比，Trillium TPU 峰值計算性能提高了 4.7 倍。為了實現(xiàn)更高的性能，谷歌投入了大量精力擴展執(zhí)行計算的矩陣乘法單元或 MXU 的大小，并提高了其整體時鐘速度。此外，Trillium GPU 的高帶寬內(nèi)存容量和帶寬是原來的兩倍，而芯片間互連帶寬也增加了一倍。

為了讓客戶更放心地替代英偉達，谷歌也在謀劃用 TPU 替換掉 GPU ——可能在今年底停止外部 AI 算力芯片的采購，轉(zhuǎn)而完全依賴自研的 TPU。谷歌的算力總量，結(jié)合自研 TPU 和先前的芯片采購，預(yù)計可達全球算力總量的 25%。

總之，現(xiàn)在的英偉達四面楚歌，誰都想取代他。隨著特供版接連被圍堵，國內(nèi)市場似乎對英偉達不買賬了，轉(zhuǎn)向采購國產(chǎn)芯片。但在 AI 芯片市場上，從來沒有什么穩(wěn)賺不賠，前兩天就有一家日本 AI 芯片廠商宣布解散?？梢詮拇丝闯觯琓PU 的立足之本，便是更好的能效比和軟件生態(tài)。在此方向上，國產(chǎn)在路上。

Magazine.Subscription.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

TPU芯片：國內(nèi)面對AI大模型的另一種解法

日期： 2024-07-24

來源：電子工程世界

相關(guān)內(nèi)容