麻豆╳╳╳乱女另类,日韩中文在线卡通动漫,心海ちゃんが部下を腿法APP

ChatGPT需要怎樣的芯片？

日期： 2023-02-14

作者：李飛

來(lái)源：半導(dǎo)體行業(yè)觀察

關(guān)鍵詞： ChatGPT 芯片生成類模型人工智能

　　最近，以ChatGPT為首的生成類模型已經(jīng)成為了人工智能的新熱點(diǎn)，硅谷的微軟、谷歌等都紛紛大舉投資此類技術(shù)（微軟100億美元入股ChatGPT背后的OpenAI，谷歌也于近日發(fā)布了自研的BARD模型），而在中國(guó)以百度等為代表的互聯(lián)網(wǎng)科技公司也紛紛表示正在研發(fā)此類技術(shù)并且將于近期上線。

　　以ChatGPT為代表的生成類模型有一個(gè)共同的特點(diǎn)，就是使用了海量數(shù)據(jù)做預(yù)訓(xùn)練，并且往往會(huì)搭配一個(gè)較為強(qiáng)大的語(yǔ)言模型。語(yǔ)言模型主要的功能是從海量的現(xiàn)有語(yǔ)料庫(kù)中進(jìn)行學(xué)習(xí)，在經(jīng)過(guò)學(xué)習(xí)之后可以理解用戶的語(yǔ)言指令，或者更進(jìn)一步根據(jù)用戶的指令去生成相關(guān)的文字輸出。

　　生成類模型大致可以分成兩大類，一類是語(yǔ)言類生成模型，另一類是圖像類生成模型。語(yǔ)言類生成模型以ChatGPT為代表，如前所述其語(yǔ)言模型不僅可以學(xué)習(xí)理解用戶指令的意義（例如，“寫(xiě)一首詩(shī)，李白風(fēng)格的”），而且在經(jīng)過(guò)海量數(shù)據(jù)訓(xùn)練之后，還能夠根據(jù)用戶的指令生成相關(guān)的文字（在上例中就是寫(xiě)一首李白風(fēng)格的詩(shī)）。這意味著ChatGPT需要有一個(gè)足夠大的語(yǔ)言模型（Large Language Model，LLM）來(lái)理解用戶的語(yǔ)言，并且能有高質(zhì)量的語(yǔ)言輸出——例如該模型必須能理解如何生成詩(shī)歌，如何生成李白風(fēng)格的詩(shī)歌等等。這也意味著語(yǔ)言類生成式人工智能中的大語(yǔ)言模型需要非常多的參數(shù)，才能完成這類復(fù)雜的學(xué)習(xí)并且記住如此多的信息。以ChatGPT為例，其參數(shù)量高達(dá)1750億（使用標(biāo)準(zhǔn)浮點(diǎn)數(shù)的話會(huì)占用700GB的存儲(chǔ)空間），其語(yǔ)言模型之“大”可見(jiàn)一斑。

　　另一類生成類模型是以擴(kuò)散模型（Diffusion）為代表的圖像類生成模型，典型的模型包括來(lái)自O(shè)penAI的Dalle，谷歌的ImaGen，以及目前最熱門(mén)的來(lái)自Runway AI的Stable Diffusion。這類圖像類生成模型同樣會(huì)使用一個(gè)語(yǔ)言模型來(lái)理解用戶的語(yǔ)言指令，之后根據(jù)這個(gè)指令來(lái)生成高質(zhì)量的圖像。與語(yǔ)言類生成模型不同的是，這里使用到的語(yǔ)言模型主要用語(yǔ)理解用戶輸入，而無(wú)需生成語(yǔ)言輸出，因此參數(shù)量可以小不少（在幾億數(shù)量級(jí)），而圖像的擴(kuò)散模型的參數(shù)量相對(duì)而言也不大，總體而言參數(shù)量大約在幾十億數(shù)量級(jí)，但是其計(jì)算量并不小，因?yàn)樯傻膱D像或者視頻的分辨率可以很高。

　　生成類模型通過(guò)海量數(shù)據(jù)訓(xùn)練，可以產(chǎn)生前所未有的高質(zhì)量輸出，目前已經(jīng)有了不少明確的應(yīng)用市場(chǎng)，包括搜索、對(duì)話機(jī)器人、圖像生成和編輯等等，未來(lái)可望會(huì)得到更多的應(yīng)用，這也對(duì)于相關(guān)的芯片提出了需求。

　　生成類模型對(duì)于芯片的需求

　　如前所述，以ChatGPT為代表生成類模型需要在海量的訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí)，才能實(shí)現(xiàn)高質(zhì)量的生成輸出。為了支持高效率訓(xùn)練和推理，生成類模型對(duì)于相關(guān)芯片也有自己的需求。

　　首先就是對(duì)于分布式計(jì)算的需求。ChatGPT這類語(yǔ)言類生成模型的參數(shù)量高達(dá)千億，幾乎不可能使用單機(jī)訓(xùn)練和推理，而必須大量使用分布式計(jì)算。在進(jìn)行分布式計(jì)算時(shí)，對(duì)于機(jī)器之間的數(shù)據(jù)互聯(lián)帶寬，以及計(jì)算芯片對(duì)于這類分布式計(jì)算（例如RDMA）就有了很大的需求，因?yàn)楹芏鄷r(shí)候任務(wù)的瓶頸可能并不在計(jì)算，而是在數(shù)據(jù)互聯(lián)上面，尤其是在此類大規(guī)模分布式計(jì)算中，芯片對(duì)于分布式計(jì)算的高效率支持更加成為了關(guān)鍵。

　　其次是內(nèi)存容量和帶寬。雖然對(duì)于語(yǔ)言類生成模型分布式訓(xùn)練和推理不可避免，但是每個(gè)芯片的本地內(nèi)存和帶寬也將很大程度上決定單個(gè)芯片的執(zhí)行效率（因?yàn)槊總€(gè)芯片的內(nèi)存都被使用到了極限）。對(duì)于圖像類生成模型來(lái)說(shuō)，可以把模型（20GB左右）都放在芯片的內(nèi)存中，但是隨著未來(lái)圖像生成類模型的進(jìn)一步演進(jìn)，它對(duì)于內(nèi)存的需求可能也會(huì)進(jìn)一步提升。在這個(gè)角度來(lái)看，以HBM為代表的超高帶寬內(nèi)存技術(shù)將會(huì)成為相關(guān)加速芯片的必然選擇，同時(shí)生成類模型也會(huì)加速HBM內(nèi)存進(jìn)一步增大容量和增大帶寬。除了HBM之外，CXL等新的存儲(chǔ)技術(shù)加上軟件的優(yōu)化也有將在這類應(yīng)用中增加本地存儲(chǔ)的容量和性能，估計(jì)會(huì)從生成類模型的崛起中獲得更多的工業(yè)界采用。

　　最后是計(jì)算，無(wú)論是語(yǔ)言類還是圖像類生成類模型的計(jì)算需求都很大，而圖像類生成模型隨著生成分辨率越來(lái)越高以及走向視頻應(yīng)用，對(duì)于算力的需求可能會(huì)大大提升——目前的主流圖像生成模型的計(jì)算量在20 TFlops左右，而隨著走向高分辨率和圖像，100-1000 TFLOPS的算力需求很有可能會(huì)是標(biāo)準(zhǔn)。

　　綜上所述，我們認(rèn)為生成類模型對(duì)于芯片的需求包括了分布式計(jì)算，存儲(chǔ)以及計(jì)算，可謂是涉及了芯片設(shè)計(jì)的方方面面，而更重要的是如何把這些需求都以合理的方法結(jié)合到一起來(lái)確保某一個(gè)單獨(dú)的方面不會(huì)成為瓶頸，這也將會(huì)成為一個(gè)芯片設(shè)計(jì)系統(tǒng)工程的問(wèn)題。

　　GPU和新AI芯片，誰(shuí)更有機(jī)會(huì)

　　生成式模型對(duì)于芯片有了新的需求，對(duì)于GPU（以Nvidia和AMD為代表）和新AI芯片（以Habana，GraphCore為代表），誰(shuí)更有機(jī)會(huì)能抓住這個(gè)新的需求和市場(chǎng)？

　　首先，從語(yǔ)言類生成模型來(lái)看，由于參數(shù)量巨大，需要很好的分布式計(jì)算支持，因此目前在這類生態(tài)上已經(jīng)有完整布局的GPU廠商更有優(yōu)勢(shì)。這是一個(gè)系統(tǒng)工程問(wèn)題，需要完整的軟件和硬件解決方案，而在這個(gè)方面，Nvidia已經(jīng)結(jié)合其GPU推出了Triton解決方案。Triton支持分布式訓(xùn)練和分布式推理，可以把一個(gè)模型分成多個(gè)部分到不同的GPU上去處理，從而解決參數(shù)量過(guò)大一個(gè)GPU的主存無(wú)法容納的問(wèn)題。未來(lái)無(wú)論是直接使用Triton，還是在Triton的基礎(chǔ)上做進(jìn)一步開(kāi)發(fā)，都是擁有完整生態(tài)的GPU更加方便一點(diǎn)。從計(jì)算上來(lái)看，由于語(yǔ)言類生成模型的主要計(jì)算就是矩陣計(jì)算，而矩陣計(jì)算本身就是GPU的強(qiáng)項(xiàng)，因此從這一點(diǎn)來(lái)看新的AI芯片相比GPU的優(yōu)勢(shì)并不明顯。

　　從圖像類生成模型來(lái)看，這類模型的參數(shù)量雖然也很大但是比語(yǔ)言類生成模型要小一到兩個(gè)數(shù)量級(jí)，此外其計(jì)算中還是會(huì)大量用到卷積計(jì)算，因此在推理應(yīng)用中，如果能做非常好的優(yōu)化的話，AI芯片可能有一定機(jī)會(huì)。這里的優(yōu)化包括大量的片上存儲(chǔ)來(lái)容納參數(shù)和中間計(jì)算結(jié)果，對(duì)于卷積以及矩陣運(yùn)算的高效支持等。

　　總體來(lái)說(shuō)，目前這一代AI芯片在設(shè)計(jì)的時(shí)候主要針對(duì)的是更小的模型（參數(shù)量在億級(jí)別，計(jì)算量在1TOPS級(jí)別），而生成模型的需求相對(duì)而言還是比原來(lái)的設(shè)計(jì)目標(biāo)要大不少。GPU在設(shè)計(jì)時(shí)以效率為代價(jià)換取了更高的靈活度，而AI芯片設(shè)計(jì)則是反其道而行之，追求目標(biāo)應(yīng)用的效率，因此我們認(rèn)為在未來(lái)一兩年內(nèi)，GPU仍將會(huì)在此類生成式模型加速中獨(dú)占鰲頭，但是隨著生成式模型設(shè)計(jì)更加穩(wěn)定，AI芯片設(shè)計(jì)有時(shí)間能追趕上生成式模型的迭代后，AI芯片有機(jī)會(huì)從效率的角度在生成式模型領(lǐng)域超越GPU。

敬請(qǐng)關(guān)注電子技術(shù)應(yīng)用2023年2月22日==>>商業(yè)航天研討會(huì)<<

微信圖片_20210517164139.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

ChatGPT需要怎樣的芯片？

日期： 2023-02-14

作者： 李飛

來(lái)源：半導(dǎo)體行業(yè)觀察

相關(guān)內(nèi)容

作者：李飛