邊緣AI廣泛應(yīng)用推動并行計算崛起及創(chuàng)新GPU滲透率快速提升
2025-06-11
作者:Imagination Technologies 產(chǎn)品管理副總裁 Dennis Laudick
來源:Imagination Technologies
Imagination Technologies 產(chǎn)品管理副總裁 Dennis Laudick
人工智能(AI)在邊緣計算領(lǐng)域正經(jīng)歷著突飛猛進(jìn)的高速發(fā)展,根據(jù)IDC的最新數(shù)據(jù),全球邊緣計算支出將從2024年的2280億美元快速增長到2028年的3780億美元*。這種需求的增長速度,以及在智能制造、智慧城市等數(shù)十個行業(yè)中越來越多的應(yīng)用場景中出現(xiàn)的滲透率快速提升,也為執(zhí)行計算任務(wù)的硬件設(shè)計以及面對多樣化場景的模型迭代的速度帶來了挑戰(zhàn)。
AI不僅是一項技術(shù)突破,它更是軟件編寫、理解和執(zhí)行方式的一次永久性變革。傳統(tǒng)的軟件開發(fā)基于確定性邏輯和大多是順序執(zhí)行的流程,而如今這一范式正在讓位于概率模型、訓(xùn)練行為以及數(shù)據(jù)驅(qū)動的計算。這并不是一時的潮流。AI 代表了計算機(jī)科學(xué)的一次根本性、不可逆的轉(zhuǎn)變 —— 從基于規(guī)則的編程,邁向自適應(yīng)的、基于學(xué)習(xí)的系統(tǒng),這些系統(tǒng)正逐步被集成到越來越廣泛的計算問題與能力中。
這一轉(zhuǎn)變也對硬件提出了相應(yīng)的變革需求。在AI架構(gòu)和算法不斷演進(jìn)(并將持續(xù)演進(jìn))的時代,為狹窄定義任務(wù)而打造的高度專用芯片的舊模式已不再適用。為了滿足不斷變化的AI需求(尤其是在邊緣側(cè)),我們需要具備與工作負(fù)載同樣動態(tài)、適應(yīng)能力強的計算平臺。
這正是通用并行處理器(即GPU)成為邊緣AI未來的關(guān)鍵所在,并開始取代專門的處理器,如神經(jīng)網(wǎng)絡(luò)處理器(NPU)。這不僅僅是性能上的考量——它關(guān)乎靈活性、可擴(kuò)展性,以及與未來軟件發(fā)展趨勢的同步。
Makimoto波動理論與“靈活性”的回歸
要理解這一轉(zhuǎn)變,我們只需回顧“Makimoto波動理論”:這是由日本工程師牧本次雄(Tsugio Makimoto)提出的一個概念,描述了計算產(chǎn)業(yè)在不同階段不斷在“標(biāo)準(zhǔn)化”與“定制化”之間擺動的趨勢,其背后是市場需求、技術(shù)創(chuàng)新和軟件復(fù)雜性等因素的持續(xù)變化。
(Makimoto 波動理論展現(xiàn)了計算產(chǎn)業(yè)在“靈活性”與“專用性”之間的歷史擺動。而當(dāng)前AI的發(fā)展軌跡,標(biāo)志著計算正再次呈現(xiàn)出在“靈活性”和“通用平臺”之間的擺動。)
這一模型與AI硬件的演變過程高度契合。在AI發(fā)展的早期階段,工作負(fù)載較為明確且穩(wěn)定,此時采用NPU等固定功能加速器是合理的。這類處理器對特定任務(wù)(例如使用CNN進(jìn)行圖像分類或目標(biāo)檢測)進(jìn)行了深度優(yōu)化。
但如今AI已進(jìn)入高速演進(jìn)階段。我們已走出簡單、靜態(tài)模型的時代,邁入混合網(wǎng)絡(luò)、Transformer架構(gòu)、基礎(chǔ)模型和持續(xù)創(chuàng)新的浪潮之中。為去年AI打造的定制硬件,根本無法跟上當(dāng)今的發(fā)展節(jié)奏。
正如我們在本文一開始所介紹的那樣,當(dāng)一個行業(yè)不得不去面對超高的增長率,以及每天都在不斷出現(xiàn)的新應(yīng)用場景和為此而快速迭代的模型,使我們再次站在了“Makimoto拐點”上 —— 從專用硬件,回歸到可擴(kuò)展、可適配的通用計算平臺。
AI是一個并行計算問題,而非專用計算問題
AI的本質(zhì)在于并行計算。深度學(xué)習(xí)嚴(yán)重依賴并發(fā)操作 —— 矩陣運算、張量乘法、向量計算 —— 這些正是GPU天生擅長的工作負(fù)載。能夠同時渲染數(shù)百萬像素的架構(gòu),如今正好可以處理數(shù)百萬神經(jīng)元的激活。
如今的通用GPU早已不僅僅用于圖形處理。它們擁有可編程管線、計算著色器,以及日益增強的AI中心化設(shè)計,不僅能加速傳統(tǒng)負(fù)載,也能支持新興的AI工作負(fù)載,是邊緣AI中強大而靈活的計算引擎。
相比之下,像NPU這樣的專用處理器則難以應(yīng)對持續(xù)的變革。它們對特定操作進(jìn)行了優(yōu)化,而當(dāng)AI領(lǐng)域快速演進(jìn)時,這些芯片便迅速被淘汰。顯然,面對這種全新的軟件范式,我們需要的是一種通用的、并行的、靈活的硬件平臺 —— GPU。
為什么通用平臺在邊緣側(cè)更具優(yōu)勢
邊緣AI不僅需要性能,更需要適應(yīng)性、可重用性與較長的生命周期;隨著AI處理器的設(shè)計越來越復(fù)雜,且隨著市場規(guī)模的擴(kuò)大會吸引更多的玩家,大家都爭相采用更先進(jìn)的工藝來實現(xiàn)性價比和功耗的優(yōu)化,以及在生態(tài)建設(shè)方面的大量花費,使得每個芯片項目的投入正變得越來越高。針對這些技術(shù)經(jīng)濟(jì)學(xué)挑戰(zhàn),現(xiàn)代GPU等通用并行處理器在這幾個方面均具備明顯優(yōu)勢:
靈活性:可編程,能夠支持新的模型類型而無需更換硬件;
可擴(kuò)展性:可適配從物聯(lián)網(wǎng)(IoT)傳感器到智能攝像頭再到自動駕駛汽車等各種邊緣設(shè)備;
軟件生態(tài)成熟:擁有豐富的開源工具與開發(fā)標(biāo)準(zhǔn)(如OpenCL、LiteRT和TVM);
可持續(xù)性:延長產(chǎn)品生命周期,減少不斷重新設(shè)計芯片的需求。
簡而言之,GPU的通用并行計算從架構(gòu)層面就為AI的持續(xù)演進(jìn)而設(shè)計。而GPU領(lǐng)域內(nèi)的本身創(chuàng)新也在快速驗證這一趨勢,例如Imagination在不久前發(fā)布的E系列GPU就具有突破性的高效并行處理架構(gòu),在提供卓越圖形性能的同時,針對人工智能工作負(fù)載,其 INT8/FP8 算力可在 2 到 200 TOPS 之間擴(kuò)展。
展望未來
盡管有越來越多的證據(jù)說明GPU具備的優(yōu)勢,市場仍然習(xí)慣將AI加速與NPU或定制芯片劃等號。但正如圖形行業(yè)早年發(fā)現(xiàn),固定功能的圖形管線無法跟上游戲創(chuàng)新的節(jié)奏;如今AI行業(yè)也發(fā)現(xiàn):固定硬件無法匹配快速變化的軟件需求。
是時候重新教育整個生態(tài)了。邊緣AI的未來不屬于那些高度優(yōu)化但功能狹窄的芯片,而是屬于可編程的、可適配的并行計算平臺,它們能與智能軟件共同成長并擴(kuò)展。諸如Imagination全新的E系列GPU,它為未來的邊緣應(yīng)用提供
了一種通用且可編程的解決方案,涵蓋圖形渲染、桌面和智能手機(jī)等領(lǐng)域,可實現(xiàn)自然語言處理、工業(yè)計算機(jī)視覺以及自動駕駛等應(yīng)用。
幾十年前,Makimoto就洞察了這一趨勢。如今,我們正在親身經(jīng)歷他的遠(yuǎn)見 —— 順應(yīng)著通用性和靈活性的浪潮前行。GPU 不再是追趕者,它已處于領(lǐng)先位置。