《電子技術(shù)應用》
您所在的位置:首頁 > 模擬設計 > 業(yè)界動態(tài) > 進駐物聯(lián)網(wǎng)終端 人工智能應用可能性無限

進駐物聯(lián)網(wǎng)終端 人工智能應用可能性無限

2017-06-20
關(guān)鍵詞: 索思 人工智能 處理器 芯片

人工智能終端應用的可能性無限,舉凡智能型手機、汽車、照明等,都有機會成為所謂的邊緣運算裝置。但在過去,運算處理器是在數(shù)據(jù)中心有較為明顯的需求。目前邊緣運算此一產(chǎn)業(yè)走向的大逆轉(zhuǎn),已可從各芯片供貨商,如GPU、CPU等,以及硅智財(IP)授權(quán)商紛紛針對人工智能展開布局,推出各自處理器縮小化的解決方案,明顯可見一斑。

隨著人工智能的發(fā)展,有越來越多應用產(chǎn)品開始在終端上進行實時運算,也就是所謂的邊緣運算。不過,目前的處理器核心對許多終端裝置來說,功耗仍嫌偏高。

AIoT浪潮興起 小型處理器核心滿足邊緣運算需求

索思未來(Socionext)戰(zhàn)略銷售組銷售部銷售項目總監(jiān)張育豪(圖1)表示,目前市場上主流的CPU或GPU核心規(guī)模很大,雖然運算效能很強,但功耗也高,而且不易針對應用進行客制化設計。 有鑒于此,Socionext采取用小型核心堆棧的設計架構(gòu),其好處在于從云到端都可以采用同樣的處理器核心,且也較容易針對個別應用進行客制化,例如將CPU核心跟圖像處理核心(VPU)整合在單芯片上。

圖1 Socionext戰(zhàn)略銷售組銷售部銷售項目總監(jiān)張育豪表示,VPU在圖像處理的功耗/性能比,遠勝過CPU跟GPU。

張育豪觀察,目前的人工智能應用大多與影像相關(guān),但不管是CPU或GPU,在進行影像運算時,功耗/性能比都不盡理想。這是因為CPU跟GPU原本就不是為了處理影像而設計的芯片。CPU的強項在于進行數(shù)據(jù)運算,而GPU則適合用來進行3D繪圖處理。 因此,用CPU或GPU來進行影像分析,其實效率不是太好。相較之下,專門為處理影像而設計的VPU,在圖像處理的功耗/性能比方面,是遠勝過CPU跟GPU的。

舉例來說,用CPU來對4K影像進行處理跟分析,功耗預算大概是230瓦左右;若用GPU來進行,功耗更可達到400?500瓦。 但如果是用Socionext的解決方案,一顆核心的功耗只有5瓦左右,就算串聯(lián)多顆核心,也會比CPU或GPU來得省電許多。因此,張育豪認為,在人工智能進駐各類終端裝置的趨勢下,如果是與影像分析有關(guān)的人工智能應用,VPU將有非常大的發(fā)展?jié)摿Α? Socionext本身擁有業(yè)界領(lǐng)先的VPU技術(shù),更是目前市場上唯一已經(jīng)有8K圖像處理芯片的芯片業(yè)者。

不管是針對大規(guī)模數(shù)據(jù)中心,或是在各種終端裝置上直接進行邊緣運算,功耗都是非常關(guān)鍵的考慮。功耗越高,則系統(tǒng)的散熱設計也越昂貴,不僅會增加終端裝置的生產(chǎn)制造成本,也會增加系統(tǒng)擁有者的總體持有成本(TCO)。

以數(shù)據(jù)中心為例,冷卻系統(tǒng)的電費是相當可觀的,如果處理器能更省電,空調(diào)冷卻的電費也可以隨之降低。其他形形色色的終端裝置也一樣,當芯片的功耗太高時,就得采用更大的散熱片,甚至用風扇來散熱,這些都會造成產(chǎn)品的生產(chǎn)成本跟總體持有成本增加。

單一叢集配置更彈性 DynamIQ推升大小核效率

針對小型處理器需求的增加,安謀國際(ARM)日前在處理器架構(gòu)上,也宣布了大幅度調(diào)整,也就是DynamIQ技術(shù)。 DynamIQ達成了上一代big.LITTLE架構(gòu)在單一運算叢集上無法實現(xiàn)的大小核彈性配置,對異質(zhì)運算及人工智能這類應用帶來相當明顯的效率提升。其將作為未來ARM Cortex-A系列處理器的基礎,亦同時代表了業(yè)界在多核處理程序設計上的新紀元。

ARM行動通訊暨數(shù)字家庭市場資深營銷經(jīng)理林修平(圖2)表示,DynamIQ可以說是ARM big. LITTLE的第二代硬件架構(gòu),其最主要的特點在于其可以在同一個叢集(Cluster)中同時擺放大小核,且電源(Power)與頻率(Clock)都可以單獨作管理。在第一代的大小核架構(gòu)中,一個叢集只能擺放大核或小核,因此在執(zhí)行轉(zhuǎn)換任務時,必須經(jīng)過快?。–ache)轉(zhuǎn)換。但在DynamIQ中,由于所有任務都將能在同個叢集中運作,在任務切換上,便會相對迅速很多。

圖2 ARM行動通訊暨數(shù)字家庭市場資深營銷經(jīng)理林修平表示,DynamIQ技術(shù)可在同一個叢集中同時擺放大小核。

林修平指出,由于人工智能所需要的運算量很大,同時需要很多矩陣乘法,透過DynamIQ的架構(gòu),將能做1+3、1+7、2+2+4等設計配置。在過去的big. LITTLE架構(gòu)中,由于一個叢集最多即是4核(大核(Big)4核,小核(LITTLE)4核),是沒有辦法做到1+7的。DynamIQ所帶來的多元變化SoC設計配置,將能幫助應用達到CPU優(yōu)化,進而讓效能與功耗能更往上提升。

DynamIQ的頻率可以單獨管理,也將帶來很大好處。 第一代的大小核,在同一個叢集當中,頻率是統(tǒng)一的,但DynamIQ可以讓同一叢集中的不同核心,依據(jù)運算需求在不同的頻率下運作。

此外,林修平也表示,DynamIQ還可連接外部的硬件加速器。 以人工智能來說,不同應用會有不同的軟硬件加速需求,例如加速器、DSP、CPU、GPU等,像是在高階智能型手機上,可能會放置加速器,來使其表現(xiàn)度達到最好、功耗達到最低,不過這也會增加集成電路的成本。 因此,若是比較大眾化的產(chǎn)品,則可能會利用系統(tǒng)上現(xiàn)有的CPU、GPU,來滿足人工智能的需要。

GPU模型推論效能升級 邊緣運算裝置AI能力更強大

然而,隨著各種邊緣運算裝置上所內(nèi)建的人工智能(AI)能力變得更加強大,GPU模型的推論效能也必須隨之提升。 輝達(NVIDIA)旗下軟件目前已可協(xié)助客戶做8位與16位的神經(jīng)網(wǎng)絡運算優(yōu)化,不僅讓GPU模型的推論(Inference)更形完善,同時對硬件資源的需求也明顯降低,只需要一小塊電路板就能支持AI算法。

針對邊緣運算日益漸增的需求,NVIDIA近期推出了新款開發(fā)板Jetson TX2,將整套人工智能系統(tǒng)縮小在一塊電路板之上,為商用無人機、工業(yè)機械、智能型攝影設備等領(lǐng)域,提供進階的導航、影像與語音識別功能。相較前一代產(chǎn)品Jetson TX1,Jetson TX2的效能提升了兩倍,耗電量則不到7.5瓦,能源效率提升了兩倍多。 這讓Jetson TX2可在終端裝置上運行更大、更深的神經(jīng)網(wǎng)絡,進而開發(fā)出更高智能化的裝置,并提升影像分類、導航以及語音識別等作業(yè)的精準度與反應速度。

NVIDIA技術(shù)營銷經(jīng)理蘇家興(圖3)表示,對于訓練好的模型,NVIDIA也提供Tense RT軟件來協(xié)助客戶做模型優(yōu)化、縮小化,其支持整數(shù)8位與浮點數(shù)16位的運算。 目前的主流是以32位的運算去做訓練,該16位運算也就減少了一半,增加了一倍的效能,8位則增加了四倍的效能,因此在模型推論上能運作的更好。

圖3 NVIDIA技術(shù)營銷經(jīng)理蘇家興表示,以往在多GPU運算時,受限于PCIe的帶寬問題,HGX-1搭載了NVIDIA的8張GP 100的GPU,因此當深度學習在做訓練時,規(guī)模效果是相當好的。

AI算法日新月異 FPGA靈活特性優(yōu)勢顯著

即便目前人工智能(AI)算法日新月異,對嵌入式處理器的靈活性帶來許多挑戰(zhàn),這卻也讓以靈活彈性著稱的現(xiàn)場可編程門陣列(FPGA)組件有了很大的發(fā)揮空間。

賽靈思ISM營銷資深技術(shù)經(jīng)理羅霖(圖4)表示,由于人工智能目前還處于發(fā)展階段,算法日新月異,目前還沒有一個算法可以固定下來,這為特殊應用集成電路(ASIC)的設計帶來很大挑戰(zhàn),因客戶往往需要的是十分靈活的架構(gòu)。

圖4 賽靈思ISM營銷資深技術(shù)經(jīng)理羅霖表示,在賽靈思旗下的芯片產(chǎn)品中,有許多并行運算資源,很適合用于計算量、吞吐量大的卷積運算。

有鑒于此,賽靈思推出reVISION堆棧技術(shù),其具備了可重組以及所有形式鏈接的特性,讓開發(fā)者能充分運用堆棧技術(shù),快速研發(fā)與部署升級方案,這樣的特性對于開發(fā)未來需求的智能視覺系統(tǒng)是至關(guān)重要的的。 不僅如此,該技術(shù)也使開發(fā)者在結(jié)合機器學習、計算機視覺、傳感器融合與連接的應用時,能夠獲得顯著優(yōu)勢。 舉例而言,相較于其他嵌入式GPU與傳統(tǒng)SoC,reVISION將機器學習推論的每秒每瓦影像效能,提升了6倍、計算機視覺每秒每瓦每幀處理速度提升了42倍,而延遲卻只有五分之一。

羅霖分析,相較于同等級GPU技術(shù),F(xiàn)PGA在低延遲(Low Latency)的部分,本身就與傳統(tǒng)的架構(gòu)不同,傳統(tǒng)架構(gòu)是將收集到的數(shù)據(jù)送到DDR內(nèi)存中進行緩存,處理器要再從DDR中取出數(shù)據(jù)進行運算,運算完成后再送回DDR。 但FPGA則是采用像素流(Stream)的方式,直接可以到模擬進行運算,運算完成后,輸出結(jié)果即可,由于省去了存取DDR的時間,因此可以延遲可以降到非常低。

從算法的層面來看,人工智能含有許多智能決策的部分,因此需要有很強的平行運算能力。 這些算法進而對處理器結(jié)構(gòu)產(chǎn)生了不同的需求,像是在神經(jīng)網(wǎng)絡中,卷積運算強調(diào)的是平行運算,適合在FPGA上運行,但在傳感器融合的部分,則比較適合在CPU上運行,因其必須將硬件進行分割,再將不同的算法,放到處理器中。

羅霖指出,在脫機的神經(jīng)網(wǎng)絡訓練部分,GPU的確是比較有優(yōu)勢的,由于其要求的浮點運算性能特別高,因此不少深度學習都是采用GPU,而賽靈思的立場是不會以FPGA去進攻這塊市場,不過若是以在線的任務來看,F(xiàn)PGA還是很有優(yōu)勢的。 目前邊緣運算對嵌入式處理器的要求除了傳感器的接口要夠多,組件的I/O型態(tài)也十分多變,可能是高速率、中速率或低速率,這些處理器都要能支持,且在線處理的能力也相當關(guān)鍵。

蘇家興則表示,無論是軟件還是硬件公司,都須要對訓練好的深度學習模型進行優(yōu)化,除了邊緣設備會采用縮小化的模型,在服務器與數(shù)據(jù)中心端,也會有某些情境需要采用這些優(yōu)化過的模型去做推論。 舉例而言,F(xiàn)acebook、百度在做語音識別的推論時,若能透過優(yōu)化的模型讓運作更快,勢必能讓消耗的功耗越少。

不過,并不是所有的應用都適合做前端邊緣運算。 以AlphaGo來看,其是以32臺服務器在做運算,因AlphaGo運算量非常大,所以就不太可能進行邊緣運算,因1臺服務器與32臺服務器運算的精準度,絕對是有差異的。 若以語音識別來看,即便可以同時采用在線與脫機的方式進行,但精準度也勢必會有落差。

蘇家興指出,應用開發(fā)商須盡快分辨出哪些運算任務適合采用邊緣運算,哪些部分還是得留在服務器端執(zhí)行。 舉例來說,當無人機飛到有些沒有網(wǎng)絡的地方,便必須運用邊緣運算,設計出可承載范圍內(nèi)的推論。 NVIDIA相信,未來數(shù)據(jù)中心與邊緣運算將會并存,但在瞄準的應用上必定會有所不同。

GPU模型推論效能升級 邊緣運算裝置AI能力更強大

然而,隨著各種邊緣運算裝置上所內(nèi)建的人工智能(AI)能力變得更加強大,GPU模型的推論效能也必須隨之提升。 輝達(NVIDIA)旗下軟件目前已可協(xié)助客戶做8位與16位的神經(jīng)網(wǎng)絡運算優(yōu)化,不僅讓GPU模型的推論(Inference)更形完善,同時對硬件資源的需求也明顯降低,只需要一小塊電路板就能支持AI算法。

針對邊緣運算日益漸增的需求,NVIDIA近期推出了新款開發(fā)板Jetson TX2,將整套人工智能系統(tǒng)縮小在一塊電路板之上,為商用無人機、工業(yè)機械、智能型攝影設備等領(lǐng)域,提供進階的導航、影像與語音識別功能。相較前一代產(chǎn)品Jetson TX1,Jetson TX2的效能提升了兩倍,耗電量則不到7.5瓦,能源效率提升了兩倍多。 這讓Jetson TX2可在終端裝置上運行更大、更深的神經(jīng)網(wǎng)絡,進而開發(fā)出更高智能化的裝置,并提升影像分類、導航以及語音識別等作業(yè)的精準度與反應速度。

NVIDIA技術(shù)營銷經(jīng)理蘇家興(圖3)表示,對于訓練好的模型,NVIDIA也提供Tense RT軟件來協(xié)助客戶做模型優(yōu)化、縮小化,其支持整數(shù)8位與浮點數(shù)16位的運算。 目前的主流是以32位的運算去做訓練,該16位運算也就減少了一半,增加了一倍的效能,8位則增加了四倍的效能,因此在模型推論上能運作的更好。

圖3 NVIDIA技術(shù)營銷經(jīng)理蘇家興表示,以往在多GPU運算時,受限于PCIe的帶寬問題,HGX-1搭載了NVIDIA的8張GP 100的GPU,因此當深度學習在做訓練時,規(guī)模效果是相當好的。

AI算法日新月異 FPGA靈活特性優(yōu)勢顯著

即便目前人工智能(AI)算法日新月異,對嵌入式處理器的靈活性帶來許多挑戰(zhàn),這卻也讓以靈活彈性著稱的現(xiàn)場可編程門陣列(FPGA)組件有了很大的發(fā)揮空間。

賽靈思ISM營銷資深技術(shù)經(jīng)理羅霖(圖4)表示,由于人工智能目前還處于發(fā)展階段,算法日新月異,目前還沒有一個算法可以固定下來,這為特殊應用集成電路(ASIC)的設計帶來很大挑戰(zhàn),因客戶往往需要的是十分靈活的架構(gòu)。

圖4 賽靈思ISM營銷資深技術(shù)經(jīng)理羅霖表示,在賽靈思旗下的芯片產(chǎn)品中,有許多并行運算資源,很適合用于計算量、吞吐量大的卷積運算。

有鑒于此,賽靈思推出reVISION堆棧技術(shù),其具備了可重組以及所有形式鏈接的特性,讓開發(fā)者能充分運用堆棧技術(shù),快速研發(fā)與部署升級方案,這樣的特性對于開發(fā)未來需求的智能視覺系統(tǒng)是至關(guān)重要的的。 不僅如此,該技術(shù)也使開發(fā)者在結(jié)合機器學習、計算機視覺、傳感器融合與連接的應用時,能夠獲得顯著優(yōu)勢。 舉例而言,相較于其他嵌入式GPU與傳統(tǒng)SoC,reVISION將機器學習推論的每秒每瓦影像效能,提升了6倍、計算機視覺每秒每瓦每幀處理速度提升了42倍,而延遲卻只有五分之一。

羅霖分析,相較于同等級GPU技術(shù),F(xiàn)PGA在低延遲(Low Latency)的部分,本身就與傳統(tǒng)的架構(gòu)不同,傳統(tǒng)架構(gòu)是將收集到的數(shù)據(jù)送到DDR內(nèi)存中進行緩存,處理器要再從DDR中取出數(shù)據(jù)進行運算,運算完成后再送回DDR。 但FPGA則是采用像素流(Stream)的方式,直接可以到模擬進行運算,運算完成后,輸出結(jié)果即可,由于省去了存取DDR的時間,因此可以延遲可以降到非常低。

從算法的層面來看,人工智能含有許多智能決策的部分,因此需要有很強的平行運算能力。 這些算法進而對處理器結(jié)構(gòu)產(chǎn)生了不同的需求,像是在神經(jīng)網(wǎng)絡中,卷積運算強調(diào)的是平行運算,適合在FPGA上運行,但在傳感器融合的部分,則比較適合在CPU上運行,因其必須將硬件進行分割,再將不同的算法,放到處理器中。

羅霖指出,在脫機的神經(jīng)網(wǎng)絡訓練部分,GPU的確是比較有優(yōu)勢的,由于其要求的浮點運算性能特別高,因此不少深度學習都是采用GPU,而賽靈思的立場是不會以FPGA去進攻這塊市場,不過若是以在線的任務來看,F(xiàn)PGA還是很有優(yōu)勢的。 目前邊緣運算對嵌入式處理器的要求除了傳感器的接口要夠多,組件的I/O型態(tài)也十分多變,可能是高速率、中速率或低速率,這些處理器都要能支持,且在線處理的能力也相當關(guān)鍵。

蘇家興則表示,無論是軟件還是硬件公司,都須要對訓練好的深度學習模型進行優(yōu)化,除了邊緣設備會采用縮小化的模型,在服務器與數(shù)據(jù)中心端,也會有某些情境需要采用這些優(yōu)化過的模型去做推論。 舉例而言,F(xiàn)acebook、百度在做語音識別的推論時,若能透過優(yōu)化的模型讓運作更快,勢必能讓消耗的功耗越少。

不過,并不是所有的應用都適合做前端邊緣運算。 以AlphaGo來看,其是以32臺服務器在做運算,因AlphaGo運算量非常大,所以就不太可能進行邊緣運算,因1臺服務器與32臺服務器運算的精準度,絕對是有差異的。 若以語音識別來看,即便可以同時采用在線與脫機的方式進行,但精準度也勢必會有落差。

蘇家興指出,應用開發(fā)商須盡快分辨出哪些運算任務適合采用邊緣運算,哪些部分還是得留在服務器端執(zhí)行。 舉例來說,當無人機飛到有些沒有網(wǎng)絡的地方,便必須運用邊緣運算,設計出可承載范圍內(nèi)的推論。 NVIDIA相信,未來數(shù)據(jù)中心與邊緣運算將會并存,但在瞄準的應用上必定會有所不同。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。