精品无码Ⅴ,一级床片45分钟的视频,在线播放成人毛片免费视

進(jìn)駐物聯(lián)網(wǎng)終端人工智能應(yīng)用可能性無(wú)限

日期： 2017-06-20

關(guān)鍵詞： 索思人工智能處理器芯片

人工智能終端應(yīng)用的可能性無(wú)限，舉凡智能型手機(jī)、汽車(chē)、照明等，都有機(jī)會(huì)成為所謂的邊緣運(yùn)算裝置。但在過(guò)去，運(yùn)算處理器是在數(shù)據(jù)中心有較為明顯的需求。目前邊緣運(yùn)算此一產(chǎn)業(yè)走向的大逆轉(zhuǎn)，已可從各芯片供貨商，如GPU、CPU等，以及硅智財(cái)（IP）授權(quán)商紛紛針對(duì)人工智能展開(kāi)布局，推出各自處理器縮小化的解決方案，明顯可見(jiàn)一斑。

隨著人工智能的發(fā)展，有越來(lái)越多應(yīng)用產(chǎn)品開(kāi)始在終端上進(jìn)行實(shí)時(shí)運(yùn)算，也就是所謂的邊緣運(yùn)算。不過(guò)，目前的處理器核心對(duì)許多終端裝置來(lái)說(shuō)，功耗仍嫌偏高。

AIoT浪潮興起小型處理器核心滿足邊緣運(yùn)算需求

索思未來(lái)（Socionext）戰(zhàn)略銷(xiāo)售組銷(xiāo)售部銷(xiāo)售項(xiàng)目總監(jiān)張育豪（圖1）表示，目前市場(chǎng)上主流的CPU或GPU核心規(guī)模很大，雖然運(yùn)算效能很強(qiáng)，但功耗也高，而且不易針對(duì)應(yīng)用進(jìn)行客制化設(shè)計(jì)。有鑒于此，Socionext采取用小型核心堆棧的設(shè)計(jì)架構(gòu)，其好處在于從云到端都可以采用同樣的處理器核心，且也較容易針對(duì)個(gè)別應(yīng)用進(jìn)行客制化，例如將CPU核心跟圖像處理核心（VPU）整合在單芯片上。

圖1 Socionext戰(zhàn)略銷(xiāo)售組銷(xiāo)售部銷(xiāo)售項(xiàng)目總監(jiān)張育豪表示，VPU在圖像處理的功耗/性能比，遠(yuǎn)勝過(guò)CPU跟GPU。

張育豪觀察，目前的人工智能應(yīng)用大多與影像相關(guān)，但不管是CPU或GPU，在進(jìn)行影像運(yùn)算時(shí)，功耗/性能比都不盡理想。這是因?yàn)镃PU跟GPU原本就不是為了處理影像而設(shè)計(jì)的芯片。CPU的強(qiáng)項(xiàng)在于進(jìn)行數(shù)據(jù)運(yùn)算，而GPU則適合用來(lái)進(jìn)行3D繪圖處理。因此，用CPU或GPU來(lái)進(jìn)行影像分析，其實(shí)效率不是太好。相較之下，專(zhuān)門(mén)為處理影像而設(shè)計(jì)的VPU，在圖像處理的功耗/性能比方面，是遠(yuǎn)勝過(guò)CPU跟GPU的。

舉例來(lái)說(shuō)，用CPU來(lái)對(duì)4K影像進(jìn)行處理跟分析，功耗預(yù)算大概是230瓦左右；若用GPU來(lái)進(jìn)行，功耗更可達(dá)到400?500瓦。但如果是用Socionext的解決方案，一顆核心的功耗只有5瓦左右，就算串聯(lián)多顆核心，也會(huì)比CPU或GPU來(lái)得省電許多。因此，張育豪認(rèn)為，在人工智能進(jìn)駐各類(lèi)終端裝置的趨勢(shì)下，如果是與影像分析有關(guān)的人工智能應(yīng)用，VPU將有非常大的發(fā)展?jié)摿Α? Socionext本身?yè)碛袠I(yè)界領(lǐng)先的VPU技術(shù)，更是目前市場(chǎng)上唯一已經(jīng)有8K圖像處理芯片的芯片業(yè)者。

不管是針對(duì)大規(guī)模數(shù)據(jù)中心，或是在各種終端裝置上直接進(jìn)行邊緣運(yùn)算，功耗都是非常關(guān)鍵的考慮。功耗越高，則系統(tǒng)的散熱設(shè)計(jì)也越昂貴，不僅會(huì)增加終端裝置的生產(chǎn)制造成本，也會(huì)增加系統(tǒng)擁有者的總體持有成本（TCO）。

以數(shù)據(jù)中心為例，冷卻系統(tǒng)的電費(fèi)是相當(dāng)可觀的，如果處理器能更省電，空調(diào)冷卻的電費(fèi)也可以隨之降低。其他形形色色的終端裝置也一樣，當(dāng)芯片的功耗太高時(shí)，就得采用更大的散熱片，甚至用風(fēng)扇來(lái)散熱，這些都會(huì)造成產(chǎn)品的生產(chǎn)成本跟總體持有成本增加。

單一叢集配置更彈性 DynamIQ推升大小核效率

針對(duì)小型處理器需求的增加，安謀國(guó)際（ARM）日前在處理器架構(gòu)上，也宣布了大幅度調(diào)整，也就是DynamIQ技術(shù)。 DynamIQ達(dá)成了上一代big.LITTLE架構(gòu)在單一運(yùn)算叢集上無(wú)法實(shí)現(xiàn)的大小核彈性配置，對(duì)異質(zhì)運(yùn)算及人工智能這類(lèi)應(yīng)用帶來(lái)相當(dāng)明顯的效率提升。其將作為未來(lái)ARM Cortex-A系列處理器的基礎(chǔ)，亦同時(shí)代表了業(yè)界在多核處理程序設(shè)計(jì)上的新紀(jì)元。

ARM行動(dòng)通訊暨數(shù)字家庭市場(chǎng)資深營(yíng)銷(xiāo)經(jīng)理林修平（圖2）表示，DynamIQ可以說(shuō)是ARM big. LITTLE的第二代硬件架構(gòu)，其最主要的特點(diǎn)在于其可以在同一個(gè)叢集（Cluster）中同時(shí)擺放大小核，且電源（Power）與頻率（Clock）都可以單獨(dú)作管理。在第一代的大小核架構(gòu)中，一個(gè)叢集只能擺放大核或小核，因此在執(zhí)行轉(zhuǎn)換任務(wù)時(shí)，必須經(jīng)過(guò)快取（Cache）轉(zhuǎn)換。但在DynamIQ中，由于所有任務(wù)都將能在同個(gè)叢集中運(yùn)作，在任務(wù)切換上，便會(huì)相對(duì)迅速很多。

圖2 ARM行動(dòng)通訊暨數(shù)字家庭市場(chǎng)資深營(yíng)銷(xiāo)經(jīng)理林修平表示，DynamIQ技術(shù)可在同一個(gè)叢集中同時(shí)擺放大小核。

林修平指出，由于人工智能所需要的運(yùn)算量很大，同時(shí)需要很多矩陣乘法，透過(guò)DynamIQ的架構(gòu)，將能做1+3、1+7、2+2+4等設(shè)計(jì)配置。在過(guò)去的big. LITTLE架構(gòu)中，由于一個(gè)叢集最多即是4核（大核（Big）4核，小核（LITTLE）4核），是沒(méi)有辦法做到1+7的。DynamIQ所帶來(lái)的多元變化SoC設(shè)計(jì)配置，將能幫助應(yīng)用達(dá)到CPU優(yōu)化，進(jìn)而讓效能與功耗能更往上提升。

DynamIQ的頻率可以單獨(dú)管理，也將帶來(lái)很大好處。第一代的大小核，在同一個(gè)叢集當(dāng)中，頻率是統(tǒng)一的，但DynamIQ可以讓同一叢集中的不同核心，依據(jù)運(yùn)算需求在不同的頻率下運(yùn)作。

此外，林修平也表示，DynamIQ還可連接外部的硬件加速器。以人工智能來(lái)說(shuō)，不同應(yīng)用會(huì)有不同的軟硬件加速需求，例如加速器、DSP、CPU、GPU等，像是在高階智能型手機(jī)上，可能會(huì)放置加速器，來(lái)使其表現(xiàn)度達(dá)到最好、功耗達(dá)到最低，不過(guò)這也會(huì)增加集成電路的成本。因此，若是比較大眾化的產(chǎn)品，則可能會(huì)利用系統(tǒng)上現(xiàn)有的CPU、GPU，來(lái)滿足人工智能的需要。

GPU模型推論效能升級(jí) 邊緣運(yùn)算裝置AI能力更強(qiáng)大

然而，隨著各種邊緣運(yùn)算裝置上所內(nèi)建的人工智能（AI）能力變得更加強(qiáng)大，GPU模型的推論效能也必須隨之提升。輝達(dá)（NVIDIA）旗下軟件目前已可協(xié)助客戶做8位與16位的神經(jīng)網(wǎng)絡(luò)運(yùn)算優(yōu)化，不僅讓GPU模型的推論（Inference）更形完善，同時(shí)對(duì)硬件資源的需求也明顯降低，只需要一小塊電路板就能支持AI算法。

針對(duì)邊緣運(yùn)算日益漸增的需求，NVIDIA近期推出了新款開(kāi)發(fā)板Jetson TX2，將整套人工智能系統(tǒng)縮小在一塊電路板之上，為商用無(wú)人機(jī)、工業(yè)機(jī)械、智能型攝影設(shè)備等領(lǐng)域，提供進(jìn)階的導(dǎo)航、影像與語(yǔ)音識(shí)別功能。相較前一代產(chǎn)品Jetson TX1，Jetson TX2的效能提升了兩倍，耗電量則不到7.5瓦，能源效率提升了兩倍多。這讓Jetson TX2可在終端裝置上運(yùn)行更大、更深的神經(jīng)網(wǎng)絡(luò)，進(jìn)而開(kāi)發(fā)出更高智能化的裝置，并提升影像分類(lèi)、導(dǎo)航以及語(yǔ)音識(shí)別等作業(yè)的精準(zhǔn)度與反應(yīng)速度。

NVIDIA技術(shù)營(yíng)銷(xiāo)經(jīng)理蘇家興（圖3）表示，對(duì)于訓(xùn)練好的模型，NVIDIA也提供Tense RT軟件來(lái)協(xié)助客戶做模型優(yōu)化、縮小化，其支持整數(shù)8位與浮點(diǎn)數(shù)16位的運(yùn)算。目前的主流是以32位的運(yùn)算去做訓(xùn)練，該16位運(yùn)算也就減少了一半，增加了一倍的效能，8位則增加了四倍的效能，因此在模型推論上能運(yùn)作的更好。

圖3 NVIDIA技術(shù)營(yíng)銷(xiāo)經(jīng)理蘇家興表示，以往在多GPU運(yùn)算時(shí)，受限于PCIe的帶寬問(wèn)題，HGX-1搭載了NVIDIA的8張GP 100的GPU，因此當(dāng)深度學(xué)習(xí)在做訓(xùn)練時(shí)，規(guī)模效果是相當(dāng)好的。

AI算法日新月異 FPGA靈活特性優(yōu)勢(shì)顯著

即便目前人工智能（AI）算法日新月異，對(duì)嵌入式處理器的靈活性帶來(lái)許多挑戰(zhàn)，這卻也讓以靈活彈性著稱的現(xiàn)場(chǎng)可編程門(mén)陣列（FPGA）組件有了很大的發(fā)揮空間。

賽靈思ISM營(yíng)銷(xiāo)資深技術(shù)經(jīng)理羅霖（圖4）表示，由于人工智能目前還處于發(fā)展階段，算法日新月異，目前還沒(méi)有一個(gè)算法可以固定下來(lái)，這為特殊應(yīng)用集成電路（ASIC）的設(shè)計(jì)帶來(lái)很大挑戰(zhàn)，因客戶往往需要的是十分靈活的架構(gòu)。

圖4 賽靈思ISM營(yíng)銷(xiāo)資深技術(shù)經(jīng)理羅霖表示，在賽靈思旗下的芯片產(chǎn)品中，有許多并行運(yùn)算資源，很適合用于計(jì)算量、吞吐量大的卷積運(yùn)算。

有鑒于此，賽靈思推出reVISION堆棧技術(shù)，其具備了可重組以及所有形式鏈接的特性，讓開(kāi)發(fā)者能充分運(yùn)用堆棧技術(shù)，快速研發(fā)與部署升級(jí)方案，這樣的特性對(duì)于開(kāi)發(fā)未來(lái)需求的智能視覺(jué)系統(tǒng)是至關(guān)重要的的。不僅如此，該技術(shù)也使開(kāi)發(fā)者在結(jié)合機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、傳感器融合與連接的應(yīng)用時(shí)，能夠獲得顯著優(yōu)勢(shì)。舉例而言，相較于其他嵌入式GPU與傳統(tǒng)SoC，reVISION將機(jī)器學(xué)習(xí)推論的每秒每瓦影像效能，提升了6倍、計(jì)算機(jī)視覺(jué)每秒每瓦每幀處理速度提升了42倍，而延遲卻只有五分之一。

羅霖分析，相較于同等級(jí)GPU技術(shù)，F(xiàn)PGA在低延遲（Low Latency）的部分，本身就與傳統(tǒng)的架構(gòu)不同，傳統(tǒng)架構(gòu)是將收集到的數(shù)據(jù)送到DDR內(nèi)存中進(jìn)行緩存，處理器要再?gòu)腄DR中取出數(shù)據(jù)進(jìn)行運(yùn)算，運(yùn)算完成后再送回DDR。但FPGA則是采用像素流（Stream）的方式，直接可以到模擬進(jìn)行運(yùn)算，運(yùn)算完成后，輸出結(jié)果即可，由于省去了存取DDR的時(shí)間，因此可以延遲可以降到非常低。

從算法的層面來(lái)看，人工智能含有許多智能決策的部分，因此需要有很強(qiáng)的平行運(yùn)算能力。這些算法進(jìn)而對(duì)處理器結(jié)構(gòu)產(chǎn)生了不同的需求，像是在神經(jīng)網(wǎng)絡(luò)中，卷積運(yùn)算強(qiáng)調(diào)的是平行運(yùn)算，適合在FPGA上運(yùn)行，但在傳感器融合的部分，則比較適合在CPU上運(yùn)行，因其必須將硬件進(jìn)行分割，再將不同的算法，放到處理器中。

羅霖指出，在脫機(jī)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練部分，GPU的確是比較有優(yōu)勢(shì)的，由于其要求的浮點(diǎn)運(yùn)算性能特別高，因此不少深度學(xué)習(xí)都是采用GPU，而賽靈思的立場(chǎng)是不會(huì)以FPGA去進(jìn)攻這塊市場(chǎng)，不過(guò)若是以在線的任務(wù)來(lái)看，F(xiàn)PGA還是很有優(yōu)勢(shì)的。目前邊緣運(yùn)算對(duì)嵌入式處理器的要求除了傳感器的接口要夠多，組件的I/O型態(tài)也十分多變，可能是高速率、中速率或低速率，這些處理器都要能支持，且在線處理的能力也相當(dāng)關(guān)鍵。

蘇家興則表示，無(wú)論是軟件還是硬件公司，都須要對(duì)訓(xùn)練好的深度學(xué)習(xí)模型進(jìn)行優(yōu)化，除了邊緣設(shè)備會(huì)采用縮小化的模型，在服務(wù)器與數(shù)據(jù)中心端，也會(huì)有某些情境需要采用這些優(yōu)化過(guò)的模型去做推論。舉例而言，F(xiàn)acebook、百度在做語(yǔ)音識(shí)別的推論時(shí)，若能透過(guò)優(yōu)化的模型讓運(yùn)作更快，勢(shì)必能讓消耗的功耗越少。

不過(guò)，并不是所有的應(yīng)用都適合做前端邊緣運(yùn)算。以AlphaGo來(lái)看，其是以32臺(tái)服務(wù)器在做運(yùn)算，因AlphaGo運(yùn)算量非常大，所以就不太可能進(jìn)行邊緣運(yùn)算，因1臺(tái)服務(wù)器與32臺(tái)服務(wù)器運(yùn)算的精準(zhǔn)度，絕對(duì)是有差異的。若以語(yǔ)音識(shí)別來(lái)看，即便可以同時(shí)采用在線與脫機(jī)的方式進(jìn)行，但精準(zhǔn)度也勢(shì)必會(huì)有落差。

蘇家興指出，應(yīng)用開(kāi)發(fā)商須盡快分辨出哪些運(yùn)算任務(wù)適合采用邊緣運(yùn)算，哪些部分還是得留在服務(wù)器端執(zhí)行。舉例來(lái)說(shuō)，當(dāng)無(wú)人機(jī)飛到有些沒(méi)有網(wǎng)絡(luò)的地方，便必須運(yùn)用邊緣運(yùn)算，設(shè)計(jì)出可承載范圍內(nèi)的推論。 NVIDIA相信，未來(lái)數(shù)據(jù)中心與邊緣運(yùn)算將會(huì)并存，但在瞄準(zhǔn)的應(yīng)用上必定會(huì)有所不同。

GPU模型推論效能升級(jí) 邊緣運(yùn)算裝置AI能力更強(qiáng)大

AI算法日新月異 FPGA靈活特性優(yōu)勢(shì)顯著

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

進(jìn)駐物聯(lián)網(wǎng)終端 人工智能應(yīng)用可能性無(wú)限

日期： 2017-06-20

相關(guān)內(nèi)容

進(jìn)駐物聯(lián)網(wǎng)終端人工智能應(yīng)用可能性無(wú)限