近期在法蘭克福舉辦的國(guó)際超級(jí)計(jì)算大會(huì)上,涌現(xiàn)了很多令人興奮的新技術(shù),驅(qū)動(dòng)著廣泛應(yīng)用于各行各業(yè)的人工智能和深度學(xué)習(xí)技術(shù)的發(fā)展。英特爾為人工智能技術(shù)的各個(gè)層面提供了一套廣泛全面的產(chǎn)品組合,其中包括即將推出的英特爾?至強(qiáng)?可擴(kuò)展處理器以及英特爾現(xiàn)場(chǎng)可編程門陣列(FPGA),還有即將推出的代號(hào)為Knights Mill的英特爾?至強(qiáng)融核?處理器,將深度學(xué)習(xí)技術(shù)提升到了一個(gè)新高度。
這個(gè)英特爾至強(qiáng)融核系列的新成員是專門針對(duì)深度學(xué)習(xí)訓(xùn)練進(jìn)行了優(yōu)化,預(yù)計(jì)在2017年第四季度投產(chǎn)。該處理器旨在滿足數(shù)據(jù)科學(xué)家、工程師以及所有致力于機(jī)器學(xué)習(xí)技術(shù)應(yīng)用領(lǐng)域的用戶獨(dú)特需求。Knights Mill尤其能夠通過(guò)充分利用低精度計(jì)算優(yōu)勢(shì)而大大縮短訓(xùn)練深度學(xué)習(xí)模型的時(shí)間。
為什么低精度如此重要?
簡(jiǎn)單地說(shuō),數(shù)據(jù)科學(xué)家需要硬件能夠在訓(xùn)練模型時(shí)加速融合。在過(guò)去,深度學(xué)習(xí)模型可能要花上幾天甚至幾周的時(shí)間才能完成一個(gè)迭代的融合,這使得他們很難在有限的時(shí)間內(nèi)進(jìn)行研究。如今的硬件能夠通過(guò)低精度計(jì)算把訓(xùn)練時(shí)間縮短到幾個(gè)小時(shí)——這相當(dāng)于加快了計(jì)算速度。只要硬件能滿足深度學(xué)習(xí)框架的精度要求,那么最重要的就是看硬件訓(xùn)練模型的速度有多快。因此低精度計(jì)算可用于解決深度學(xué)習(xí)負(fù)載問(wèn)題,并且與高性能計(jì)算相比是首選的計(jì)算方式,后者通常需要單或雙精度運(yùn)算性能。
那么Knights Mill和之前代號(hào)為Knights Landing的英特爾?至強(qiáng)融核?處理器有何不同呢?
我們經(jīng)常聽到專注于高性能計(jì)算、人工智能和機(jī)器學(xué)習(xí)的用戶提出這個(gè)問(wèn)題。
Knights Mill使用和Knights Landing相同的整體架構(gòu)和分裝,兩個(gè)CPU都是第二代英特爾?至強(qiáng)融核?處理器,并使用相同的平臺(tái)。區(qū)別就是Knights Mill使用不同的指令集來(lái)改進(jìn)低精度性能,但犧牲了對(duì)許多傳統(tǒng)高性能計(jì)算負(fù)載非常重要的雙精度性能。這意味著Knights Mill適用于處理深度學(xué)習(xí)負(fù)載,而Knights Landing則更適合高性能計(jì)算負(fù)載以及其它要求高精度的運(yùn)算。
這些不同的指令集被稱作“四倍融合乘加指令”(QFMA:Quad Fused MulTIply Add)和“四倍虛擬神經(jīng)網(wǎng)絡(luò)指令”(QVNNI: Quad Virtual Neural Network InstrucTIon)。QFMA能把Knights Mill的單精度性能提高一倍,而QVNNI指令則可以進(jìn)一步降低精度,同時(shí)滿足深度學(xué)習(xí)框架的精度需求。把單精度性能提高一倍并進(jìn)一步降低精度的結(jié)果將使Knights Mill相比Knights Landing能夠?yàn)樯疃葘W(xué)習(xí)負(fù)載提供更高的運(yùn)算性能。此外,頻率、電源和效率方面的改善也推動(dòng)了性能的提升,但是指令集變化才是性能顯著提升的最大因素。
退一步說(shuō),Knights Mill處理器并不僅僅是為了加速深度學(xué)習(xí)負(fù)載,而且是在現(xiàn)有的基于英特爾技術(shù)的環(huán)境中獲得新的處理功能。英特爾?至強(qiáng)融核?處理器平臺(tái)二進(jìn)制兼容英特爾?至強(qiáng)?處理器。幾乎所有運(yùn)行在英特爾?至強(qiáng)?處理器上的負(fù)載都能運(yùn)行在英特爾?至強(qiáng)融核?處理器上,這就讓用戶可以輕松地在英特爾平臺(tái)上共享軟件投資。
另一方面,英特爾正在統(tǒng)一深度學(xué)習(xí)實(shí)踐者在整個(gè)硬件平臺(tái)上使用深度學(xué)習(xí)框架的前進(jìn)道路。這些都是受益于英特爾? Nervana? Graph把先進(jìn)的功能帶到深度學(xué)習(xí)框架。這個(gè)面向神經(jīng)網(wǎng)絡(luò)的計(jì)算和執(zhí)行圖讓開發(fā)者能夠在多個(gè)硬件對(duì)象上自動(dòng)進(jìn)行優(yōu)化,從而讓用戶能夠在不同的英特爾平臺(tái)上共享其軟件投資。
近年來(lái)英特爾不斷延伸人工智能技術(shù)布局,收購(gòu)深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)芯片與軟件領(lǐng)域的領(lǐng)導(dǎo)廠商N(yùn)ervana,通過(guò)一系列投資和英特爾至強(qiáng)、至強(qiáng)融核產(chǎn)品、FPGA相結(jié)合,提供全棧實(shí)力處理端到端數(shù)據(jù)。即將推出的英特爾?至強(qiáng)融核?處理器Knights Mill,更是顯著加速深度學(xué)習(xí)處理,驅(qū)動(dòng)人工智能領(lǐng)域的進(jìn)一步發(fā)展。