在新一輪邊緣AI和嵌入式AI的“接力”賽程中,傳統(tǒng)芯片巨頭正全面站上賽道。
AI正以出乎意料的速度在云邊端全面突破。
如果說上一波AI應用主要集中在云端和碎片化的終端市場,那么這一波邊緣AI、嵌入式AI的增長,正是AI逐漸走向普適化的標志之一。
以往人們所熟知的AI運算平臺主要是CPU、GPU、FPGA、NPU或專用的AI處理芯片,但是在新一輪賽程中,邊緣和端側MCU、傳感器導入AI的速度明顯在加快,有望成為AI落地的新動力。
上一波AI的爆發(fā)式增長,造就了英偉達的地位,催生了大大小小的AI芯片公司。而在新一輪的“接力”賽程中,傳統(tǒng)的芯片巨頭TI、ST、恩智浦、瑞薩等,正全面站上賽道。
恩智浦首推MCX
兼具控制和AI處理功能
“我們正在進入邊緣計算新時代,這要求我們從根本上重新思考如何以合理方式構建靈活的MCU產(chǎn)品組合,該產(chǎn)品組合應具有擴展性、經(jīng)過優(yōu)化,并且能夠成為當今以及未來幾十年節(jié)能工業(yè)和物聯(lián)網(wǎng)邊緣應用的基礎”,恩智浦執(zhí)行副總裁兼邊緣處理技術總經(jīng)理Ron Martino表示。
從恩智浦(NXP)最新發(fā)布的MCX微控制器產(chǎn)品組合來看,首次集成了用于加快邊緣推理的神經(jīng)處理單元(NPU),與單獨的CPU內核相比,可提供高達30倍的機器學習吞吐量。MCX基于恩智浦誕生于2007年的LPC系列和當時的飛思卡爾在2010年推出的Kinetis系列,可以說是傳承了兩大系列的核心優(yōu)勢。
恩智浦邊緣處理事業(yè)部系統(tǒng)工程高級總監(jiān)王朋朋認為,在MCU中集成神經(jīng)處理單元,可以說是迎合時代需求。在CPU旁邊增加的NPU協(xié)處理器,內部擁有計算通道,可以實現(xiàn)良好的計算性能和能效。在NPU上進行機器學習運算加速時,比如二維卷積神經(jīng)網(wǎng)絡、點卷積或深度卷積,性能會比Cortex-M33內核加速30倍以上。
以往運用CPU處理的事項,例如機器學習的卷積處理現(xiàn)在可以由NPU來完成,而不占用CPU資源。通過CPU和NPU的并行處理,可同時做到控制和外界的交互,因此,AI處理和通用的輸入輸出控制可以并行實現(xiàn)。從而在一顆通用MCU上,既實現(xiàn)了傳統(tǒng)MCU功能,也實現(xiàn)了AI運算加速。
恩智浦大中華區(qū)工業(yè)與物聯(lián)網(wǎng)市場高級總監(jiān)金宇杰表示,隨著人工智能和智能邊緣計算的發(fā)展,業(yè)界所面臨的挑戰(zhàn)也越來越多:第一,技術格局在快速發(fā)展;第二,隨著數(shù)據(jù)的大量傳輸、運算和處理,對信息安全保護的需求也越來越重要;第三,手持設備、電池應用等領域對低功耗的要求也越來越嚴苛。MCU傳統(tǒng)上雖然是做控制工作,但隨著產(chǎn)品對智能運算、可預見性的要求越來越多,對運算的要求也大大提升。因此在MCU中嵌入算力更強的AI元素,希望通過NPU高效的計算架構,實現(xiàn)實時推理。
ST在MCU和傳感器加速導入AI
ST約在三年前開始將輕量的AI算法融入MCU中,作為對已有產(chǎn)品系列的補充和增強。驅使ST開始推行這一路線的主要原因是邊緣計算,因為隨著5G的到來,人們對傳統(tǒng)產(chǎn)品的延遲和能耗提出了更高要求。
ST旗下經(jīng)典的STM32家族已經(jīng)誕生約15年,面向未來,STM32確立了三大發(fā)展方向:更多無線通信技術、更先進的安全保護、以及更高的本機自主智能。
為何導入AI?ST方面認為,除了云端、服務器端的人工智能,未來,一些聯(lián)網(wǎng)能力并不太強、算力并不太高的設備,也需要執(zhí)行一些并不太復雜的AI算法。比如通過噪聲去判斷電機本身運行的狀況、或是其他通過判斷來監(jiān)測系統(tǒng)運行的效率……類似這樣的應用不需要聯(lián)網(wǎng)到云端來實現(xiàn)。
AI在MCU上實現(xiàn)的意義在于,可以將MCU低功耗、低成本、實時性、穩(wěn)定性、開發(fā)周期短、廣闊的市場覆蓋率等特性,與AI強大的處理能力相結合,從而使海量終端智能涌現(xiàn)出來。
在AIoT系統(tǒng)中,還有一個非常關鍵的部分就是傳感器,傳感器的智能化也正在成為確定趨勢。以AR/VR應用為例,之所以對傳感器有高需求,是因為這個產(chǎn)品直接連接人體,如果AV/VR在獲取周邊物理現(xiàn)象和信息的同時,經(jīng)過智能處理再傳給主控,一來可以降低整體系統(tǒng)能耗,二來可以把本身的噪聲、穩(wěn)定性和精度做得更好。
ST最近發(fā)布的集成機器學習內核的車規(guī)級慣性測量單元(IMU)ASM330LHHX,就是從智能駕駛向高度自動化駕駛的又一步推進。據(jù)ST官方信息,內嵌的機器學習內核是一個用電路連接的硬連線處理引擎,能直接在傳感器上運行AI算法,確保從感測事件到車輛響應的時間延遲很短,可以實現(xiàn)復雜的實時性能,而對系統(tǒng)功耗和算力的要求遠低于嵌入在應用處理器或基于云的人工智能解決方案,這對整體系統(tǒng)設計理念也是一次較大的突破。
與傳統(tǒng)傳感器僅采集數(shù)據(jù)、傳送給主控的特性相比,導入AI的傳感器可以在采集到原始數(shù)據(jù)后,通過機器學習讓模型進行學習,再將學習后判斷的依據(jù)寫入傳感器。因此,傳感器可以通過內置的固定狀態(tài)機進行判斷,一些特定任務可以考慮在本體上運作,而不需要調動整個處理器工作。
此外,隨著未來系統(tǒng)功能的豐富,各項任務指標進一步追求極限的話,延時仍是一個關鍵因素。除了設備本身的算力,傳輸時間可能也是主要原因。例如,傳1M的原始數(shù)據(jù)與1K的結果數(shù)據(jù)所需時間肯定不同,這可能也是推動傳感器內置AI的一大動力。
TI針對細分市場引入AI
德州儀器(TI)約在2020年初,首次為一款汽車SoC添加了專用的深度學習加速器,這一方面說明了深度學習在汽車ADAS系統(tǒng)中的深入,同時也可以看出TI在重要的車用產(chǎn)品線的布局方向。
TI這一深度學習模塊主要基于C7x DSP IP及其內部開發(fā)的矩陣乘法加速器,通過將DSP和EVE內核結合到一起,并添加了矢量浮點計算功能,支持向后兼容代碼。
TI這一做法也是當時在邊緣/端側應用中實現(xiàn)人工智能加速時較為流行的做法,將DSP專用于大量數(shù)據(jù)處理,在高難度的實時環(huán)境中執(zhí)行復雜的數(shù)學運算。通過DSP的數(shù)據(jù)流功能與矩陣乘法加速器相結合,提升深度學習應用的效率。
除了汽車市場,TI近期針對邊緣AI的人機界面 (HMI) 交互應用推出了新系列SoC,主打低功耗設計,全新的Sitara AM62 處理器可支持雙屏顯示和小型人機界面應用。
據(jù)TI官方資料,下一代 HMI 將帶來與機器交互的全新方式,例如在嘈雜的工廠環(huán)境中通過手勢識別來發(fā)出命令,或通過無線連接的手機或平板電腦來控制機器。將邊緣 AI 功能添加到 HMI 應用(包括機器視覺、分析和預測性維護),則有助于賦予 HMI 全新的意義,而不是僅限于實現(xiàn)人機交互的界面。
從硬件角度來看,AM62 系列圍繞 64 位、1.4 GHz 四核 Arm Cortex A53 處理器子系統(tǒng)構建,每個內核由 32 KB 的 L1 DCache 和 512 KB 的共享 L2 緩存支持。這款處理器與用于通用用途的 400 MHz 單核 Arm Cortex-M4F MCU、專用 3D 圖形引擎以及用于設備資源和低功耗管理應用的 R5F 內核相匹配。AM62 系列還有一個專用的顯示子系統(tǒng),該子系統(tǒng)具有雙顯示支持,允許用戶將他們的邊緣 AI 和HMI 控制放在同一個硬件上。
讓日常消費者更容易應用AI,對于能否在邊緣大規(guī)模推進AI部署非常重要。TI這一新突破,使得支持未來 HMI 應用程序的 AI/ML 可以存在于設備本身中,從而為用戶提供更低的延遲、更快的響應時間和更自然直觀的體驗。
瑞薩收購,加注嵌入式AI
瑞薩的MCU產(chǎn)品有著非常全面的產(chǎn)品布局,特別在工業(yè)和物聯(lián)網(wǎng)是其優(yōu)勢領域。隨著AIoT應用的興起,瑞薩MCU產(chǎn)品在不斷創(chuàng)新,同時投入也在不斷加大。
近年來推出的嵌入式AI技術“e-AI”,可作為一個附加單元添加到設備上,通過預先學習好的AI處理模型,實現(xiàn)從傳感器數(shù)據(jù)收集到數(shù)據(jù)處理、分析和評估/判斷的全過程。
瑞薩最近還宣布了在嵌入式AI領域的一筆收購。根據(jù)公開消息,瑞薩已與Reality AI達成最終協(xié)議,以全現(xiàn)金交易方式收購這家嵌入式AI解決方案供應商。據(jù)悉,該交易已獲得兩家公司董事會一致批準,預計將于2022年年底完成。
Reality AI的解決方案為機器學習提供信號處理,提供快速、高效的機器學習推理,甚至可用于最小的MCU。該公司的旗艦產(chǎn)品Reality AI Tools是一個支持整個產(chǎn)品開發(fā)生命周期的軟件環(huán)境,提供非視覺傳感器數(shù)據(jù)的分析。該公司在工業(yè)異常檢測、使用AI傳感器的汽車聲音識別方面已有較好的案例。
兩家公司表示,將這些技術與瑞薩的MCU、MPU組合相結合,可以提供更好的AI推理和信號處理能力,將有助于開發(fā)人員將先進的機器學習和信號處理應用于復雜問題。收購Reality AI,也將使瑞薩能夠從硬件和軟件角度提供全面和高度優(yōu)化的端側解決方案,在工業(yè)物聯(lián)網(wǎng)、消費電子和汽車應用中更好地實現(xiàn)端側智能。
瑞薩總裁兼首席執(zhí)行官柴田英利表示:“終端數(shù)據(jù)的重要性和需求正以前所未有的規(guī)模增長。Reality AI的AI解決方案加入到我們現(xiàn)有的嵌入式AI投資組合中,將進一步鞏固我們作為領先的AIoT解決方案提供商的地位?!?/p>
工業(yè)物聯(lián)網(wǎng)、汽車等領域的機器學習應用正在迅速增長,嵌入式機器學習、信號處理、高性能處理器的需求有望逐漸增長。一方面,用戶需要更完整的解決方案支持,另一方面,高度定制化也可能是這一領域的一大特色。基于這些趨勢,業(yè)界類似這樣的收購可能還將持續(xù)發(fā)生。
寫在最后
圖源 | VentureBeat
AI下沉到邊緣、終端和嵌入式市場,從芯片到軟件、系統(tǒng)、再到整體方案,都需要部署相應的AI能力,這既是挑戰(zhàn),也是全新的機遇。據(jù)Gartner預測,2025年至少會有75%的數(shù)據(jù)處理將會在云端或者數(shù)據(jù)中心之外的地方進行。伴隨這一波數(shù)據(jù)機遇的來臨,傳統(tǒng)半導體巨頭加大AI投入是發(fā)展的必然。
那么,傳統(tǒng)半導體巨頭在MCU上跑AI,與業(yè)界方興未艾的AI專用芯片相比,究竟是升維還是降維競爭?其實從應用場景來看,雙方各有發(fā)展空間。專用AI芯片與場景的適配非常緊密,在某一個或某一類應用場景中有計算優(yōu)勢。而通用MCU內置AI,相當于在廣泛的應用基礎上增加了AI的功能,這也從一定程度上有助于解決AI當前落地的一個痛點,即如何將AI算法適配于更多的通用場景、部署在更多的邊緣設備。
此外,從發(fā)展的路徑來看,老牌半導體巨頭除了用AI提升差異化能力之外,其發(fā)展的核心更是進一步強化生態(tài),來保持長期的核心競爭力。不同于初創(chuàng)AI芯片公司從零起步、大開大合的AI戰(zhàn)略,巨頭布局AI基本都是沿著已有的產(chǎn)品路徑去規(guī)劃,同時注重將AI體系與原有的生態(tài)進行密切結合,這是其高筑的競爭壁壘,也是處于追趕階段的國產(chǎn)芯片廠商所面臨的一大挑戰(zhàn)。