我們?yōu)槭裁葱枰邔哟尉C合
高層次綜合(High-level Synthesis)簡稱HLS,指的是將高層次語言描述的邏輯結構,自動轉換成低抽象級語言描述的電路模型的過程。所謂的高層次語言,包括C、C++、SystemC等,通常有著較高的抽象度,并且往往不具有時鐘或時序的概念。相比之下,諸如Verilog、VHDL、SystemVerilog等低層次語言,通常用來描述時鐘周期精確(cycle-accurate)的寄存器傳輸級電路模型,這也是當前ASIC或FPGA設計最為普遍使用的電路建模和描述方法。
然而,HLS技術在近十年來獲得了大量的關注和飛速的發(fā)展,尤其是在FPGA領域??v觀近年來各大FPGA學術會議,HLS一直是學術界和工業(yè)界研究最集中的領域之一。究其原因,主要有以下幾點。
第一,使用更高的抽象層次對電路建模,是集成電路設計發(fā)展的必然選擇。集成電路伴隨摩爾定律發(fā)展至今,其復雜性已經逐漸超過人類可以手工管理的范疇。例如,蘋果iPhone11內置的A13芯片,就有著約85億支晶體管。
?。▓D片來自Stephen Shankland/CNET)
然而,根據(jù)NEC 2004年發(fā)布的研究,一個擁有100萬邏輯門的芯片設計通常需要編寫30萬行RTL代碼。因此,完全使用RTL級的邏輯抽象設計當代芯片是不現(xiàn)實的,并將對設計、驗證、集成等各個環(huán)節(jié)造成巨大的壓力。
相比之下,使用諸如C、C++等高層語言對系統(tǒng)建模,可以將代碼密度壓縮7到10倍,這極大的緩解了設計復雜度。
第二,高層語言能促進IP重用的效率。傳統(tǒng)的基于RTL的IP往往需要定義固定的架構和接口標準,在IP重用時需要花費大量時間進行系統(tǒng)互聯(lián)和接口驗證。相比之下,高層語言隱藏了這些要求,轉而由HLS工具負責具體實現(xiàn)。
對于FPGA而言,現(xiàn)代FPGA里有著大量成熟的IP單元,如嵌入式存儲器、算術運算單元、嵌入式處理器,以及最近逐漸興起的AI加速器、片上網絡系統(tǒng)等等。這些FPGA IP有著固定的功能和位置,因此可以被HLS工具充分利用,在提升IP重用效率的同時,簡化綜合算法、提高綜合后電路的性能。
第三,HLS能幫助軟件和算法工程師參與、甚至主導芯片或FPGA設計。這是由于HLS工具能封裝和隱藏硬件的實現(xiàn)細節(jié),從而使軟件和工程師能專注于上層算法的實現(xiàn)。對于硬件工程師而言,HLS也能幫助他們進行快速的設計迭代,并專注于對性能、面積或功耗敏感的模塊和子系統(tǒng)的優(yōu)化設計。
FPGA高層次綜合的前世今生
伴隨集成電路的復雜性的飛速增長,芯片設計方法學也在不斷演進。早在FPGA出現(xiàn)之前,人們就已經開始嘗試擺脫依靠人工檢視芯片版圖的設計方法,轉而探索使用高層語言對電路邏輯進行行為級描述,并通過自動化工具將電路模型轉化為實際的電路設計。
在上世紀八九十年代,面向集成電路設計的HLS工具就已經是學術界研究的熱點。這其中比較有代表性的工作,包括卡耐基梅隆大學的CMU-DA(design automation)工具,以及加拿大卡爾頓大學提出的force-directed調度算法等等。
從現(xiàn)在看來,這些工作為當前的電路綜合算法打下了基礎,并為后來HLS研究提供了很多寶貴的經驗和借鑒。然而,這個階段的HLS工作在成果轉化方面十分失敗,并未有效的轉化成工業(yè)實踐。一個最主要的原因,就在于“在錯誤的時間,遇上了對的人”。
當時正值摩爾定律蓬勃興起的時期,集成電路設計正在經歷史上最大的變革。在后端,自動布局布線已經逐漸成為主流;在前端,RTL綜合也在逐漸興起。傳統(tǒng)電路設計工程師都紛紛開始采用基于RTL的電路建模方法,取代傳統(tǒng)的基于原理圖和版圖的設計,并由此帶來RTL綜合工具的飛速發(fā)展。相比之下,這個階段的HLS研究往往使用了特殊的編程語言,如CMU-DA采用的名為“ISPS”的語言,因此很難獲得那些正在和RTL處于“蜜月期”的工程師們的青睞。
伴隨著一段時間的沉寂,HLS在2000年之后再次開始獲得學術界和工業(yè)界的關注,比較有名的工具包括Bluespec和AutoPilot等。主導這一變化的主要原因是,HLS工具開始將C/C++作為主要的目標語言,從而被很多不了解RTL的系統(tǒng)和算法工程師所逐漸接受。同時,HLS工具綜合生成的結果也有了長足進步,在某些應用領域甚至可以和人工手寫RTL近似的性能水平。
此外,F(xiàn)PGA的逐漸興起也對HLS的發(fā)展起到了重要的助推作用。和ASIC設計不同,F(xiàn)PGA有著固定數(shù)量的片上邏輯資源。因此HLS工具不用過度糾結于ASIC設計中面積、性能和功耗的絕對優(yōu)化,而只需要將設計合理的映射到FPGA的固定架構上即可。這樣,HLS就成為了在FPGA上快速實現(xiàn)目標算法的絕佳方式。
時至今日,高層次綜合技術取得了進一步的發(fā)展。大型FPGA公司都推出了各自的HLS工具,如賽靈思的Vivado HLS和英特爾的HLS編譯器、OpenCL SDK等。在學術界也有諸多成果涌現(xiàn),如多倫多大學的LegUp等等。
接下來,老石將以AutoPilot這個HLS工具為例,簡單介紹高層次綜合的主要工作原理。
高層次綜合的主要工作原理
AutoESL公司的AutoPilot工具,可以說是HLS領域最為成功的學術成果轉化案例。AutoPilot源自于UCLA叢京生教授主導的xPilot項目,從隨后與當時負責該課題的博士生張志如(現(xiàn)任康奈爾大學副教授)一起創(chuàng)辦了AutoESL公司,并在2011年被賽靈思收購,成為了之后的Vivado HLS。
AutoPilot的工作流程框圖如下圖所示。在前端,它使用了基于LLVM的編譯器架構,能夠處理可綜合的ANSI C、C++,以及OSCI SystemC等語言編寫的模型。這個名為llvm-gcc的前端編譯器會將高層語言模型轉換為中間表達式(IR),并進行一系列針對代碼復雜度、冗余、并行性等方面的代碼優(yōu)化。然后再根據(jù)具體的硬件平臺,綜合生成RTL代碼、驗證與仿真環(huán)境,以及必須的時序和布局約束等。
AutoPilot的成功之處在于,它的HLS結果在某些應用領域完勝人工優(yōu)化RTL取得的結果。例如,在一個無線MIMO系統(tǒng)中使用的Sphere解碼器IP中,AutoPilot將4000行C代碼算法成功綜合到Virtex5 FPGA上,運行在225MHz,并取得了比賽靈思Sphere解碼器IP更少的邏輯資源使用量,見下圖。這個結果放在現(xiàn)在也令人十分震撼,它很好的證明了HLS有潛力取得比RTL IP更為出色的性能。
獲取有關AutoPilot的更多技術細節(jié)和論文內容,請在老石談芯公眾號后臺回復“HLS”或“高層次綜合”。
高層次綜合工具常用的優(yōu)化方法
傳統(tǒng)的處理器編譯器設計通常只有一個主要目標,那就是盡量提升性能。相比之下,高層次綜合工具需要統(tǒng)籌考慮各種電路設計的主要指標,如性能、功耗、面積等等,同時也要兼顧工具本身的性能,比如占用的資源和運行時間等。因此,在開發(fā)HLS工具時,要額外考慮和采用更多的優(yōu)化方法,而這些優(yōu)化方法也是當今學術界和工業(yè)界在HLS領域重點研究的方向。總的來說,HLS工具的主流優(yōu)化方法有以下幾種。
01
字長分析和優(yōu)化
FPGA的一個最主要特點就是可以使用任意字長的數(shù)據(jù)通路和運算。因此,F(xiàn)PGA的HLS工具不需要拘泥于某種固定長度(如常見的32位或64位)的表達方式,而可以對設計進行全局或局部的字長優(yōu)化,從而達到性能提升和面積縮減的雙重效果。
然而,字長分析和優(yōu)化需要HLS的使用者對待綜合的算法和數(shù)據(jù)集有深入的了解,這也是限制這種優(yōu)化方式廣泛使用的主要因素之一。
02
循環(huán)優(yōu)化
循環(huán)優(yōu)化一直是HLS優(yōu)化方法的研究重點和熱點,因為這是將原本順序執(zhí)行的高層軟件循環(huán)有效映射到并行執(zhí)行的硬件架構的重點環(huán)節(jié)。
循環(huán)優(yōu)化的最終目的,就是盡量將循環(huán)里兩次相鄰的操作以最小的時延實現(xiàn),理想情況下,相鄰的循環(huán)操作可以完全并行執(zhí)行。然而,由于硬件資源的限制,以及更多的是因為循環(huán)間存在嵌套和依賴關系,很難將循環(huán)完全展開。如何優(yōu)化各種循環(huán),以實現(xiàn)最優(yōu)的硬件結構,就成為了學術界和工業(yè)界最為關心的要點。
一個流行的循環(huán)優(yōu)化方法,就是所謂的多面體模型,即Polyhedral Model。多面體模型的應用非常廣泛,在HLS里主要被用來將循環(huán)語句以空間多面體表示(見下圖),然后根據(jù)邊界約束和依賴關系,通過幾何操作進行語句調度,從而實現(xiàn)循環(huán)的變換。
關于多面體模型的細節(jié),本文不再展開,有興趣的讀者可以在公眾號后臺回復“HLS”或“高層次綜合”獲取更多相關信息。需要指出的是,多面體模型在FPGA HLS里已經取得了相當?shù)某晒?,很多研究均證明多面體模型可以幫助實現(xiàn)性能和面積的優(yōu)化,同時也能幫助提升FPGA片上內存的使用效率。
03
對軟件并行性的支持
C/C++與RTL相比,一個主要的區(qū)別是,前者編寫的程序被設計用來在處理器上順序執(zhí)行,而后者可以通過直接例化多個運算單元,實現(xiàn)任務的并行處理。隨著處理器對并行性的逐步支持,以及如GPU等非處理器芯片的興起,C/C++開始逐漸引入對并行性的支持。例如,出現(xiàn)了pthreads和OpenMP等多線程并行編程方法,以及OpenCL等針對GPU等異構系統(tǒng)進行并行編程的C語言擴展。
因此作為HLS工具,勢必要增加對這些軟件并行性的支持。例如,LegUp就整合了度pthreads和OpenMP的支持,從而可以實現(xiàn)任務和數(shù)據(jù)層面的并行性。
獲取有關LegUp的更多技術細節(jié)和論文內容,請在老石談芯公眾號后臺回復“HLS”或“高層次綜合”。
另外,Altera在被英特爾收購之前就已經推出了OpenCL SDK,可以將OpenCL進行高層次綜合,并生成FPGA電路邏輯與CPU代碼兩部分,從而實現(xiàn)FPGA作為硬件加速模塊的快速開發(fā)。
高層次綜合的發(fā)展前景
HLS經過十數(shù)年的發(fā)展,雖然有諸如AutoPilot、OpenCL SDK等FPGA HLS商業(yè)化成功的案例出現(xiàn),但距離其完全替代人工RTL建模還有很長的路要走。
比如,對于FPGA而言,內存瓶頸一直是制約系統(tǒng)性能的重要因素。除片上的各類BRAM之外,還有各類片外存儲單元,如DDR、QDR,以及近年興起的HBM等等。因此,有效利用片上和片外各類存儲單元一直是HLS的研究熱點。
此外,HLS的仿真和調試也需要進一步探索。一方面,需要形式化方法證明HLS生成的RTL代碼與高層次代碼等效;另一方面,當需要進行軟硬件分別和協(xié)同仿真、調試時,HLS工具要提供相關的測試環(huán)境、用例、腳本、調試方法等。當硬件出現(xiàn)問題時,如何向上調試軟件中的漏洞,也需要方法論的支持。
近年來,越來越多的研究開始專注于特定領域(domain specific)的編程語言和對應的HLS,比如在之前文章中介紹過的P4,就是針對網絡數(shù)據(jù)包領域的高層編程語言。隨著人工智能的發(fā)展,也出現(xiàn)了針對AI應用的Python HLS。通過使用特定領域的HLS,可以進一步對工具進行領域的針對性優(yōu)化,也能大幅提升系統(tǒng)性能、減少面積和功耗。
結語
業(yè)界普遍認為,GPU之所以在人工智能時代取得了非凡成功,很大程度上得益于對軟件和算法工程師友好的編程語言和環(huán)境。與之相比,F(xiàn)PGA雖然也在不斷擴展自己的應用范圍,并在性能和功耗上相比GPU有著明顯優(yōu)勢,其編程模型還是以硬件工程師進行RTL開發(fā)為主。
老石認為,F(xiàn)PGA的高層次綜合是業(yè)界發(fā)展的必然趨勢。相信隨著HLS領域的難題不斷被攻破,使用高層語言對FPGA進行高效編程也必然會實現(xiàn),而這也將最終成為FPGA更廣泛應用的最后一塊拼圖。