摘 要: 將ARM處理器作為NoC系統(tǒng)中的一個(gè)資源節(jié)點(diǎn),設(shè)計(jì)了資源網(wǎng)路接口,基于Linux操作系統(tǒng)的基礎(chǔ)上,編寫了FPGA設(shè)備的驅(qū)動(dòng)程序。在典型的3×3 2D Mesh結(jié)構(gòu)的NoC系統(tǒng)中進(jìn)行了測試,結(jié)果表明該設(shè)計(jì)實(shí)現(xiàn)了ARM處理器資源節(jié)點(diǎn)和NoC系統(tǒng)中其他IP核數(shù)據(jù)的高速、可靠傳輸。
關(guān)鍵詞: NoC;ARM;Linux;設(shè)備驅(qū)動(dòng);資源網(wǎng)絡(luò)接口
在半導(dǎo)體工藝進(jìn)入深亞微米時(shí)代后,由于SoC(System-on Chip)大多采用類似計(jì)算機(jī)系統(tǒng)的總線結(jié)構(gòu),使其存在著通信效率低下、全局同步時(shí)鐘設(shè)計(jì)困難等問題,這些問題使得SoC體系結(jié)構(gòu)以及其相應(yīng)的設(shè)計(jì)方法在多核的復(fù)雜系統(tǒng)中遇到了無法逾越的障礙。為了解決SoC面臨的上述問題,提出了全新的NoC(Network-on-chip)體系結(jié)構(gòu)[1]。NoC技術(shù)的核心是將計(jì)算機(jī)網(wǎng)絡(luò)通信的思想移植到芯片設(shè)計(jì)中來,它采用路由和分組交換技術(shù)替代傳統(tǒng)的總線通信方式,從體系結(jié)構(gòu)上徹底解決了片上系統(tǒng)的通信瓶頸和時(shí)鐘問題。
目前各國的研究人員正積極從事NoC設(shè)計(jì)研究,但缺少成熟技術(shù)和產(chǎn)品。本設(shè)計(jì)在開展NoC設(shè)計(jì)技術(shù)研究的基礎(chǔ)上,將ARM處理器作為NoC的其中一個(gè)資源節(jié)點(diǎn),利用ARM處理器功能強(qiáng)大等特點(diǎn),拓展NoC的應(yīng)用。
本文通過向ARM處理器中移植Linux操作系統(tǒng),在此基礎(chǔ)上進(jìn)行了資源網(wǎng)絡(luò)接口和FPGA的設(shè)備驅(qū)動(dòng)設(shè)計(jì),并對多核系統(tǒng)之間的大量數(shù)據(jù)高速傳輸通信進(jìn)行了探索和驗(yàn)證。
1 NoC系統(tǒng)模型及硬件平臺(tái)
NoC是由通信節(jié)點(diǎn)網(wǎng)絡(luò)和資源節(jié)點(diǎn)組成,通信資源網(wǎng)絡(luò)包括路由節(jié)點(diǎn)和資源網(wǎng)絡(luò)接口RNI(Resource-Network-Interface),通信節(jié)點(diǎn)負(fù)責(zé)資源節(jié)點(diǎn)之間的數(shù)據(jù)通信,資源節(jié)點(diǎn)完成廣義上的計(jì)算任務(wù),資源節(jié)點(diǎn)可以是嵌入式微處理器和DSP核、可重構(gòu)器件、輸入輸出設(shè)備等,它通過資源網(wǎng)絡(luò)接口連接到片上網(wǎng)絡(luò)中。資源網(wǎng)絡(luò)接口是資源節(jié)點(diǎn)與路由節(jié)點(diǎn)之間進(jìn)行通信的橋梁,主要由發(fā)送模塊和接收模塊組成。其功能是將資源節(jié)點(diǎn)的數(shù)據(jù)按照傳輸協(xié)議進(jìn)行打包處理后發(fā)送到片上網(wǎng)絡(luò)中,并從將網(wǎng)絡(luò)中接收提取有用數(shù)據(jù)傳遞給資源節(jié)點(diǎn)。NoC系統(tǒng)模型如圖1所示。
本硬件平臺(tái)選用Altera Cyclone IV系列的EP4CE115F29 FPGA芯片作為NoC系統(tǒng)的核心部件[2],在此FPGA中以規(guī)則的3×3 2D-Mesh拓?fù)浣Y(jié)構(gòu)[3],虛通道技術(shù)的蟲洞數(shù)據(jù)交換方式以及無鎖死的確定性XY維序路由算法作為理論模型,完成NoC通信框架的構(gòu)建。本設(shè)計(jì)將ARM處理器作為NoC系統(tǒng)其中一個(gè)資源節(jié)點(diǎn),通過資源網(wǎng)絡(luò)接口和FPGA設(shè)備驅(qū)動(dòng)實(shí)現(xiàn)ARM與NoC系統(tǒng)其他資源節(jié)點(diǎn)之間數(shù)據(jù)的交互。
2 ARM處理器資源網(wǎng)絡(luò)接口設(shè)計(jì)
資源網(wǎng)絡(luò)接口負(fù)責(zé)將ARM資源節(jié)點(diǎn)的輸出數(shù)據(jù)進(jìn)行組包并發(fā)送至路由節(jié)點(diǎn),完成接收處理片上網(wǎng)絡(luò)傳遞的數(shù)據(jù)包,并通過中斷方式通知ARM資源節(jié)點(diǎn)接收數(shù)據(jù)。因此設(shè)計(jì)分為資源網(wǎng)絡(luò)接口發(fā)送和接收兩個(gè)部分。
2.1 ARM資源節(jié)點(diǎn)和路由節(jié)點(diǎn)接口結(jié)構(gòu)
ARM資源節(jié)點(diǎn)和路由節(jié)點(diǎn)之間交換數(shù)據(jù)是異步時(shí)鐘域通信,因此涉及到數(shù)據(jù)接口的同步問題,對于隨機(jī)到達(dá)的數(shù)據(jù),需要建立數(shù)據(jù)同步機(jī)制,通過RAM或者FIFO的緩存實(shí)現(xiàn)數(shù)據(jù)同步,可將前級(jí)模塊提供的時(shí)鐘作為寫時(shí)鐘,使用后級(jí)的基本時(shí)鐘產(chǎn)生讀信號(hào),完成數(shù)據(jù)讀出。通過這種方式實(shí)現(xiàn)全局異步局部同步(GALS)的設(shè)計(jì)。
本文在FPGA中構(gòu)建異步FIFO來完成ARM資源節(jié)點(diǎn)和路由節(jié)點(diǎn)異步時(shí)鐘域之間的數(shù)據(jù)傳送。根據(jù)設(shè)計(jì)的NoC系統(tǒng)中通信節(jié)點(diǎn)整體架構(gòu),在RNI中構(gòu)建兩個(gè)異步FIFO,F(xiàn)IFO的存儲(chǔ)深度設(shè)置為8,寬度設(shè)置為34位,ARM和路由節(jié)點(diǎn)通信時(shí)可以根據(jù)實(shí)際的數(shù)據(jù)位寬和FIFO進(jìn)行連接。ARM資源節(jié)點(diǎn)和路由節(jié)點(diǎn)的連接如圖2所示。
2.2 資源網(wǎng)絡(luò)接口發(fā)送模塊設(shè)計(jì)
ARM資源節(jié)點(diǎn)發(fā)出的數(shù)據(jù)在片上網(wǎng)絡(luò)中傳輸需要經(jīng)過RNI對數(shù)據(jù)進(jìn)行相應(yīng)的打包處理,然后將數(shù)據(jù)送到路由節(jié)點(diǎn)中,經(jīng)過路由傳輸后送達(dá)目的路由,由目的路由RNI對數(shù)據(jù)解包后發(fā)送給目的資源節(jié)點(diǎn)。為了能使數(shù)據(jù)包正確到達(dá)目的節(jié)點(diǎn),一個(gè)完整的數(shù)據(jù)包在經(jīng)過RNI后被分為若干個(gè)微片(flit),flit分為3種類型,即頭微片、數(shù)據(jù)微片和尾微片。頭flit攜帶數(shù)據(jù)包源地址、目的地址、數(shù)據(jù)包長度等信息,尾微片代表著數(shù)據(jù)包的終結(jié),數(shù)據(jù)微片表示傳遞的有效數(shù)據(jù)。路由節(jié)點(diǎn)根據(jù)數(shù)據(jù)攜帶的地址信息將資源節(jié)點(diǎn)發(fā)送的數(shù)據(jù)進(jìn)行轉(zhuǎn)發(fā)。發(fā)送模塊主要由三個(gè)部分組成:輸入緩存器(FIFO A)、組包器和控制器。
ARM資源節(jié)點(diǎn)在向路由發(fā)送數(shù)據(jù)之前首先檢測PORT_AV是否有效(高電平有效),若有效則將數(shù)據(jù)緩存到FIFO A中,在S1狀態(tài)控制器檢測到該FIFO中有數(shù)據(jù)就會(huì)向路由的本地方向發(fā)送數(shù)據(jù)傳輸?shù)恼埱笮盘?hào)req_to_local,并且進(jìn)入S2狀態(tài)。S2狀態(tài)判斷本地方向是否給出應(yīng)答信號(hào)grant_from_local,若沒有則返回S1同時(shí)清除請求信號(hào)。如果有應(yīng)答信號(hào)則進(jìn)入S3狀態(tài)。S3狀態(tài)將輸入緩存器中的數(shù)據(jù)送到本地方向,完成了數(shù)據(jù)從ARM資源節(jié)點(diǎn)到片上網(wǎng)絡(luò)的傳遞。模塊運(yùn)行的狀態(tài)轉(zhuǎn)移圖如圖3所示。
2.3 資源網(wǎng)絡(luò)接口接收模塊設(shè)計(jì)
ARM處理器的資源網(wǎng)絡(luò)接口接收模塊對接收數(shù)據(jù)進(jìn)行解包處理,提取有用的數(shù)據(jù)發(fā)給資源節(jié)點(diǎn)。接收模塊主要由輸出緩存器和應(yīng)答器組成,異步FIFO B是輸出緩存器,用它來存放從路由本地方向發(fā)送過來的數(shù)據(jù),應(yīng)答器是根據(jù)FIFO B存儲(chǔ)狀態(tài)對路由的請求給予對應(yīng)的響應(yīng)。接收過程具體的狀態(tài)轉(zhuǎn)移圖如圖4所示。
在S0狀態(tài)中,數(shù)據(jù)傳輸?shù)铰酚杀镜胤綍?huì)向RNI發(fā)送數(shù)據(jù)傳送請求信號(hào)req_from_local,在S1狀態(tài)應(yīng)答器根據(jù)輸出緩沖器FIFO B的存儲(chǔ)情況給出應(yīng)答信號(hào)grant_to_local。路由器在收到應(yīng)答信號(hào)后將數(shù)據(jù)寫到RNI的FIFO B中。在S2狀態(tài)中應(yīng)答器檢測到FIFO B中存在有效數(shù)據(jù)時(shí)就會(huì)向ARM資源節(jié)點(diǎn)發(fā)送讀數(shù)據(jù)請求信號(hào)receive_req。這個(gè)信號(hào)是直接連接到ARM的硬件中斷上,ARM資源節(jié)點(diǎn)捕獲這個(gè)中斷信號(hào)會(huì)在S3狀態(tài)給RNI模塊提供讀數(shù)據(jù)時(shí)鐘rclk和輸出緩沖器的讀使能信號(hào)read_en_in,進(jìn)而完成ARM資源節(jié)點(diǎn)接收片上網(wǎng)絡(luò)傳來的數(shù)據(jù)。
3 FPGA設(shè)備的Linux驅(qū)動(dòng)程序設(shè)計(jì)
ARM處理器資源節(jié)點(diǎn)選用的是SamSung公司的S3C24XX系列處理器[4],并向其中移植了嵌入式Linux操作系統(tǒng)。其內(nèi)核功能強(qiáng)大,性能高效穩(wěn)定且源代碼開放,這使得設(shè)計(jì)者可以根據(jù)實(shí)際的需要對操作系統(tǒng)進(jìn)行裁減以降低整個(gè)系統(tǒng)資源的開銷和功耗。
為了使FPGA能夠在Linux操作系統(tǒng)中工作,為其設(shè)計(jì)了相應(yīng)的設(shè)備驅(qū)動(dòng)程序。設(shè)備驅(qū)動(dòng)程序是應(yīng)用程序和實(shí)際設(shè)備之間的軟件層。它為應(yīng)用程序屏蔽了設(shè)備硬件工作的細(xì)節(jié),在應(yīng)用程序中只需要通過一組標(biāo)準(zhǔn)化調(diào)用完成對硬件設(shè)備的操作[5]。
本文ARM資源節(jié)點(diǎn)通過設(shè)備驅(qū)動(dòng)實(shí)現(xiàn)和FPGA之間數(shù)據(jù)的通信。FPGA設(shè)備驅(qū)動(dòng)程序?qū)崿F(xiàn)的主要功能是:(1)初始化FPGA模塊,注冊FPGA設(shè)備,申請中斷號(hào)等。(2)通過ioremap()將資源網(wǎng)絡(luò)接口中輸入輸出緩沖器的物理地址映射到內(nèi)核虛擬空間。(3)捕獲資源網(wǎng)絡(luò)接口發(fā)出的中斷信號(hào),并對中斷事件進(jìn)行處理。(4)根據(jù)應(yīng)用系統(tǒng)要求完成讀寫操作程序的設(shè)計(jì)。
3.1 驅(qū)動(dòng)硬件接口
FPGA采用存儲(chǔ)總線的方式直接連接在S3C2440的AHB總線上,將其作為ARM處理器的一個(gè)外部存儲(chǔ)器進(jìn)行讀寫操作,硬件連接如圖2所示,其主要連接有16位寬的數(shù)據(jù)線,地址線以及讀、寫、中斷和片選信號(hào)線參照S3C2440存儲(chǔ)控制器的地址空間分布圖,將FPGA設(shè)置到bank5的地址空間中,對應(yīng)的片選信號(hào)線為nGCS5,在FPGA內(nèi)部構(gòu)造了兩個(gè)異步FIFO (FIFO A、B)作為資源網(wǎng)絡(luò)接口的輸入、輸出緩沖器,ARM通過訪問異步FIFO完成和FPGA的數(shù)據(jù)通信。
3.2 驅(qū)動(dòng)的軟件設(shè)計(jì)
FPGA設(shè)備驅(qū)動(dòng)首先在初始化模塊中向Linux操作系統(tǒng)申請?jiān)O(shè)備號(hào),申請成功后,該設(shè)備獲得了系統(tǒng)分配的主設(shè)備號(hào),并建立起與文件系統(tǒng)的關(guān)聯(lián)。關(guān)聯(lián)成功后,在應(yīng)用層可以通過read()、write()、ioctl()等常規(guī)的文件操作對FPGA設(shè)備進(jìn)行操作。
驅(qū)動(dòng)程序?yàn)橘Y源網(wǎng)絡(luò)接口的輸入、輸出緩沖器分別分配物理地址,程序不能直接通過物理地址來訪問I/O內(nèi)存資源,必須通過內(nèi)核函數(shù)ioremap()將緩沖器占用的物理地址映射到內(nèi)核虛擬空間中。在此基礎(chǔ)上結(jié)合系統(tǒng)讀寫網(wǎng)絡(luò)資源接口的策略完成驅(qū)動(dòng)程序設(shè)計(jì),讀寫資源網(wǎng)絡(luò)接口的程序流程圖如圖5(a)、(b)所示。
為了提高系統(tǒng)的效率,避免當(dāng)設(shè)備資源不可用時(shí),用戶不停查詢浪費(fèi)CPU資源,在驅(qū)動(dòng)程序中設(shè)計(jì)了阻塞操作,使用等待隊(duì)列來實(shí)現(xiàn)阻塞進(jìn)程的休眠和喚醒。應(yīng)用程序進(jìn)行read()函數(shù)的系統(tǒng)調(diào)用時(shí),若RNI模塊中的輸入緩沖器中沒有數(shù)據(jù),驅(qū)動(dòng)程序則將該讀進(jìn)程添加到等待隊(duì)列頭中,使該進(jìn)程進(jìn)入休眠狀態(tài),CPU將資源讓給其他進(jìn)程。當(dāng)輸入緩沖器中的數(shù)據(jù)達(dá)到閾值時(shí)RNI就會(huì)向ARM資源節(jié)點(diǎn)發(fā)出讀數(shù)據(jù)請求信號(hào),ARM資源節(jié)點(diǎn)通過中斷來捕獲這個(gè)通知,在驅(qū)動(dòng)程序的中斷處理函數(shù)喚醒休眠的讀進(jìn)程,將輸入緩沖器中的數(shù)據(jù)中讀取到內(nèi)核中,然后通過copy_to_user()將數(shù)據(jù)傳遞到用戶空間進(jìn)行相應(yīng)的處理。類似的,應(yīng)用程序中進(jìn)行write()函數(shù)的系統(tǒng)調(diào)用時(shí),ARM處理器通過copy_from_user()將數(shù)據(jù)發(fā)送到RNI中。
4 資源網(wǎng)絡(luò)接口和驅(qū)動(dòng)功能驗(yàn)證
本設(shè)計(jì)在實(shí)驗(yàn)室自行開發(fā)的NoC硬件平臺(tái)上進(jìn)行了運(yùn)行測試,對于運(yùn)行結(jié)果使用Quartus II 11.0集成開發(fā)軟件下的Signal Tap II嵌入式邏輯分析器進(jìn)行測試。在測試程序中可以利用它捕捉通信接口相應(yīng)的時(shí)序。
程序運(yùn)行時(shí),使用Signal Tap II觀測ARM資源節(jié)點(diǎn)發(fā)送數(shù)據(jù)到路由節(jié)點(diǎn)的時(shí)序如圖6所示。從圖中觀測可知數(shù)據(jù)data_to_local和datain_receive一致,說明數(shù)據(jù)傳輸正確性。
ARM資源節(jié)點(diǎn)通過接收NoC系統(tǒng)中其他資源節(jié)點(diǎn)發(fā)送來的數(shù)據(jù),驗(yàn)證資源網(wǎng)絡(luò)接口以及驅(qū)動(dòng)通信接收功能的正確性。在程序運(yùn)行時(shí)ARM資源節(jié)點(diǎn)將接收到的數(shù)據(jù)在終端打印出來,經(jīng)觀察終端顯示的數(shù)據(jù)和該資源節(jié)點(diǎn)發(fā)送的數(shù)據(jù)是一致的。實(shí)際測試結(jié)果表明所設(shè)計(jì)資源網(wǎng)絡(luò)接口和驅(qū)動(dòng)功能的正確性。
本文給出了ARM處理器資源節(jié)點(diǎn)與NoC系統(tǒng)的網(wǎng)絡(luò)資源接口設(shè)計(jì),并且闡述在嵌入式Linux2.6.30內(nèi)核下數(shù)據(jù)通信的驅(qū)動(dòng)的設(shè)計(jì)和實(shí)現(xiàn)過程。系統(tǒng)在此設(shè)計(jì)的基礎(chǔ)上充分利用ARM及其豐富的外設(shè)資源,完成了ARM處理器資源節(jié)點(diǎn)對NoC系統(tǒng)的其他資源節(jié)點(diǎn)進(jìn)行控制以及數(shù)據(jù)處理等功能。ARM處理器有豐富的外設(shè)接口,能夠穩(wěn)定地運(yùn)行移植到芯片中的Linux操作系統(tǒng),以ARM處理器作為NoC片上多核系統(tǒng)的資源節(jié)點(diǎn)可以極大地拓展NoC系統(tǒng)應(yīng)用空間。
參考文獻(xiàn)
[1] BENINI L, MICHELI G D. Network on chip:A new SoC paradigm[J]. IEEE Computer, 2002, 3(1):70-78.
[2] Altera Inc. Cyclone IV device handbook[Z] . http://www.altera.com, 2010.
[3] 高明倫,杜高明.NoC:下一代集成電路主流設(shè)計(jì)技術(shù)[J].微電子學(xué),2006,36(4).
[4] Samsung. S3C2440 32-bit Microcontroller User′s manual[Z]. http://www.samsung.com,2004.
[5] CORBET J, RUBINI A, HARTMAN G K.Linux設(shè)備驅(qū)動(dòng)程序(第3版)[M].魏永明,譯.北京:中國電力出版社,2006.