兩個或多個微處理器一起工作來完成某個任務(wù)的系統(tǒng)稱為“多處理器系統(tǒng)”。傳統(tǒng)基于單片機(jī)的多處理器系統(tǒng)結(jié)構(gòu)復(fù)雜,可靠性差;而基于32位的嵌入式軟核處理器NiosII的SOPC(可編程片上系統(tǒng))多處理器系統(tǒng)解決方案,從根本上改變了多處理器系統(tǒng)的設(shè)計理念和方法。使用Altera公司的NiosII軟核處理器和SOPC Builder工具,可以快速地設(shè)計和建立共享資源的多處理器系統(tǒng)。多處理器系統(tǒng)一般用于工作站和使用分載(load-sharing)的復(fù)雜算法(稱為“對稱多處理器SMP”)的高端PC計算。對于大部分嵌入式系統(tǒng),當(dāng)SMP的開銷太大時,使用多個處理器執(zhí)行不同的任務(wù),實現(xiàn)不同的功能正引起越來越多的關(guān)注。Altera公司的FPGA為開發(fā)非對稱的嵌入式多處理器系統(tǒng)提供了一個理想的平臺。為了提供理想的系統(tǒng)性能,使用SOPC Builder工具可以很容易地對硬件進(jìn)行修改和調(diào)整,從而很快完成不同配置系統(tǒng)的設(shè)計、編譯和評估[1]。
本文將對基于NiosII的SOPC多處理器系統(tǒng)的實現(xiàn)原理、設(shè)計流程和方法進(jìn)行詳細(xì)的討論。
1 NiosIl多處理器系統(tǒng)硬件設(shè)計
QuartusII 5.0及以上版本支持多處理器系統(tǒng)的創(chuàng)建和調(diào)試。多個NiosII處理器能夠有效地共享系統(tǒng)資源。由于SOPC Builder允許用戶輕松添加多個處理器到系統(tǒng)中,因此建立多處理器系統(tǒng)的難點已不再是硬件的排列和連接,而在于多個處理器的軟件設(shè)計,使它們正常操作,相互之間不產(chǎn)生沖突。NiosII多處理器系統(tǒng)分為2類:一類是共享資源的多處理器系統(tǒng);另一類處理器相互獨立,之間不進(jìn)行信息交換。
2 Niosll多處理器系統(tǒng)的資源共享
資源共享是多處理器系統(tǒng)的強(qiáng)大功能,但必須仔細(xì)考慮所要共享的資源,以及不同處理器如何使用共享資源。
2.1 共享存儲器
在多處理器系統(tǒng)中最普遍的共享資源是存儲器。共享存儲器用于存放任何數(shù)據(jù),從指示處理器間通信狀態(tài)的簡單標(biāo)志,到被多個處理器同時進(jìn)行計算的復(fù)雜數(shù)據(jù)結(jié)構(gòu)。
如果存儲器中包含不只一個處理器的程序代碼,那么每個處理器需要有不同的存儲地址。對于程序空間,處理器不能共享存儲器的同一區(qū)域。如果共享數(shù)據(jù)存儲器,則存儲器的數(shù)據(jù)需要從端口與共享存儲器的處理器的數(shù)據(jù)主端口連接。多處理器之間共享數(shù)據(jù)存儲器比共享指令存儲器困難,原因是數(shù)據(jù)存儲器可讀/寫。如果某一處理器正在對共享存儲器的特定區(qū)域進(jìn)行寫操作,而同時另一個處理器正在對同一區(qū)域進(jìn)行讀或?qū)懖僮?,則很可能出現(xiàn)數(shù)據(jù)錯誤,至少使應(yīng)用程序出錯,甚至使系統(tǒng)崩潰。
共享存儲器的處理器需要一個機(jī)制來通知其他處理器何時正在使用共享資源,以便不受其他處理器的干擾。
2.2 硬件互斥核
NiosII處理器允許使用其硬件互斥核部件對共享資源進(jìn)行保護(hù)處理。這個硬件互斥核不是一個NioslI處理器內(nèi)部的部件,而是一個稱為Mutex的SOPC Builder組件。
互斥核也可看作一種共享資源,提供一個原子的“測試和置位”操作,處理器測試Mutex是否可行。如果可行,就在某個操作中獲取它。當(dāng)處理器結(jié)束與Mutex相關(guān)的共享資源使用時,釋放該Mutex;此時,另一個處理器可能獲取了Mutex,使用共享資源?;コ夂嗽谖锢砩喜⒉荒芊乐官Y源同時被多個處理器訪問。運行在處理器上的軟件必須被設(shè)計為在訪問相關(guān)共享資源之前總是獲取Mutex的。
在大部分情況下,多個處理器之間應(yīng)該使用互斥核來保護(hù)共享資源。然而,也有一些不需要互斥核的,例如對于單方向或循環(huán)的消息緩沖隊列,此時只有一個處理器往存儲器的某個特殊位置寫數(shù)據(jù)。
一般地,NiosII不支持多個處理器之間非存儲器外設(shè)的共享,NiosII硬件抽象層(HAL)庫也不支持。NiosIIHAL提供訪問Mutex核的API函數(shù)如表1所列。
2.3 多處理器地址空間的重疊
在單處理器系統(tǒng)中,不允許多于一個的從外設(shè)具有相同的地址空間,原因是這將引起矛盾。然而,在多處理器系統(tǒng)中,只要外設(shè)被不同的處理器控制,那么不同的從外設(shè)就可以具有相同的基地址。
3 Niosll多處理器系統(tǒng)軟件設(shè)計
3.1 程序存儲器
在多處理器系統(tǒng)中,多個處理器可能使用同一個程序存儲器,每個處理器的程序必須存放在不同的位置。Ni-osII和SOPC Builder提供一個簡單的存儲器分區(qū)模式,允許多個處理器在同一存儲器的不同區(qū)域運行各自的軟件。分區(qū)模式使用處理器的異常地址,可以在SOPC Builder中進(jìn)行設(shè)置。NiosII IDE負(fù)責(zé)根據(jù)異常地址計算出不同代碼段鏈接的位置。如果2個不同的處理器被鏈接到同一存儲器,那么每個處理器的異常地址用來決定處理器軟件存放的基地址,其末地址由下一個異常地址或者存儲器的末地址決定。對于每個處理器,軟件有5個主要的代碼段需要被鏈接到存儲器中的固定地址,分別是:
·text 實際的可執(zhí)行代碼;
·rodata代碼段執(zhí)行時所使用的常量數(shù)據(jù);
·rwdata讀/寫變量和指針;
·heap 動態(tài)分配的存儲器;
·stack 函數(shù)調(diào)用參數(shù)和其他臨時數(shù)據(jù)。
在多處理器系統(tǒng)中,對于每個處理器,都希望使用連續(xù)的存儲區(qū)域存儲其所有的代碼段。在這種情況下,異常地址用來定義2個處理器之間代碼存放的分界。
值得注意的是,異常地址的低6位總是設(shè)置為0x20,因為偏移量0x0是NiosII的復(fù)位地址,所以異常地址必須位于其他位置。偏移量選擇為0x20,原因是它與一條指令的緩存行有關(guān)。0x20字節(jié)的復(fù)位代碼初始化指令緩存行,然后跳轉(zhuǎn)到系統(tǒng)的起始代碼處。
3.2 啟動地址
在多處理器系統(tǒng)中,每個處理器必須從自己的存儲區(qū)域啟動。為了從同一個非易失性存儲器中的不同區(qū)域啟動多處理器,簡單地設(shè)置每個處理器的復(fù)位地址為所期望的啟動地址。在啟動地址之間要留出足夠的空間存放啟動代碼。
NiosII Flash Programmer能夠?qū)⒍鄠€處理器的啟動代碼編程到一個Flash器件中。Flash Programmer根據(jù)每個處理器的復(fù)位地址計算Flash內(nèi)的編程地址。
3.3 NiosII IDE中多處理器系統(tǒng)的運行和調(diào)試
NiosII IDE中包含許多幫助開發(fā)多處理器系統(tǒng)軟件的工具,最重要的是具有對多處理器同時進(jìn)行在片涮試的能力。在多處理器系統(tǒng)上,多個debug(調(diào)試)可同時運行;每個處理器可以單獨暫停和恢復(fù),也可以單獨設(shè)置每個處理器的斷點。某個處理器停在一個斷點處,并不影響其他處理器的操作。每個debug通道也可以單獨打開和停止。在NiosII IDE中,利用一項稱為“處理器集合(mul-tiprocessor collections)”的功能,一個操作就可以打開多個處理器的debug通道。multiprocessor collections是被連接在一個配置名字下的每個處理器的debug配置組。使用multiprocessol collections的好處是無論何時打開collections,NiosII IDE都可以打開每個debug通道,而不用手動打開。也可以用一個操作停止multiprocessor col-lections,但是同時暫停和恢復(fù)multiprocessor collections目前不支持。
multiprocessor collections的打開和停止不是同時的,這意味著在collections中的處理器不能在同一個時鐘周期開始執(zhí)行代碼。事實上,不同處理器的啟動可能有幾秒的延遲。multiprocessor collections的目的是方便打開多處理器系統(tǒng)的debug通道,而不是為了同步處理器。如果需要在較短的時間內(nèi)啟動多個處理器,則需要構(gòu)建單獨的硬件和軟件機(jī)制。
4 NiosII多處理器系統(tǒng)設(shè)計實例
下面將利用SOPC Builder建立一個基于標(biāo)準(zhǔn)模板的3處理器、共享片上存儲器的NiosII系統(tǒng),之后在NiosII IDE中為每個處理器建立一個軟件工程。系統(tǒng)功能是:3個CPU的軟件將產(chǎn)生要顯示的消息。使用硬件?;コ夂藢⑺a(chǎn)生的不同消息放在共享的消息緩沖區(qū)中。cpul將連續(xù)檢查緩沖區(qū)中的新消息,如果發(fā)現(xiàn)新消息,就通過jtag_uart顯示出來。
實例的開發(fā)環(huán)境是QuartuslI 5.0或以上版本[2],開發(fā)套件CycloneII Edition和nioslI_cycloneII_2c35開發(fā)板。
4.1 創(chuàng)建硬件系統(tǒng)
在標(biāo)準(zhǔn)硬件實例standard.qp的設(shè)計基礎(chǔ)上,增加2個處理器、2個定時器和1個硬件互斥核組件;另外增加1個消息緩存區(qū)message_buffer_ram(片上RAM),用作3個處理器的消息緩存區(qū)。按如下步驟連接共享資源:
① 使用連接矩陣,將SDRAM連接到每個處理器的指令和數(shù)據(jù)主端口。允許3個處理器訪問SDRAM。
② 將ext_ram_bus蓮接到每個處理器的指令和數(shù)據(jù)主端口。允許3個處理器訪問外部RAM和Flash。
③ 將message_buffer_ram連接到每個處理器數(shù)據(jù)主端口。允許3個處理器訪問該存儲器。
④ 去除在message_buffer_ram和cpul指令主端口之間的缺省連接。
⑤ 選擇System→Auto-Assign Base Addresses,為每個外設(shè)分配一個唯一的基地址。
完成以上操作后,系統(tǒng)配置如圖1所示。3個處理器的數(shù)據(jù)主端口與共享存儲器的同一從端口連接。因為cpul、cpu2和cpu3在物理上能夠同時將數(shù)據(jù)寫到共享存儲器中,軟件必須仔細(xì)設(shè)計以保證存儲在共享存儲器上數(shù)據(jù)的完整性。注意:圖1所示的系統(tǒng)配置中,只有cpul的數(shù)據(jù)主端口與jtag_uart相連。
最后,為3個CPU設(shè)置復(fù)位和異常地址,創(chuàng)建和編譯系統(tǒng),并下載FPGA的設(shè)計文件.sof文件到開發(fā)板。
4.2 為多處理器系統(tǒng)創(chuàng)建軟件
在NiosII IDE[3]環(huán)境下,為3個處理器系統(tǒng)分別創(chuàng)建6個軟件工程,為每個處理器創(chuàng)建一個應(yīng)用工程和一個系統(tǒng)庫工程。之后對軟件工程進(jìn)行編譯、運行和調(diào)試。
軟件使用硬件Mutex共享一個消息緩存區(qū)。3個處理器分別寫消息到消息緩存區(qū)(count)且循環(huán)加1。cpul讀消息且通過jtag_uart顯示消息。每個處理器運行同樣的C文件,但處理器的操作稍有不同。這是通過使用Ni-osII的cpuid實現(xiàn)的。在NioslI處理器系統(tǒng)中,某個處理器通過寫其cpuid控制寄存器的值到Mutex寄存器的OWNER域來對Mutex加鎖。cpuid寄存器保持一個靜態(tài)值,在多處理器系統(tǒng)中,該值唯一地識別一個處理器,且在系統(tǒng)創(chuàng)建時確定。軟件執(zhí)行某個處理器的函數(shù)時,首先檢查處理器的cpuid,如果cpuid正確,則執(zhí)行相應(yīng)函數(shù)。工程中的文件為hello_world_multi.c,其中將信息寫入緩沖區(qū)的功能由以下程序段實現(xiàn):
如果將信息從jtag_uart輸出,那么程序首先判斷id是否等于3。因為硬件設(shè)計時,只有cpul與jtag_uart相連,而cpul的id的值為3(在系統(tǒng)創(chuàng)建時確定),cpu2、cpu3的id分別為1和2,且id的值等于cpuid控制寄存器的值加1,可在NiosII IDE環(huán)境下讀取cpuid控制寄存器的內(nèi)容。其信息輸出的程序如下:
在System Library屬性中,第1個工程選擇jtag_uart為stdin、stderr和stdout,選擇cpul_timer為the Systemclock timer;第2個工程選擇cpu2_timer為System clocktimer,驗證stdin、stderr和stdout為null,因為這個處理器不與jtag_uart連接;第3個工程選擇cpu3_timer為Systemclock timer,其余同工程2。驗證這3個工程的SDRAM被選擇為Program memory、Read-only data memory、Read/write data memory、Heap memory和Stack memory。
分別經(jīng)編譯、下載、運行后,在終端上顯示這3個處理器產(chǎn)生的消息,如圖2所示。
結(jié) 語
結(jié)果表明,3處理器系統(tǒng)通過硬件互斥核,實現(xiàn)了存儲器的共享。在此實例的基礎(chǔ)上,按同樣的方法添加處理器及相應(yīng)的硬件組件,并開發(fā)相關(guān)應(yīng)用軟件,即可實現(xiàn)滿足不同需求的多處理器系統(tǒng)。