摘 要: 介紹了S698P4 SoC多核處理器的體系結構,及多時鐘機制、多核調度機制,討論了芯片工作時,多時鐘機制及多核調度機制對其性能的影響。相關的技術在工程實踐中已經(jīng)得到驗證,獲得了良好的效果。
關鍵詞: S698P4;并行處理;多時鐘機制;多核調度機制
由于性能上的需求,當前嵌入式系統(tǒng)已經(jīng)不滿足于使用單核處理器系統(tǒng),許多設計者開始考慮多核處理。但多核處理系統(tǒng)在帶來性能提升的同時,也面臨著一系列需要考慮的問題,如數(shù)據(jù)一致性問題[1]、多時鐘控制問題和多核調度問題等。如果一個多核、多任務系統(tǒng)無法合理處理多任務需求,無法合理分配各核間的資源及工作,多核處理的優(yōu)勢將得不到很好的體現(xiàn),嚴重時甚至會出現(xiàn)災難性的后果。
本文以S698P4 SoC處理器為例,介紹在多核處理器系統(tǒng)中,多時鐘機制及多核調度機制對芯片性能的影響。
1 S698P4 SoC簡介
S698P4 SoC是基于SPARCV8架構[2]的高性能的32 bit RISC嵌入式4核處理器,采用SMP[3]“對稱多處理”技術,在一個內核里集成4個功能一樣的處理器核心,各CPU之間共享內存子系統(tǒng)及總線結構。總線競爭核仲裁由硬件自動完成,不需要用戶進行設置。該處理器專為嵌入式應用而設計,具有高性能、低復雜度和低功耗的特點。
S698P4支持多核并行處理機制[4-5],采用eCos實時嵌入式操作系統(tǒng)。eCos將任務隊列對稱地分布于多個CPU之上,從而極大地提高了整個系統(tǒng)的數(shù)據(jù)處理能力。所有的處理器都可以平等地訪問內存[6]、I/O口和外部中斷。系統(tǒng)資源被系統(tǒng)中所有CPU共享,工作負載能夠均勻地分配到所有可用處理器之上,運算速度快,數(shù)據(jù)處理量大、功耗低,性能和可靠性遠高于單核處理器。
圖1為S698P4結構圖,S698P4處理器內部集成了CPU0、CPU1、CPU2和CPU3 4個S698P核,每個S698P CPU內部又分別集成32 bit整形數(shù)處理單元、32 bit/64 bit浮點數(shù)處理單元及8 KB數(shù)據(jù)緩存(data cache)和指令緩存(instruction cache)。針對實時應用的嵌入式領域,S698P4提供了內部看門狗、定時器、中斷控制器、通用I/O口以及串行通信接口;針對航空航天領域,S698P4提供了CAN總線接口、以太網(wǎng)接口以及1553B總線。同時,為了芯片調試,芯片內部還集成了硬件調試專用接口DSU。用戶通過DSU可以訪問CPU內部所有寄存器和存儲器資源,也可訪問外部所有存儲器和I/O外設,為基于S698P4的硬件/軟件調試提供方便[7]。
S698P4處理器可廣泛應用于航空航天的高端電子設備、海量數(shù)據(jù)處理、大規(guī)模網(wǎng)絡應用、復雜科學計算及大型圖形建模為特征的企業(yè)或行業(yè)等領域。
2 多時鐘機制
S698P4單核最高運行速度可達到400 MHz,如果整個芯片都采用同一個時鐘,則所有外設和板級設備都要求運行在400 MHz的頻率上,這會增大系統(tǒng)設計的難度,并增加系統(tǒng)功耗,降低系統(tǒng)的穩(wěn)定性。
S698P4采用多時鐘機制來平衡高速CPU內核和低速的外部設備之間的矛盾,在提高芯片性能的同時,避免對板級設備提出過高的要求。
S698P4的時鐘電路產(chǎn)生高速的CPU時鐘CPU_CLK,CPU_CLK除了供給4個CPU內核使用外,還經(jīng)過4分頻電路,產(chǎn)生HCLK供給AMBA總線和外設使用。
S698P4 4個內核采用同樣的時鐘,它們全部從CPU_CLK得來,并且與CPU_CLK同頻、同相。
CPU_CLK、CPU0_CLK到CPU3_CLK和HCLK之間的相位關系如圖2所示。
HCLK的頻率是CPU_CLK的四分之一。在CPU需要訪問AMBA總線和外設時,信號的時序需要按照HCLK的時序進行。如果CPU_CLK運行在400 MHz,則HCLK只需要運行在100 MHz。在板級設備上,普通的SDRAM即可滿足要求。對于其他慢速設備,則可以通過配置存儲器控制器寄存器的讀寫等待周期解決。
3 多核調度機制
3.1 S698P4多核中斷控制
S698P4在一個處理器上匯集了4個CPU,各CPU之間共享一個操作系統(tǒng)、內存子系統(tǒng)、總線結構和I/O系統(tǒng)等。同時使用多個CPU時,從管理的角度來看,它們的表現(xiàn)如同一臺單機。正常啟動后,所有的CPU無主從之分,都可以平等地訪問內存、I/O和外部中斷。S698P4各CPU之間的通信是通過多核中斷控制器(MP IRQCTRL)的中斷來實現(xiàn)的,其結構如圖3所示。
S698P4中的每個CPU都可以通過多核中斷控制器向其他CPU發(fā)中斷請求,每個CPU都可以響應其他CPU的中斷請求。在多核中斷控制器中,有一個稱為多處理器狀態(tài)寄存器(Multi-processor status register),其后4位(STATUS[3:0])分別控制4個CPU的狀態(tài),寫入1,其相應的CPU就會被激活;寫入0,其相應的CPU就會進入休眠。S698P4啟動時,CPU有主CPU(CPU0)和從CPU之分,啟動完之后,所有CPU不分主從。CPU0的啟動順序和其他CPU的啟動順序是不同的,上電或者軟復位后,S698P4先啟動CPU0,其他CPU處于power down狀態(tài)。在CPU0初始化完成后,通過設置多處理器狀態(tài)寄存器啟動、初始化其他CPU,之后所有CPU無主從之分。多處理器狀態(tài)寄存器如圖4所示。
在SMP系統(tǒng)中,系統(tǒng)資源被系統(tǒng)中所有處理器共享,工作負載能夠均勻地分配到所有可用處理器之上。并且因為結構共享存儲器、統(tǒng)一地址空間,使得系統(tǒng)編程比較容易。系統(tǒng)將任務隊列對稱地分布于多個CPU之上,從而極大地提高了整個系統(tǒng)的數(shù)據(jù)處理能力。
3.2 S698P4中斷源處理
S698P4中的AMBA系統(tǒng)提供一個中斷方案,中斷線排成一行連同剩余的AHB/APB總線信號線,形成一個中斷總線。來自AHB和APB單元的中斷通過總線連結在一起被發(fā)送。多處理器中斷控制器附屬到AMBA總線,作為一個APB從設備,而且監(jiān)視組合的中斷信號。在中斷總線上產(chǎn)生的中斷全部被轉送給中斷控制器,中斷控制器通過優(yōu)先級區(qū)分,中斷屏蔽選擇,把最高優(yōu)先級的中斷送給處理器。
中斷監(jiān)視器監(jiān)視中斷總線中的1~15個中斷,通過設置中斷電平寄存器,每個中斷可以被指定0或者1兩個電平。電平1中斷的優(yōu)先級比電平0中斷的優(yōu)先級高。而每個電平的中斷也是有優(yōu)先級區(qū)分的,中斷15優(yōu)先級最高;中斷1則優(yōu)先級最低。電平1的優(yōu)先級最高中斷將會被轉送到處理器。如果電平1沒有非屏蔽掛起中斷存在,來自電平0的最高非屏蔽掛起中斷將會轉送到處理器。
當多個處理器單獨屏蔽和轉送時,中斷在系統(tǒng)電平上有區(qū)分。多處理器系統(tǒng)的每個處理器有單獨的中斷屏蔽和強制寄存器。當一個中斷在中斷總線上被告知時,中斷掛起寄存器的相應位置1,將中斷信號發(fā)送到每個CPU屏蔽寄存器,為每個CPU進行中斷屏蔽,然后對中斷進行優(yōu)先級選擇,把優(yōu)先級高的中斷送到CPU。
當有一個CPU應答中斷后,對應的中斷掛起位將會自動地被清除,中斷也可以通過設置中斷強制寄存器產(chǎn)生對應的中斷。由此處理器應答后將清除強制位,而并非掛起位。復位之后,中斷屏蔽寄存器全部被設定為0,剩余的控制寄存器是不確定的。注意:中斷15能被S698P4處理器屏蔽,使用時大部分操作系統(tǒng)不能正確處理這個中斷。
S698P4中斷控制器把S698P4內部和外部的所有中斷按照優(yōu)先級先后順序排列,并傳送給IU。S698P4總共有15個中斷,如表1所示。
3.3 S698P4調度算法
eCos支持對稱多處理器(SMP)系統(tǒng),多CPU之間的任務調度采用多級隊列調度,主要調度算法有時間片輪轉調度算法和搶占式優(yōu)先權調度算法。
多級隊列調度的優(yōu)先級數(shù)目在調度器配置的時候給出,最多有32個優(yōu)先級,0為最高優(yōu)先級。每個優(yōu)先級上都有一個隊列。每個隊列支持多個線程。單個隊列中各線程優(yōu)先級相同,同優(yōu)先級線程可支持時間片輪轉。
任務調度僅在激活的CPU上進行,其他的調度在4個CPU都處于激活狀態(tài)。當前任務數(shù)小于等于4個時,系統(tǒng)將每個任務分配一個CPU上,之后系統(tǒng)不會進行CPU間任務調度,一直運行到結束;當前任務數(shù)大于4個時,系統(tǒng)才會在CPU間進行任務調度。
當任務大于4個時,系統(tǒng)將進行CPU間的任務調度。調度算法采用時間片輪轉調度算法和搶占式優(yōu)先權調度算法。系統(tǒng)將任務就緒隊列中優(yōu)先級最高的4個任務分配到4個CPU上,每個CPU開始執(zhí)行任務,任務執(zhí)行時間以時間片為單位。當時間片時間到達時會產(chǎn)生一個定時器中斷,當系統(tǒng)定時器中斷產(chǎn)生時,由其中一個CPU(不確定)接收定時中斷,接收定時中斷的CPU必須為所有的CPU的時間片計數(shù)器進行操作。當某個CPU的時間片計數(shù)器到達0時,它將給該CPU發(fā)送一個時間片中斷。當其他CPU接收到時間片中斷時(S698P4每個CPU都必須處理時間片),該CPU比較當前任務和任務就緒表中最高優(yōu)先級的任務,如果后者的優(yōu)先級比前者的優(yōu)先級高,則系統(tǒng)就會產(chǎn)生調度。CPU把任務就緒表中最高優(yōu)先級的任務調到該CPU上運行,把先前的任務重新在任務就緒表排隊。只要出現(xiàn)了另一個優(yōu)先權更高的任務,調度程序就在下一個時間片中斷暫停原最高優(yōu)先權任務的執(zhí)行,而將CPU分配給新出現(xiàn)的優(yōu)先權最高的任務。直到當前任務數(shù)小于等于4個時,系統(tǒng)才停止CPU間調度。
目前S698P4處理器已經(jīng)成功實現(xiàn)了量產(chǎn),在航空航天、工業(yè)控制等領域中得到廣泛的應用。實踐證明,S698P4多時鐘及多核調度機制能夠在發(fā)揮處理器整體性能上起到很關鍵的作用。
參考文獻
[1] 梁寶玉,顏軍,侯雄,等.多核處理器S698P-SoC的數(shù)據(jù)一致性[J].航天控制,2008,26:82-86.
[2] 珠海歐比特控制工程股份有限公司.S698P4芯片用戶手冊(V2.0)[K],2011.
[3] ZHAO Y, HU C, WANG S, et al. An extended openMP targeting on the hybrid architecture of SMP-cluster[M], Advances in Computer Science and Technology, 2006.
[4] 季振洲.并行處理與體系結構講義[Z].哈爾濱:哈爾濱工業(yè)大學,2005.
[5] BYOUNGRO S, ANWAR M G, YOUFENG W. Optimizing data parallel operations on many-core platforms[D]. Intel Corporation, 2004.
[6] 唐志敏.分布存儲并行系統(tǒng)中的共享存儲編程環(huán)境講義[D].北京:中科院計算機研究所,2003.
[7] 蔣曉華,李付海,祁波.SPARC體系的S698系列SoC及其應用[J].單片機與嵌入式系統(tǒng)應用,2007(8):84-85.