0 引 言
高可靠性是現代軍用電子設備和某些控制系統(tǒng)的首要需求。冗余技術是計算機系統(tǒng)可靠性設計中常采用的一種技術,是提高計算機系統(tǒng)可靠性的最有效方法之一。合理的冗余設計將大大提高系統(tǒng)的可靠性, 但同時也增加了系統(tǒng)的復雜度和設計的難度, 應用冗余配置的系統(tǒng)還增加了用戶投資。因此,如何對冗余設計進行合理有效的設計, 是值得深入研究的課題。
1:1 熱冗余也就是所謂的雙重化, 是其中一種有效的冗余方式, 但它并不是兩個部件簡單的并聯(lián)運行,而是需要硬件、軟件、通信等協(xié)同工作來實現。將互為冗余的兩個部件構成一個有機的整體,通常包括以下多個技術要點: 信息同步技術、故障檢測技術、故障仲裁技術和切換技術、熱插拔技術和故障隔離技術等。
本文將WDM 的定時器功能應用在冗余技術中,為系統(tǒng)的故障檢測和切換技術提供了一種解決方案,并以雙冗余CAN 總線接口板為例測試本設計的可行性。
1 冗余技術
冗余技術有兩種方式: 工作冗余和后備冗余。工作冗余是對關鍵設備以雙重或三重的原則來重復配置,這些設備同時處于工作運行狀態(tài), 工作過程中若某一臺設備出現故障, 它會自動脫離系統(tǒng), 但并不影響系統(tǒng)的正常工作。后備冗余方式是使一臺設備投入運行, 另一臺冗余設備處于熱備用狀態(tài),但不投入運行, 在線運行設備一旦出現故障, 后備設備立即投入運行。常用的冗余系統(tǒng)按其結構可分為并聯(lián)系統(tǒng)、備用系統(tǒng)和表決系統(tǒng)三種。最簡單的冗余設計是并聯(lián)裝置, 其他方法還有串并聯(lián)或并串聯(lián)混合裝置和多數表決裝置等。當某部分可靠性要求很高,但目前的技術水平和方法很難滿足時, 冗余技術可能成為惟一較好的設計方法。但是冗余設計往往使系統(tǒng)的體積、重量、費用和復雜度均相應增加。因此, 除了重要的關鍵設備,對于一般產品不宜采用冗余技術。
冗余配置雖然增加系統(tǒng)的投資, 但它提高了整個用戶系統(tǒng)的平均無故障時間( MTBF) , 縮短了平均故障修復時間( MT TR) 。因此, 在重要場合的控制系統(tǒng)中,冗余技術的采用可有效提高系統(tǒng)的可靠性。
一個冗余系統(tǒng)要工作通常是硬件與軟件的配合完成的。在硬件上需要有幾個相同的, 可獨立工作的設備。在軟件上來說,就是在實現系統(tǒng)功能的同時, 要有錯誤檢測功能和動態(tài)切換功能, 并且要在盡可能短的時間內完成切換動作。下面以雙CAN 總線接口卡為例,主要從軟件方面詳述本后備冗余設計的實現細節(jié)。
2 硬件設計
CAN 控制器采用Philips 的SJA1000,工作于BasicCAN 模式或PeliCAN 模式下, PeliCAN 模式支持CAN 2. 0B 協(xié)議, 采用8 位地址/ 數據復用總線接口。
如圖1 所示, PCI 總線雙CAN 接口卡由2 片SJA1000 提供兩路獨立的CAN 接口, 每片芯片的8 位地址/ 數據總線和讀寫控制信號、鎖存信號直接與PCI9052 相連。SJA1000 輸出信號經過光耦到CAN 收發(fā)器PCA82C250, PCA82C250 供電電源為隔離電源,由隔離電源轉換模塊提供。CAN 總線的復位信號由FPGA 提供, CAN 控制器SJA1000 的中斷信號輸出到FPGA。
圖1 CAN 冗余模塊系統(tǒng)結構圖。
3 軟件設計
3. 1 WDM 模式驅動程序
在Window s XP 操作系統(tǒng)中,運行于用戶模式的應用程序訪問硬件資源是通過Win32 API 調用內核模式的驅動程序實現的。這種內核模式的驅動程序就是WDM(Window s Driver Model) 驅動程序, 它是微軟在Window s XP 操作系統(tǒng)中提出的新的驅動程序模式, 支持即插即用、電源管理和I/ O 管理等功能。圖2 是Window s XP 的系統(tǒng)結構。
如圖2 所示設備驅動程序是操作系統(tǒng)的一個組成部分,它由I/ O 管理器( I/ O Manager ) 管理和調動。
I/ O管理器每收到一個來自用戶應用程序的請求就創(chuàng)建一個I/ O 請求包( IRP) 的數據結構, 并將其作為參數傳遞給驅動程序。驅動程序通過識別IRP 中的物理設備對象( PDO) 來區(qū)別是發(fā)送給哪一個設備。IRP 結構中存放請求的類型、用戶緩沖區(qū)的首地址、用戶請求數據的長度等信息。驅動程序處理完這個請求后, 在該結構中填入處理結果的有關信息,調用IoCompleteRequest 將其返回給I/ O 管理器,用戶應用程序的請求隨即返回。訪問硬件時, 驅動程序通過調用硬件抽象層的函數實現。
圖2 Windows XP 系統(tǒng)結構。
WDM 的開發(fā)可采用DDK, DriverWorks 等開發(fā)工具。以下重點描述在此WDM 驅動實例中采用定時查詢實現CAN 總線冗余功能。
3. 2 驅動冗余設計
本設計中, CAN 通路采用2 路冗余, 使得當一個CAN 總線接口出現故障時, 可以很方便地切換到另一個CAN 總線接口。
故障檢測在定時器中實現。在DriverWorks 中有兩種定時器對象, 即附屬于設備對象的1 Hz 定時器和KTimedCallback 類定義的定時器, WDM 定時方法是通過它們實現的。KT imedCal lback 是KTimer 的派生類, KTimer 封裝了系統(tǒng)定時器, 構成分發(fā)對象定時器類, 可用于同步目的。KT imedCal lback 類包含了系統(tǒng)延時過程調用( DPC) 對象, 當定時器超時后系統(tǒng)就調用DPC。KTimedCallback 的成員函數主要是Set 和SetPeriodic, Set 用于設置一次有效定時器參數, SetPeriodie 設置周期性定時器參數, Set 和SetPeriodic 在設置定時參數時同時啟動定時器并建立與回調函數的關聯(lián),定時器超時后調用回調函數。
具體的切換工作放在DPC 中完成。DPC 為推遲過程調用, 一些操作不適合在ISR 中處理需放入限制較少的DPC 中, 如通知事件置標記等等。DPC 是一個通用機制, 但通常都用在中斷處理中。在最普通的情況下, ISR 決定當前請求的完成并請求一個DPC。之后,內核在DISPATCH_LEVEL 級上調用這個DPC 例程。
因此DPC 中的代碼要比ISR 中的代碼有更少的限制。
特別是, DPC 例程可以調用像IoCompleteRequest 或Io StartNextPacket 這樣的例程,在一個I/ O 操作的結尾處調用這些例程在邏輯上是必要的。圖3 描述了具體DPC 調用處理過程。
圖3 DPC 處理過程。
冗余切換查詢時間可以在設備屬性中添加切換時間周期項, 通過修改設備屬性的方式在線修改,修改后設備管理器自動更新驅動。
在雙CAN 冗余系統(tǒng)中, 較之硬件結構而言,軟件設計相對復雜得多, 其關鍵之處在于CAN 系統(tǒng)故障檢測及CAN 系統(tǒng)自動切換。由于采用兩套完全獨立的傳輸介質、總線驅動器和總線控制器, 因此它們能分別獨立檢測到自己通道的故障, 比如CANH 與CANL 短路, CANH 或CANL 斷開、CANH 與地短路、CANL 與電源短路、總線驅動器損壞等。實際調試中發(fā)現, 如果CANH 、CANL 斷開或只有一個發(fā)送器在總線上,均會造成發(fā)送/ 接收錯誤計數器不斷增加到128, 使節(jié)點處于忽略錯誤態(tài); 而CANH 與CANL 短路、CANH 與地短路或CAN L 與電源短路均會造成發(fā)送/ 接收錯誤計數器不斷增加到256, 使節(jié)點處于總線脫離態(tài)。所以,通過節(jié)點狀態(tài)改變中斷子程序中調用CAN 冗余模塊,可以達到實現上述故障自動檢測及CAN 系統(tǒng)自動切換的目的。
3. 3 冗余測試
測試時采用一個有兩個通道CAN 分析儀分別連接本CAN 板的A, B 通道上,在從A 通道連續(xù)發(fā)送數據至分析儀的過程中, 手動斷開此鏈接, 則備用通道B開始工作,切換成功。對冗余切換時間的測試可以通過比較發(fā)送端和接收端間數據量的差值來判斷。具體方法是在發(fā)送端以10 ms 為周期不停發(fā)送數據包,正常情況下發(fā)送端的數據包數量與接收端的數據包數量是相等的。在切換動作時, 會有一些數據包被丟棄, 這時通過計算發(fā)送端與接收端數據包的差值乘以10 ms, 即為此次切換的切換時間。在本例中, 通過多次這樣的測試, 得出平均切換時間在30 ms 左右, 完全能滿足對計算機系統(tǒng)高可靠性的要求。
4 結 論
提出一種設備冗余的系統(tǒng)設計方法, 為系統(tǒng)的故障檢測和切換技術提供了一種解決方案。利用此方法設計了雙冗余CAN 總線板卡以及在Window s XP 系統(tǒng)下的WDM 驅動。該模塊工作穩(wěn)定, 數據傳輸可靠, 冗余切換切實可行。并可依據實際使用要求在線修改定時查詢時間。這種冗余實現方法在提高設備可靠性方面具有一定的實用價值。