摘 要: 結(jié)合S5933和TMS320C6000 DSP設(shè)計了高速圖像處理硬件平臺,可適應和滿足利用PC機進行高速數(shù)據(jù)采集與處理設(shè)備的技術(shù)發(fā)展趨勢和應用需求。
關(guān)鍵詞: 前端數(shù)據(jù)采集;TMS320C6000系列DSP;PCI總線專用芯片;實時高速數(shù)字圖像處理
當前,在計算機、多媒體、數(shù)據(jù)通信和網(wǎng)絡(luò)技術(shù)的發(fā)展、應用和融合中,人們對計算機視頻應用的要求越來越高,這使得實時、高速、便捷、智能化、大容量的高性能數(shù)字圖像處理設(shè)備成為未來視頻設(shè)備的發(fā)展方向,這必然要求產(chǎn)生與之相適應的新理論、新方法和新算法。為了在利用和實現(xiàn)這些新技術(shù)的過程中驗證其可行性,突破高速DSP硬件設(shè)備的技術(shù)應用瓶頸,本文提出了一種基于PCI總線和TI公司C6000系列高端DSP芯片的高速數(shù)字圖像處理平臺設(shè)計方案,從硬件和軟件上解決了通過AMCC公司的S5933 PCI總線接口芯片,由CLPD作橋,實現(xiàn)與功能強大的 TMS320C6416 HPI主機接口的高速通信,為做進一步實時音視頻壓縮、圖像檢測、視覺定位、高速處理等算法研究提供了完整的實踐平臺。
1 系統(tǒng)硬件結(jié)構(gòu)
TMS320C6000系列DSP是基于TMS320C6000平臺的32 bit浮點DSP處理器。它包含兩個子系列:用于定點計算的TMS320C62x系列和用于浮點計算的TMS320C67x系列。TMS320C6000系列時鐘頻率最高可達到250 MHz。該系列DSP包含兩個通用的寄存器組A和B,每組有16個32 bit的寄存器。芯片內(nèi)含8個運算功能單元:兩個乘法器(M1和M2),6個算術(shù)邏輯單元(L1、L2、S1、S2、D1及D2),所有單元都能獨立并行操縱。以TM320C6701為例,其工作頻率最高為167 MHz,最快速度可達8×167=1 336 MIPS。
基于S5933的高速TMS320C6000 DSP圖像處理硬件平臺設(shè)計系統(tǒng)框圖如圖1所示。整個系統(tǒng)由前端數(shù)據(jù)采集、DSP和PCI總線專用芯片組成。
DSP芯片采用TI公司高性能數(shù)字信號處理器TMS320C6416,芯片采用哈佛結(jié)構(gòu)、流水線操作、專用硬件乘法器、快速DSP指令。主頻可高達600 MHz~1 GHz,片內(nèi)的RAM采用兩級高速緩存結(jié)構(gòu),程序和數(shù)據(jù)擁有獨立的緩存空間。片內(nèi)提供多種集成外設(shè);多通道的EMDA控制器、多信道帶緩沖能力的串口McBSP、32 bit通用計數(shù)器和I2C總線主/從模式接口等。
TMS320C6416的兩個獨立的外部數(shù)據(jù)總線接口EMIFA(64 bit)和EMIFB(32 bit)具有很高的數(shù)據(jù)吞吐率(最高能達到1 200 Mb/s),而且可以與目前幾乎所有類型的存儲器直接連接,完成數(shù)字圖像處理數(shù)據(jù)的大容量高速存儲。
前端采用兩路ADI公司的14 bit數(shù)/模轉(zhuǎn)換器AD6645(80/105 MSPS)通過SMA射頻端子進行高速數(shù)據(jù)采樣,其具有很高的無雜散動態(tài)范圍和過采樣性能,可以降低系統(tǒng)對前端射頻元器件的要求,從而降低系統(tǒng)的復雜性和生產(chǎn)成本。數(shù)據(jù)經(jīng)FPGA進行一定緩沖,或是進行FFT、濾波、去噪,再由64 bit的EMIFA接口發(fā)送到DSP進行編解碼處理、MPEG4壓縮等。最終,壓縮編碼后的視頻數(shù)據(jù)流可通過RS422將數(shù)據(jù)同步輸出或是由PCI總線發(fā)送給主機端保存或進行進一步驗證。
該平臺DSP片外提供大容量高速存儲器空間。用ISSI公司的SBSRAM(128 KB×32 bit)和HYNIX的SDRAM(4 MB×16 bit),外置4 MB的Flash,為預處理或是處理后的圖像數(shù)據(jù)提供可靠、充裕的暫存空間。SBSRAM和SDRAM均可由EMIFB進行無縫連接,為硬件的實現(xiàn)帶來了很大的便利。
PCI部分采用目前較常用的AMCC公司S5933接口芯片,它是一種功能強且使用靈活的PCI總線控制器專用芯片。該芯片符合PCI局部總線規(guī)范2.1版本,既可作為PCI總線目標設(shè)備,實現(xiàn)基本的傳送要求,也可作為PCI總線主控設(shè)備,訪問其他PCI總線設(shè)備。S5933的峰值傳送速率為132 Mb/s(32 bit PCI數(shù)據(jù)總線)。
S5933外部提供了3個物理總線:PCI總線接口、外加總線接口(Add_On Bus)和可選的NVRAM接口。用戶可根據(jù)需要設(shè)計S5933與外加總線接口相連接的邏輯電路和配置空間的初始化,而不必考慮PCI總線規(guī)范的眾多協(xié)議,從而將復雜的PCI總線接口關(guān)系轉(zhuǎn)化為簡單的8 bit/16 bit/32 bit外加總線接口關(guān)系。
S5933硬件結(jié)構(gòu)及外部連接圖如圖2所示。主機端通過32 bit PCI總線與S5933進行數(shù)據(jù)傳輸,再由CPLD做內(nèi)部狀態(tài)機,負責DSP端HPI(Host-Port Interface)接口的時序控制,使DSP與主機端進行16 bit/32 bit的數(shù)據(jù)交互。
主機接口HPI是TI高性能DSP上配置的與主機進行通信的片內(nèi)外設(shè)。通過HPI接口,主機可以非常方便地訪問DSP的所有地址空間,從而實現(xiàn)對DSP的控制。例如,TMS320C6421的HPI接口是一個16 bit寬的并行端口。主機(Host)對CPU地址空間的訪問是通過EDMA控制器實現(xiàn)的。HPI接口的訪問主要通過HPI控制寄存器(HPIC)、HPI地址寄存器(HPIA)和HPI數(shù)據(jù)寄存器(HPID)三個專用寄存器來實現(xiàn)。
另一方面,CPLD掛載在EMIFB上,進行DSP端存儲器映射,從而使DSP可以通過Add_On Bus接口實現(xiàn)對S5933內(nèi)部FIFO或Mailbox的控制,達到與主機端進行命令或狀態(tài)信息的通信。
2 系統(tǒng)軟件實現(xiàn)
使用專用DSP芯片進行設(shè)計與開發(fā),包括硬件和軟件兩個方面。在軟件方面通常有以下三種軟件設(shè)計方式。
?。?)完全用C語言開發(fā)。TI公司提供了用于C語言開發(fā)的CCS(Code Composer Studio)平臺,該平臺包括優(yōu)化ANSI C編譯器,從而可以在C源程序級進行開發(fā)。這種方式大大提高了軟件的開發(fā)速度和可讀性,方便了軟件的修改和移植。但是,在某些情況下,C代碼的效率還是無法與手工編寫的匯編代碼的效率相比,如FFT編程。這是因為即使是最佳的C編譯器也無法在所有的高速下都能最合理地利用DSP芯片所提供的各種資源。此外,用C語言實現(xiàn)DSP芯片的某些硬件控制也不如匯編程序方便,有些甚至無法用C語言實現(xiàn)。
?。?)完全用匯編語言開發(fā)。TI公司提供了用于匯編語言開發(fā)的針對TMS320C54X的匯編語言,用戶可以用它進行軟件開發(fā)。此方式可以更合理地充分利用DSP芯片提供的硬件資源,代碼效率高,程序執(zhí)行速度快。但是用DSP芯片的匯編語言編寫程序是比較復雜的。一般來說,不同公司的芯片匯編語言是不同的,即使是同一公司的芯片,由于芯片類型的不同(如定點和浮點)和芯片的升級換代,其匯編語言也不同。因此,用匯編語言開發(fā)基于某種DSP芯片的產(chǎn)品周期較長,并且軟件的修改和升級較困難,這些都是由匯編語言的可讀性和可移植性較差所致。
?。?)用C語言和匯編語言混合編程開發(fā)。為了充分利用DSP芯片的資源,更好地發(fā)揮C語言和匯編語言的各自優(yōu)點,可以將兩者有機結(jié)合起來,兼顧兩者的優(yōu)點,避免其弊端。因此,在很多情況下,采用混合編程方法能更好地達到設(shè)計要求,完成設(shè)計功能。但是,采用C語言和匯編語言混合編程必須遵循一些有關(guān)的規(guī)則,否則會遇到一些意想不到的問題,給開發(fā)設(shè)計帶來許多麻煩。
TMS320C6000在設(shè)計時采用了一種類RISC機的結(jié)構(gòu),指令集非常簡單,運算速度特別快,實時性較好,但是有時又感覺匯編指令集太小。像DSP算法中常用的乘加指令、循環(huán)操作指令等,在C54x和C3x中兩條指令就可以完成的功能,而在C6000中用作處理復雜并發(fā)任務(wù)時卻需要一個循環(huán)體,所以它的程序設(shè)計一般比較復雜。要想充分發(fā)揮C6000的運算能力,必須從其硬件結(jié)構(gòu)出發(fā),最大限度地利用8個功能單元,使用軟件流水線,盡量讓程序無沖突地并行執(zhí)行。
并行處理的長處在于,在處理彼此之間沒有承接關(guān)系的運算時,在CPU資源允許的情況下可以并行完成。但對于前后有承接關(guān)系或者判斷、跳轉(zhuǎn)頻繁的情況,就無法發(fā)揮并行的優(yōu)勢。一般循環(huán)體都滿足并行處理的條件,并且循環(huán)體往往是程序中耗時最長的,因此用C6000進行開發(fā)時應將優(yōu)化重點放在循環(huán)體上。為了降低開發(fā)難度,C6000提供了很多通過高級語言(如ANSI C)對程序進行優(yōu)化的方法。在應用滿足實時性處理要求時,應盡量采用該方法。但是這種方法的效率比較低,C語言優(yōu)化最好的例子是點乘,這種循環(huán)使用C語言進行優(yōu)化的方法可以百分之百地利用CPU資源,使程序的并行性達到最好。但經(jīng)驗證明,做20點的點乘的耗時是匯編語言程序的3倍,所以如果系統(tǒng)對實時性要求比較高,就不能使用這種優(yōu)化方法了?;贒SP的C語言和匯編語言混合編程的程序設(shè)計方法可以較好地解決以上問題。
軟件設(shè)計包括了兩個部分:主機端對DSP片內(nèi)片外存儲器的讀寫和DSP端對片外存儲器的讀寫。
主機端和DSP端的軟件流程如圖3所示。
主機端用Visual C++開發(fā)生成,其中利用了WIN32的API函數(shù),封裝在EVM6X.LIB庫中。在應用程序中,需要包含頭文件evm6xdll.h,在這個頭文件中,包含對各個WIN32 API函數(shù)的定義,具體定義可以參看參考文獻[4]。
由圖3中可知,主機端通過HPI口把COFF文件加載到DSP片內(nèi)運行,由S5933的Mailbox做橋梁,實現(xiàn)了與DSP之間消息的通信。從而達到了主機端對DSP片內(nèi)和片外所有存儲器的高速讀寫,保證了數(shù)據(jù)處理的實時性和可靠性。
需要注意的是,在主機端和DSP端之間Mailbox的傳遞,在硬件上是通過DSP芯片的外部管腳EXT_INT4來發(fā)起的,并且每次跳出中斷服務(wù)程序都應該對S5933的Add_On Bus端的imcoming mailbox實行中斷清零操作。
例如,實現(xiàn)PC機對DSP攝像系統(tǒng)的攝像控制以及圖像的傳輸,主要使用的API函數(shù)是DeviceIOControl()、ReadFile()和WriteFile()。其中DeviceIOControl()用于PC機(主機)向DSP圖像采集系統(tǒng)發(fā)送請求;ReadFile()和WriteFile()分別用于從圖像采集系統(tǒng)中讀出數(shù)據(jù)以及向圖像采集系統(tǒng)中寫入數(shù)據(jù)。在設(shè)計過程中必須注意的問題是,由于USB接口為主-從方式,其一切傳輸過程都必須通過主機向外設(shè)發(fā)送請求后才可以開始,因此在使用ReadFile()、WriteFile()讀寫數(shù)據(jù)之前,必須先通過DeviceIOControl()向圖像采集系統(tǒng)發(fā)送請求。
實驗數(shù)據(jù)表明,DSP數(shù)據(jù)吞吐率>500 Mb/s,PCI傳送速率>100 Mb/s。采用PCI接口芯片S5933、DSP芯片TMS320C6416設(shè)計,再配置視頻輸入處理芯片SAA7113,實現(xiàn)的視頻圖像處理實驗平臺系統(tǒng)可實現(xiàn)圖像的高速連續(xù)采集,進行圖像壓縮、圖像處理等算法的驗證,達到了系統(tǒng)設(shè)計的目標。本系統(tǒng)具有使用靈活、升級TI更新芯片方便等特點。此外,TMS320C64x系列自帶有PCI橋,HPI接口有16 bit/32 bit兩種數(shù)據(jù)寬度,可由外部PCI_EN和HD5管腳進行靈活配制。利用TMS320C64x自帶的PCI橋,可更加節(jié)省硬件的開發(fā)成本,但卻缺少了PCI總線主控操作,主機端與DSP通信靈活性沒有本文提出的方案高,在實際工程應用中根據(jù)設(shè)計人員的具體要求而定。
參考文獻
[1] TI Inc.. Interfacing the TMS320C6000 EMIF to a PCI bus using the AMCC S5933 PCI controller[Z]. 2001.
[2] TI Inc.. TMS320C6414, TMS320C6415, TMS320C6416 fixed-point digital signal processors[Z]. 2005.
[3] AMCC Inc.. PCI products data book[Z]. 1998.
[4] TI Inc.. TMS320C62016701 evaluation module[Z]. 2004.
[5] TI Inc.. TMS320C6000 optimizing compiler user′s guide([SPRU187L])[Z]. 2004.
[6] TI Inc.. TMS320C6000 programmer′s guide([SPRU198G])[Z]. 2002.
[7] TI Inc.. TMS320C6000 assembly language tools user′s guide([SPRU186N])[Z]. 2004.
[8] 陳利學.微機總線與接口設(shè)計[M].成都:電子科技大學出版社,1998.