摘 要: 一種基于TMS320C6000 DSP芯片的視頻解碼器的設(shè)計(jì)。該解碼器能脫離計(jì)算機(jī)而獨(dú)立運(yùn)行,且能高效實(shí)時(shí)地實(shí)現(xiàn)視頻解碼功能。因系統(tǒng)需要軟件和硬件協(xié)同工作,故硬件實(shí)現(xiàn)分兩步進(jìn)行,以確保軟件的可靠性。
關(guān)鍵詞: DSP 視頻 解碼器 PLD
圖像的編/解碼系統(tǒng)有兩種基本的實(shí)現(xiàn)方法,一種是基于微機(jī)實(shí)現(xiàn),圖像處理系統(tǒng)通過PCI總線以插卡的形式集成在微機(jī)系統(tǒng)中,數(shù)據(jù)通過PCI總線或卡上所帶的接口進(jìn)行交換和傳輸;另一種脫離了微機(jī)而獨(dú)立運(yùn)行,利用微處理器芯片對圖像進(jìn)行編/解碼處理來實(shí)現(xiàn)。這種脫機(jī)的圖像處理系統(tǒng)由于體積小和靈活簡便而受到廣泛關(guān)注。微處理器芯片可以采用專用圖像編/解碼芯片。雖然這些芯片集成了圖像處理算法,簡化了系統(tǒng)的設(shè)計(jì),但是由于新的圖像壓縮算法的不斷出現(xiàn)以及對圖像提出各種靈活控制的要求,使這些專用芯片在一些場合并不適用。而高速的通用微處理器如DSP芯片則正好能滿足這樣的需求,具有很好的靈活性和適應(yīng)性。本文從硬件設(shè)計(jì)方面考慮,介紹一個(gè)基于DSP芯片TMS320C6000的脫機(jī)視頻圖像解碼系統(tǒng)。
1 系統(tǒng)主要模塊的設(shè)計(jì)
本系統(tǒng)是針對不高于64kbit/s的碼流實(shí)現(xiàn)的脫離計(jì)算機(jī)而獨(dú)立運(yùn)行的解碼器。本解碼器采用RS-232總線接收信號(hào)。數(shù)據(jù)接收到解碼器之后進(jìn)行解碼算法處理,然后由D/A器件轉(zhuǎn)換為模擬視頻信號(hào)輸出到顯示器上顯示。此種設(shè)計(jì)具有很大的靈活性,并且利于調(diào)試分析。由于解碼器采用RS-232接收信號(hào),可以方便地通過計(jì)算機(jī)串口進(jìn)行模擬調(diào)試。對于其它特定傳輸方式的解碼,只需對數(shù)據(jù)的接收模塊稍做改動(dòng)即可。此外,如果需要顯示到電視或其它顯示設(shè)備,需修改系統(tǒng)最末端的器件及顯示頻率等,但不需改動(dòng)系統(tǒng)核心的設(shè)計(jì)及軟件。
1.1 數(shù)據(jù)接收模塊
因RS-232信號(hào)的電平標(biāo)準(zhǔn)與DSP的電平不兼容,采用RS-232總線接收的數(shù)據(jù)需要進(jìn)行電平轉(zhuǎn)換。電平轉(zhuǎn)換器件采用MAX232或其升級器件。
另外,DSP芯片帶有兩個(gè)McBSP(多通道緩沖串口),每個(gè)McBSP可支持128通道的多通道操作,功能強(qiáng)大并且速度很快。因?yàn)镽S-232信號(hào)是異步信號(hào),而McBSP為同步串口,接收起來有一定困難,所以需要外加接收器件UART。UART(通用異步接收/發(fā)送器件)采用TI的TL16C550C或TL16C750,它接收RS-232數(shù)據(jù),并可同時(shí)將數(shù)據(jù)存入自身所帶的FIFO中。UART接收的數(shù)據(jù)可通過以下方式搬移:當(dāng)FIFO中數(shù)據(jù)超過一定量時(shí)向DSP發(fā)出中斷,同時(shí)觸發(fā)DSP內(nèi)的DMA控制器,對UART的數(shù)據(jù)進(jìn)行搬移。如果以后數(shù)據(jù)源為同步信號(hào),例如PCM、T1、E1信號(hào),則可以從McBSP直接接收,以進(jìn)一步簡化外圍電路的設(shè)計(jì)。
1.2 電源模塊
DSP的電源采用兩種電壓供電[1],內(nèi)核電壓為1.8V,I/O電壓為3.3V。并且DSP對這兩個(gè)電壓有上電順序的要求,要求內(nèi)核電源(CVdd)先于I/O電源(DVdd)上電??紤]到DSP的功耗問題,采用TI公司的兩片電源模塊TPS56100[2]對DSP分別供電。
另外,為了保證C6000芯片在電源低于要求的電平時(shí)不會(huì)產(chǎn)生失控的狀態(tài),在系統(tǒng)中加入了電源監(jiān)控電路。該電路能確保DSP在系統(tǒng)加電過程中及電源電壓低于一定門限值時(shí)始終處于復(fù)位狀態(tài)。電源監(jiān)控電路采用TI公司的TPS3305[2],同時(shí)它還可接一手工復(fù)位開關(guān)以便人工控制。
1.3 顯示模塊
顯示模塊的任務(wù)是將DSP處理后產(chǎn)生的原始圖像顯示到顯示器上。由于一般顯示器都是模擬輸入,所以在顯示模塊中包含一個(gè)D/A轉(zhuǎn)換器件[2],將圖像的RGB數(shù)據(jù)轉(zhuǎn)換為模擬信號(hào)輸出到顯示器。由于顯示器刷新頻率較高,解碼后的一幀圖像要刷新幾次進(jìn)行顯示,所以圖像的顯示需要嚴(yán)格的行同步和幀同步。為了將存儲(chǔ)器的數(shù)據(jù)搬移到D/A,需要以穩(wěn)定的頻率將存儲(chǔ)器數(shù)據(jù)送往D/A,在這里采用了FIFO來實(shí)現(xiàn)此功能。在這個(gè)模塊中,會(huì)有總線的共享情況,也就是說DSP既要頻繁地將解碼后的圖像數(shù)據(jù)寫到存儲(chǔ)器以供幀的重排,同時(shí)又要將要顯示的幀從存儲(chǔ)器搬到FIFO。所以DSP以及存儲(chǔ)器都要滿足速度的要求。
當(dāng)然,顯示模塊也可以采用雙端口存儲(chǔ)器設(shè)計(jì),它有兩套獨(dú)立的地址總線和數(shù)據(jù)總線,一邊由DSP操作而另一邊由FPGA等器件控制將數(shù)據(jù)搬到D/A,兩種操作沒有總線的沖突問題,所以其帶寬可以達(dá)到很高。但是,這帶來了諸如價(jià)格昂貴、復(fù)雜度高等問題,使其實(shí)用性大大降低。結(jié)合諸種因素,本文不考慮這種設(shè)計(jì)。
2 系統(tǒng)運(yùn)行機(jī)制的設(shè)計(jì)
2.1 系統(tǒng)運(yùn)行機(jī)制
DSP系統(tǒng)運(yùn)行機(jī)制表示如圖1所示。
UART為接收RS-232數(shù)據(jù)的器件,ROM用于存儲(chǔ)解碼以及控制程序,SRAM用于存儲(chǔ)DSP高速運(yùn)算過程中所需的一些臨時(shí)數(shù)據(jù)和常數(shù)表,SDRAM為解碼后圖像數(shù)據(jù)提供緩沖區(qū),FIFO為數(shù)據(jù)輸出到D/A的緩沖器件,D/A用于將圖像的RGB數(shù)字信號(hào)轉(zhuǎn)換為模擬信號(hào)輸出到顯示器。對FIFO等器件的控制以及產(chǎn)生視頻的行/場同步信號(hào)可采用可編程邏輯器件PLD來實(shí)現(xiàn)。
系統(tǒng)基本流程為:系統(tǒng)通過UART接收碼流,由定時(shí)器定時(shí)(按照碼流的播放速度設(shè)定進(jìn)行定時(shí),如30幀/秒)觸發(fā)DSP對接收的數(shù)據(jù)進(jìn)行解碼,解碼后的數(shù)據(jù)輸出到SDRAM緩存,然后在PLD的觸發(fā)下將數(shù)據(jù)送入FIFO,再由可編程邏輯器件ALTERA公司的PLD(EPM7128SLC84-10)以一定頻率控制FIFO把數(shù)據(jù)輸出到D/A,轉(zhuǎn)換成模擬信號(hào)輸出。
2.2 有關(guān)碼流的考慮
視頻的編碼一般是把圖像的幀分為三種:初始幀I,可直接對此幀編碼;前向預(yù)測幀P,對它編碼時(shí)需要參考I幀的信息;雙向預(yù)測幀B,對它編碼時(shí)要同時(shí)參考前后兩幀的信息,即I幀(或P幀)和P幀的信息。這樣的話,解碼時(shí)要先得到I幀和P幀的數(shù)據(jù)才能對B幀解碼,也就是說編碼后的碼流應(yīng)該是先傳I、P幀,再傳B幀,而不是按照I、B、P幀順序傳輸。這就牽涉到了幀重排的問題,即在P幀解碼后不能立即顯示,要等到后面的B幀顯示后才能顯示,解碼后的幀要重新排列一下。
碼流中從一個(gè)I幀到下一個(gè)I幀稱為一個(gè)幀組。由此可見,各幀組的解碼是相互獨(dú)立的。在解碼端,分一個(gè)個(gè)的幀組進(jìn)行解碼。在解碼每個(gè)幀組時(shí),由于P、B幀的關(guān)系,需要存儲(chǔ)前幀或前兩幀的數(shù)據(jù)。
接收緩沖區(qū)設(shè)置在DSP的片內(nèi)數(shù)據(jù)存儲(chǔ)器,由UART接收數(shù)據(jù)流,并以中斷方式觸發(fā)DMA進(jìn)行數(shù)據(jù)搬移。定時(shí)器觸發(fā)DSP處理的周期為顯示一個(gè)幀組所需的時(shí)間。設(shè)每個(gè)幀組包括9幀數(shù)據(jù)(IBBPBBPBB,一般的處理不太可能會(huì)超過9幀),其平均數(shù)據(jù)量大小為2400字節(jié)。DSP的內(nèi)部數(shù)據(jù)存儲(chǔ)器大小為64K字節(jié)。開辟緩沖區(qū)為5個(gè)幀組的大小,共約12K字節(jié)。而若以30幀/秒的速度來算的話,9幀需0.3秒,即定時(shí)器以0.3秒的周期觸發(fā)DSP進(jìn)行處理。
系統(tǒng)運(yùn)行開始時(shí),UART開始接收碼流。這時(shí)開始接收的數(shù)據(jù)不一定是一個(gè)幀組的頭部,即一個(gè)幀組的大小不一定包含一個(gè)完整的幀組,所以開始的一段殘余數(shù)據(jù)應(yīng)舍棄。每當(dāng)定時(shí)器觸發(fā)DSP時(shí),DSP就檢測緩沖區(qū)中數(shù)據(jù),如果數(shù)據(jù)含有一個(gè)完整的幀組,則進(jìn)行解碼,否則返回。這樣就實(shí)現(xiàn)了對碼流的控制。
可以看出,DSP的解碼速度肯定要大于數(shù)據(jù)的接收速度,否則會(huì)導(dǎo)致幀的大量丟失。
2.3 有關(guān)RAM存儲(chǔ)器的考慮
RAM存儲(chǔ)器用于存儲(chǔ)幀重排所需數(shù)據(jù)和程序運(yùn)行時(shí)數(shù)據(jù)。
考慮真彩色的情況,RGB三種基本色都要占用一個(gè)字節(jié),一個(gè)象素就占用了三個(gè)字節(jié)。而顯示時(shí)一次讀一個(gè)象素,DSP的總線為32位(4個(gè)字節(jié)寬度),所以從速度上考慮(以一個(gè)雙字對齊時(shí)讀4個(gè)字節(jié)只需一個(gè)時(shí)鐘周期,速度最快[1]),采用一個(gè)象素占用四個(gè)字節(jié),第四個(gè)字節(jié)保留。
若每幀圖像大小為352×288真彩色,每幀大小為352×288×4=396K字節(jié)。由于幀重排至少需要3幀的緩存,所以SDRAM大小至少為三個(gè)幀組的大小,即396K×3=1188K字節(jié),也就是9.28M位,故采用16M位的SDRAM[3]。
考慮到一些常數(shù)表以及程序執(zhí)行時(shí)臨時(shí)數(shù)據(jù)的存放,DSP的內(nèi)部數(shù)據(jù)RAM會(huì)不夠大,又外接了一個(gè)小容量的高速SRAM。
2.4 有關(guān)速度的考慮
(1)接收數(shù)據(jù)時(shí),采用了16C550C器件。它的接收速度可以達(dá)到230kbps,而更新的UART器件速度可高達(dá)1Mbps,完全可以滿足64kbit/s甚至更高的碼流,并可容納更快的碼流,以備升級。
(2)DSP處理時(shí),對B幀的處理需要前后兩幀數(shù)據(jù)的預(yù)測。數(shù)據(jù)操作最為頻繁,要讀其它兩幀的數(shù)據(jù),又要寫此幀的解碼后數(shù)據(jù),所以在處理一幀的時(shí)間內(nèi)就要有3幀的數(shù)據(jù)。而按照30幀/秒的碼流速率計(jì)算,352×288真彩色(需要3個(gè)字節(jié)表示一個(gè)象素)的圖像需要的帶寬為(352×3×3)/(1/30)=26.1MHz。若顯示刷新速率為75Hz的話,處理一幀的時(shí)間內(nèi)又要刷新75/30=2.5次。這里在刷新時(shí)可以按32位讀數(shù)據(jù),如前所述每32位表示一個(gè)象素,則往FIFO送數(shù)據(jù)另需要帶寬為(352×288×2.5)/(1/30)=7.25MHz。兩者相加則可得需要的總帶寬為(26.1+7.25)=33.35MHz。現(xiàn)在的SDRAM都可以滿足[3],但為了協(xié)調(diào)DSP的高速處理,SDRAM的速度在100MHz左右就可以滿足需要了。
3 硬件實(shí)現(xiàn)方案
整個(gè)系統(tǒng)由硬件和軟件兩部分構(gòu)成。其中軟件代碼是比較龐大的。所以為了保證軟件能夠在硬件平臺(tái)上正常運(yùn)行,硬件的實(shí)現(xiàn)方案分為以下兩個(gè)階段來進(jìn)行:
(1)利用TI公司提供的DSP的評估板EVM(Evaluation Module),加上自行設(shè)計(jì)的顯示模塊電路及外圍接口,構(gòu)成實(shí)驗(yàn)階段的硬件平臺(tái)。EVM是TI公司為方便用戶調(diào)試程序而設(shè)計(jì)的電路板,其中含有DSP芯片以及許多周邊設(shè)備,在此板上可以完成很多功能,且有擴(kuò)展插槽以供功能擴(kuò)展。對于此解碼器,只需插入一個(gè)較簡單的外圍設(shè)備如顯示和數(shù)據(jù)輸入模塊即可。這個(gè)階段,EVM可以確保硬件的可靠性,而顯示模塊電路又非常容易調(diào)試。所以在此階段,可以著重對軟件進(jìn)行調(diào)試,使其能夠正確無誤地在硬件平臺(tái)上運(yùn)行。
(2)在軟件調(diào)試無誤的基礎(chǔ)上,設(shè)計(jì)出如本文所述的獨(dú)立的硬件開發(fā)平臺(tái)。在軟件正確的前提下,對硬件進(jìn)行調(diào)試,最終完成解碼器系統(tǒng)的設(shè)計(jì)。
對于這個(gè)方案,已經(jīng)經(jīng)過仔細(xì)驗(yàn)證。
4 小結(jié)與展望
本文所設(shè)計(jì)的視頻解碼系統(tǒng)能夠滿足視頻解碼的要求,并且可作為一種通用的視頻解碼器,為解碼算法提供了硬件平臺(tái)。由于它能獨(dú)立于計(jì)算機(jī)單獨(dú)運(yùn)行,并且價(jià)格較為便宜,有較大的靈活性和實(shí)用性,在此基礎(chǔ)上稍做修改又可服務(wù)于其它特定的編解碼算法,因此具有很好的應(yīng)用前景和使用價(jià)值。但此解碼器在數(shù)據(jù)流的輸入方式以及流的分析方面還有待進(jìn)一步改進(jìn)。
參考文獻(xiàn)
1 TMS320C6000 Peripherals Reference Guide. TI, 1998
2 Data Sheet of TMS320C6201 DSP (sprs051g).TI,2000
3 Data Sheet of TL16C550C (slls177f). TI, March,2001
4 Application Report of TI Using the TPS56100 to Power DSPs (slva080b). TI, March, 2000
5 Data Sheet of TL5632C (slas091). TI, December, 1994
6 Data Sheet of 42S16400. ISSI, March, 2001-10-19
7 Data Sheet of MAX 232. Maxim, September, 2000
8 任麗香,馬淑芬,李方慧. TMS320C6000系列DSPs的原理與應(yīng)用.北京:電子工業(yè)出版社,2000
9 MAX 7000 Programmable Logic Device Family. Altera Corporation, August, 2000