《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 業(yè)界動態(tài) > 利用數(shù)據(jù)倉庫技術(shù)開發(fā)文化稽查統(tǒng)計分析系統(tǒng)

利用數(shù)據(jù)倉庫技術(shù)開發(fā)文化稽查統(tǒng)計分析系統(tǒng)

2009-06-03
作者:李 山

??? 摘 要:提出統(tǒng)計分析系統(tǒng)不應(yīng)該歸入普通管理信息系統(tǒng),而應(yīng)該根據(jù)用戶具體需求,充分分析其本質(zhì),利用數(shù)據(jù)倉庫技術(shù)進行開發(fā)和實現(xiàn),并闡述了如何利用數(shù)據(jù)倉庫技術(shù)從需求分析到最終表現(xiàn)的開發(fā)全過程。
??? 關(guān)鍵詞:數(shù)據(jù)倉庫;統(tǒng)計分析;需求分析;工作流

?

??? 統(tǒng)計分析系統(tǒng)(Statistic Analysis System)不是歸入到普通管理信息系統(tǒng)MIS中的模塊或插件,而是建立在MIS基礎(chǔ)之上,具有一定輔助決策能力的獨立系統(tǒng)。往往在傳統(tǒng)MIS中嵌入統(tǒng)計分析系統(tǒng),會造成MIS運行的數(shù)據(jù)吞吐瓶頸,給客戶帶來MIS運行緩慢的錯覺。尤其是當業(yè)務(wù)數(shù)據(jù)量很大的時候,這種情況會突顯出來。為此,使用有效的技術(shù)手段構(gòu)造獨立的統(tǒng)計分析系統(tǒng)是很有必要的。在開發(fā)“文化稽查統(tǒng)計分析系統(tǒng)”項目的時候,采用了數(shù)據(jù)倉庫技術(shù),構(gòu)建起運行在“文化稽查管理信息系統(tǒng)”之上的統(tǒng)計分析系統(tǒng)。本文介紹了相關(guān)的構(gòu)建過程和關(guān)鍵技術(shù)的實施。
1 需求分析
1.1 需求特點

??? 建立統(tǒng)計分析系統(tǒng)依然要經(jīng)過嚴格的需求分析階段,只有在明確的需求指導下,才能開發(fā)出滿足客戶真正需要的系統(tǒng)。MIS系統(tǒng)是建立在非信息化的原始手工平臺上的全新系統(tǒng),而該系統(tǒng)則是在原有的MIS系統(tǒng)開放平臺上構(gòu)造上層系統(tǒng),因此具兩大特點:(1)業(yè)務(wù)過程信息化。在需求分析階段不需要重新分析整個業(yè)務(wù)過程,因為這些復雜的業(yè)務(wù)流程已經(jīng)整理并實現(xiàn)在良構(gòu)的MIS中,需關(guān)注的應(yīng)該是對于領(lǐng)導決策層關(guān)心的業(yè)務(wù)數(shù)據(jù)及其表現(xiàn)形式上。(2)無需采集數(shù)據(jù)。由于數(shù)據(jù)的采集過程已經(jīng)由MIS完成,因此,只需要去分析現(xiàn)有的數(shù)據(jù)集即可。
1.2 關(guān)鍵業(yè)務(wù)需求
??? 正因為上述需求特點,可以將工作重心從整理業(yè)務(wù)流程上轉(zhuǎn)移到數(shù)據(jù)分析上。通過與客戶的交流,建立起共性需求。對于任何統(tǒng)計分析系統(tǒng),都有對數(shù)據(jù)進行歸并和分類的過程,并且提供給決策層的數(shù)據(jù)往往是在某個層面上的匯總結(jié)果。因此,將“文化稽查統(tǒng)計分析系統(tǒng)”的需求歸納成:(1)建立分項統(tǒng)計功能。即對決策層面臨的“舉報”、“稽查”、“立案”、“處罰”等業(yè)務(wù)主題建立各自獨立的統(tǒng)計模塊。(2)確立統(tǒng)計方式為:匯總與分類,同時要多維度表現(xiàn)。即可以在任何統(tǒng)計分項上,考核各統(tǒng)計指標,建立起按照時間、地點、任務(wù)劃分的統(tǒng)計過程。(3)同時要采用靈活的表現(xiàn)方式。即可以以表格和圖形的方式展現(xiàn)給最終用戶。
??? 對整個統(tǒng)計過程簡單建模如圖1所示。這在需求上就確立了該系統(tǒng)的特點符合構(gòu)造數(shù)據(jù)倉庫的特點,即面向主題,用于決策支持,與時間刻度相關(guān)的系統(tǒng)。

?

?

2 數(shù)據(jù)預處理
??? 采用基于工作流(Workflow)方式的數(shù)據(jù)預處理過程。在原有的MIS系統(tǒng)上很容易總結(jié)工作流。例如在該系統(tǒng)中,從原有的MIS中截獲的基本過程是:舉報、稽查、立案和處罰,但是這些只是基本工作過程,在它們之間還有一定的關(guān)聯(lián)關(guān)系,這就要通過對業(yè)務(wù)過程進行分析( Business Process Analysis),以便更好地建立數(shù)據(jù)集。
2.1 工作流分析
??? 對于整個文化稽查業(yè)務(wù)基本上劃分出上述的5個過程(Process),在各過程之間是判斷與選擇的關(guān)聯(lián)關(guān)系?;竟ぷ髁鞒堂枋鋈鐖D2所示。

?

?

??? 對于一般的系統(tǒng),可以從定義過程開始進行分析。
??? 定義 1:
???
??? P是定義在業(yè)務(wù)過程上的集合;R是定義在P上的關(guān)系對與條件判斷C的有序?qū)?。通過給定這樣兩組集合,可以在確立主題統(tǒng)計指標之間關(guān)系的時候進行直接關(guān)聯(lián)。
??? 這樣上述過程可以更加精確的描述:
??? P={p1: 舉報, p2: 稽查, p3: 立案, p4: 處罰, p5: 終結(jié) }
??? R={ (1, p2>, c1), (2, p3>, c2), (2, p4>, c3), (2, p5>, c4), (3, p4>, c5), (4, p5>, c6) }
??? C = {c1: 接受, c2: 待處理, c3: 現(xiàn)場裁決, c4: 正常, c5: 裁決, c6: 結(jié)案}
2.2 數(shù)據(jù)準備
??? 基于上述定義的工作流過程,可以確定需要數(shù)據(jù)的范疇,并且建立指標集。在數(shù)據(jù)預處理階段,將原有業(yè)務(wù)數(shù)據(jù)庫中的數(shù)據(jù)按照上述過程進行了劃分,確立了分別反映前4個過程的4個關(guān)鍵數(shù)據(jù)表,并且在它們之間建立了以集合C為條件的關(guān)聯(lián)關(guān)系。
??? JuBao(ID#, …)
??? JiCha(ID#, JuBaoID, LiAnID…)
??? ChuFa(ID#, JiChaID, …)
??? JieAn(ID#, ChuFaID, JiChaID)
??? 按照這4個表中的主外鍵確立過程關(guān)系,同時根據(jù)具體情況去除一些異常數(shù)據(jù),如圖3所示。

?

?

3 數(shù)據(jù)倉庫建模
3.1 確立主題

??? 依照工作流總結(jié)的4個基本過程,可以定義出4個主題,如圖4所示,按照它們在需求階段確定的內(nèi)容,劃分數(shù)據(jù)間的粒度大小。

?

?

??? 在粒度劃分上要遵循客戶實用性原則,即依照客戶需求將各維度(Dimension)劃分成不同的類別,以便于用戶識別。例如:時間維度,可以劃分成按年、季度、月份、周和日期的不同粒度。地區(qū)維度,可以劃分為市、區(qū)(縣)、街道等。
3.2 建立信息包
??? 確立主題之后,在主題的作用域內(nèi)確立維度、事實(Facts),并建立起信息包(Information Package)。
??? 例如:對于“稽查”主題,在用戶看來需要了解的信息包括,稽查單位數(shù)、處罰數(shù)量、代立案數(shù)量等一些業(yè)務(wù)指標,而這些正好構(gòu)成了我們要求解的事實。同時關(guān)心在不同時間片斷,不同地區(qū),以及考量各業(yè)務(wù)部門之間的這些指標的變化情況,這樣就構(gòu)成了統(tǒng)計時需要的維度。依次,建立如圖5所示的信息包。

?

?

3.3 建立星型模型
??? 信息包的確立是建立數(shù)據(jù)集合的基礎(chǔ),但是需要將這種二維表現(xiàn)模型轉(zhuǎn)換成具有多維度表現(xiàn)的星型模型,如圖6所示。

?

?

4 實現(xiàn)數(shù)據(jù)倉庫并開發(fā)系統(tǒng)
4.1 基本過程

??? 星型模型指導我們?nèi)グl(fā)現(xiàn)和抽取維度信息、事實數(shù)據(jù),最終建立數(shù)據(jù)倉庫,為統(tǒng)計分析系統(tǒng)的開發(fā)奠定基礎(chǔ)。由模型到物理實現(xiàn)需要經(jīng)歷如圖7所示的基本過程。

?

?

??? 建立數(shù)據(jù)倉庫前期需要對業(yè)務(wù)數(shù)據(jù)進行凈化,消除異常數(shù)據(jù),提煉符合要求的基礎(chǔ)數(shù)據(jù)集,并在此之上依照星型模型構(gòu)建各個主題的數(shù)據(jù)立方(Data Cube),最后將數(shù)據(jù)立方登臺到物理數(shù)據(jù)庫中,實現(xiàn)統(tǒng)計分析的進一步處理。
??? 例如對于“稽查”主題,我們首先尋找和構(gòu)建維度表。 一般地,可以將維度表描述為:D = {di | i ∈N∧di ∈ R}。同時發(fā)現(xiàn)事實數(shù)據(jù)提取的業(yè)務(wù)表。在這里的事實業(yè)務(wù)表為上述4個基本表中的JiCha。在清理完上述事實表和構(gòu)建好維度表之后,需要利用這些表格建立數(shù)據(jù)立方,計算出各項指標值。
??? 續(xù)上過程,一般在構(gòu)建數(shù)據(jù)立方過程,可以采用標準SQL完成。一般可以描述為:
??? di×dj(0< i,j ≤ Count(維度表) ∧i≠j) 即各維度的笛卡爾積?;颍?BR>??? SELECT COUNT(*), Date, District, …
??? FROM JICHA
??? GROUP BY Date, District, …
??? 最后將此結(jié)果集記錄在專門用于統(tǒng)計分析使用的物理數(shù)據(jù)庫中。
4.2 構(gòu)建前端統(tǒng)計分析系統(tǒng)
??? 在完成數(shù)據(jù)倉庫的物理實現(xiàn)后,可以在此基礎(chǔ)上開發(fā)相應(yīng)的統(tǒng)計分析系統(tǒng),并且需要利用到很多表現(xiàn)豐富的前端處理技術(shù)。在此系統(tǒng)中,基本采用以下過程來建造這個前端,如圖8所示。

?

?

??? 在對統(tǒng)計結(jié)果進行展現(xiàn)的時候往往需要滿足客戶適時調(diào)整展現(xiàn)結(jié)果的需要,這就需要采用數(shù)據(jù)鉆?。―ata Drill)技術(shù),而這個技術(shù)在很多商業(yè)化的開發(fā)工具中都作為包的形勢提供給開發(fā)人員,因此,開發(fā)過程會相對方便和快捷。
??? 數(shù)據(jù)倉庫技術(shù)自提出到現(xiàn)在,具體在工程界的應(yīng)用并不是十分到位,其中一個重要的原因在于客戶與開發(fā)組織在實現(xiàn)與之相關(guān)的項目時,往往不區(qū)分傳統(tǒng)業(yè)務(wù)系統(tǒng)和數(shù)據(jù)倉庫系統(tǒng),這樣就會在概念和技術(shù)實現(xiàn)上受到阻礙,從而不能滿足最終用戶的需要。本文從建立統(tǒng)計分析系統(tǒng)在需求上的本質(zhì)特征,提出兩者分離并形成層次關(guān)系,利用數(shù)據(jù)倉庫技術(shù),從而很好地解決了上述不足。但是在實現(xiàn)過程中發(fā)現(xiàn),對于實現(xiàn)這種統(tǒng)計分析系統(tǒng),并非只限于采用數(shù)據(jù)倉庫技術(shù)的直接結(jié)果,項目的實施還要受到開發(fā)成本、用戶概念接受程度、現(xiàn)有MIS的完備程度等諸多因素影響,因此在實際開發(fā)過程中要權(quán)衡考慮。
參考文獻
[1]? KANTARDZI M. Data mining Concepts, Model, Methods and Algorithms[M]. Tsinghua University Publisher, 2003.
[2]? HAMMERGREN T. Data Warehouse Technology[M].Ventana Communications Group, Inc., 1997.

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。