《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計應(yīng)用 > 環(huán)保領(lǐng)域本體的構(gòu)建研究
環(huán)保領(lǐng)域本體的構(gòu)建研究
2015年微型機與應(yīng)用第10期
張 旭,朱勤東
(福州大學 福建省空間信息工程研究中心,福建 福州 350002)
摘要: 為了解決環(huán)保部門多源數(shù)據(jù)的語義異構(gòu)問題,研究了各領(lǐng)域本體構(gòu)建思路與方法,結(jié)合環(huán)保領(lǐng)域的實際特點,提出了一種環(huán)保領(lǐng)域本體構(gòu)建方法。以建設(shè)項目環(huán)評審批基本信息為例,在領(lǐng)域?qū)<規(guī)椭?,詳細描述了其本體的構(gòu)建流程及其本體模型,為環(huán)保領(lǐng)域應(yīng)用研究奠定了基礎(chǔ)。
Abstract:
Key words :

  摘  要: 為了解決環(huán)保部門多源數(shù)據(jù)的語義異構(gòu)問題,研究了各領(lǐng)域本體構(gòu)建思路與方法,結(jié)合環(huán)保領(lǐng)域的實際特點,提出了一種環(huán)保領(lǐng)域本體構(gòu)建方法。以建設(shè)項目環(huán)評審批基本信息為例,在領(lǐng)域?qū)<規(guī)椭拢敿毭枋隽似浔倔w的構(gòu)建流程及其本體模型,為環(huán)保領(lǐng)域應(yīng)用研究奠定了基礎(chǔ)。

  關(guān)鍵詞: 環(huán)保;領(lǐng)域本體構(gòu)建;建設(shè)項目環(huán)評

0 引言

  環(huán)保部門為了加強對環(huán)境的管理,提高辦事效率,需要對不同應(yīng)用系統(tǒng)的各種業(yè)務(wù)數(shù)據(jù)進行集成。然而,不同數(shù)據(jù)源的數(shù)據(jù)在語義上往往存在較大的異構(gòu)性,造成數(shù)據(jù)難以集成。本體既能準確地描述概念的含義又能描述概念之間的內(nèi)在關(guān)聯(lián),并通過邏輯推理獲取概念之間蘊涵的關(guān)系,具有很強的表達概念語義和獲取知識的能力,因此逐漸應(yīng)用于各種數(shù)據(jù)集成系統(tǒng)中。

  研究基于本體的數(shù)據(jù)集成首先要研究本體的構(gòu)建,本體構(gòu)建質(zhì)量的好壞決定集成系統(tǒng)的運行效果。本文在研究各領(lǐng)域本體構(gòu)建的基礎(chǔ)上,通過了解環(huán)保領(lǐng)域知識,提出一種環(huán)保領(lǐng)域本體的構(gòu)建思路與方法,并且嘗試構(gòu)建建設(shè)項目環(huán)評審批基本信息本體,為環(huán)保領(lǐng)域本體的構(gòu)建及以后基于本體的數(shù)據(jù)集成奠定基礎(chǔ)。

1 本體理論概述

  1.1 本體

  本體起源于哲學,是對世界上客觀存在物的系統(tǒng)描述,后來,本體在人工智能、知識工程、信息系統(tǒng)等諸多領(lǐng)域得到了發(fā)展和應(yīng)用。不同領(lǐng)域的研究者對本體的定義不同,引用比較廣泛的是STUDER R等人提出的“本體是共享概念模型的明確形式化規(guī)范說明”[1]。

  1.2 本體構(gòu)建

  本體構(gòu)建是一項龐大的系統(tǒng)工程,需要按照一定的構(gòu)建準則,在合理方法論的指導下,采用合適的本體描述語言和便捷的本體開發(fā)工具加以實現(xiàn)[2]。

  1.2.1 領(lǐng)域本體構(gòu)建方法

  領(lǐng)域本體是用于描述指定領(lǐng)域知識的一種本體,是對領(lǐng)域?qū)嶓w概念、概念間的相互關(guān)系以及領(lǐng)域特征或規(guī)律的一種形式化的描述[3]。常見的領(lǐng)域本體構(gòu)建方法有:KACTUS法、TOVE法、SENSUS法、METHONTOLOGY法、IDEF-5法、骨架法、七步法等[4]。其中,比較成熟的是七步法,該方法由美國斯坦福大學醫(yī)學院提出,主要應(yīng)用于領(lǐng)域本體的構(gòu)建,采用7個步驟來構(gòu)建本體:(1)確定本體的專業(yè)領(lǐng)域和范疇;(2)考查復用現(xiàn)有本體的可能性;(3)列出本體中的重要術(shù)語;(4)定義類和類的等級體系;(5)定義類的屬性;(6)定義類的分面;(7)創(chuàng)建實例。

  1.2.2 本體描述語言及開發(fā)工具

  現(xiàn)有的本體描述語言有多種,此次選用比較常用的OWL(Web Ontology Language)來對領(lǐng)域本體進行描述。本體的開發(fā)工具有OntoEdit、Protégé等。其中protégé本體構(gòu)建工具的界面友好,容易上手,另外具有可擴展性,可以根據(jù)需要添加自定義的模塊,自定義屬性,成為大多數(shù)本體構(gòu)建的首選工具。因此,本文選用的本體構(gòu)建工具是protégé4.0。

  1.2.3 本體構(gòu)建原則

  目前沒有一個標準的本體構(gòu)造方法,研究人員提出了不少本體創(chuàng)建的標準,最有影響的是GRUBER T R[5]提出的指導本體建立的5個準則:清晰性、一致性、可擴展性、編碼偏好程度最小、本體約定最小。目前大家公認在構(gòu)建領(lǐng)域本體的過程中需要領(lǐng)域?qū)<业膮⑴c。

2 環(huán)保領(lǐng)域本體的構(gòu)建方法

  目前,國內(nèi)外關(guān)于環(huán)保領(lǐng)域本體的研究較少,可供借鑒參考的先例不多,對于環(huán)保領(lǐng)域的本體構(gòu)建是一種嘗試。環(huán)保領(lǐng)域本體構(gòu)建是在相關(guān)項目的支持下,由環(huán)保領(lǐng)域?qū)<覍Ρ倔w的概念體系和邏輯結(jié)構(gòu)進行指導與評價。因此,此次構(gòu)建本體,在七步法的基礎(chǔ)上進行改進,不考慮對現(xiàn)有本體的復用,同時加入本體評價這一步驟。最終,根據(jù)此次領(lǐng)域本體構(gòu)建的實際情況,提出一種環(huán)保領(lǐng)域本體構(gòu)建方法,如圖1所示。

001.jpg

3 環(huán)保領(lǐng)域本體構(gòu)建流程

  3.1 明確本體構(gòu)建目的和范疇

  本體的構(gòu)建不是無的放矢,明確領(lǐng)域本體的應(yīng)用目的,對于限定其范圍、增強針對性,進而降低構(gòu)建難度、縮短構(gòu)建時間,具有重要意義[6]。環(huán)保領(lǐng)域本體的構(gòu)建目的是為了實現(xiàn)語義檢索,即為數(shù)據(jù)集成系統(tǒng)提供一個共享的詞匯庫,在數(shù)據(jù)集成中主要起三大作用:概念定義、查詢模型和推理基礎(chǔ)。通過本體的基礎(chǔ)推理作用,在異構(gòu)、分布環(huán)境下的數(shù)據(jù)集成中,可以提高數(shù)據(jù)的查全率和查準率[7]。此次構(gòu)建的本體包含構(gòu)建對象范疇內(nèi)需要集成的數(shù)據(jù)涉及的概念和關(guān)系。

  環(huán)保領(lǐng)域范圍非常廣泛和復雜,為減少難度,僅對福建省環(huán)境保護部門關(guān)于建設(shè)項目環(huán)評審批的基本信息數(shù)據(jù)進行本體建模。本體模型采用的詞匯取自國家環(huán)境保護行業(yè)標準HJ/T416-2007《環(huán)境信息術(shù)語》、《福建省建設(shè)項目環(huán)境影響評價文件分級審批管理規(guī)定》、《建設(shè)項目環(huán)境影響評價分類管理名錄》、項目資料以及被大多數(shù)專業(yè)人士認可的環(huán)保領(lǐng)域?qū)I(yè)性詞匯。

  3.2 領(lǐng)域知識的收集和獲取

  確定范圍之后,收集本體所涉及的知識并列出重要的術(shù)語。知識的收集和獲取是一個復雜的過程,可以通過網(wǎng)絡(luò)、書籍、文獻、專家、項目等渠道獲取相關(guān)知識。本次對領(lǐng)域知識的收集,除上述渠道外,還按照構(gòu)建業(yè)務(wù)對象模型的思路對領(lǐng)域知識進行解讀。業(yè)務(wù)對象模型將結(jié)構(gòu)的概念與行為的概念結(jié)合起來,它探索業(yè)務(wù)領(lǐng)域知識的本質(zhì),在建設(shè)數(shù)據(jù)架構(gòu)時起著重要的作用,主要體現(xiàn)在數(shù)據(jù)來源分析方面,即“有什么數(shù)據(jù)”。確定業(yè)務(wù)對象定義、對象間關(guān)系、對象名稱和對象間關(guān)系名稱的流程,使得能夠以一種被業(yè)務(wù)領(lǐng)域?qū)<依斫夂万炞C的精確方式來表達業(yè)務(wù)領(lǐng)域知識,對提取領(lǐng)域內(nèi)的概念及關(guān)系,進而構(gòu)建本體有極大的幫助。業(yè)務(wù)對象模型概念及關(guān)系如圖2所示。

002.jpg

  3.3 列舉概念

  在相關(guān)業(yè)務(wù)人員的幫助下,通過對領(lǐng)域知識的了解,提取領(lǐng)域內(nèi)的概念和術(shù)語。列出一份盡量全的術(shù)語清單,而暫時不考慮概念間的關(guān)系。

  在確定術(shù)語過程中需要注意兩點:(1)此次本體構(gòu)建的對象是建設(shè)項目環(huán)評審批基本信息,只包含建設(shè)項目環(huán)評審批工作進行之前需要登記填寫的信息,并不包括審批批文等信息;(2)建設(shè)項目的行業(yè)作為建設(shè)項目的一個特征,經(jīng)常作為數(shù)據(jù)分類的依據(jù),同時在數(shù)據(jù)表單、數(shù)據(jù)庫中作為一個重要的字段、數(shù)據(jù)項出現(xiàn),因此列舉的概念中需包含建設(shè)項目的行業(yè)及其分類。

  參考相關(guān)文獻資料,通過與環(huán)保部門業(yè)務(wù)人員和領(lǐng)域?qū)<业慕涣鳎瑲w納總結(jié)出78個領(lǐng)域概念,行業(yè)及其分類詳見《建設(shè)項目環(huán)境影響評價分類管理名錄》,其余包括:項目名稱、建設(shè)地點、建設(shè)內(nèi)容、建設(shè)規(guī)模、總投資、環(huán)保投資、建設(shè)性質(zhì)、聯(lián)系人、聯(lián)系電話、通信地址、郵政編碼、單位名稱、法人代表、評價經(jīng)費、證書編號、甲級報告書評價范圍、乙級報告書評價范圍、報告表評價范圍、有效期、基本情況、污染物名稱、實際排放總量、核定排放總量、實際排放濃度、允許排放濃度、環(huán)境要素名稱、保護目標、質(zhì)量等級、涉及敏感區(qū)名稱。

  3.4 確定類和類的層次

  類的層次的定義有3種方法,即自上向下法、自下向上法和混合法[8]?;旌戏▽⒆陨舷蛳路ㄅc自下向上法相結(jié)合,先建立那些顯而易見的概念,然后分別向上與向下進行泛化與細化。一般來說,混合法比較適合大部分人員。

  運用混合法,在領(lǐng)域?qū)<业膸椭?,?jīng)過識別、分析和統(tǒng)計,最終確定了行業(yè)、組織機構(gòu)、建設(shè)項目、環(huán)評類型、主要污染物、區(qū)域環(huán)境現(xiàn)狀作為核心概念。核心概念作為整個本體概念模型的頂級概念,可以有子概念,即核心類可以有子類,例如組織機構(gòu)分為建設(shè)單位和環(huán)評機構(gòu)。本體類層次如圖3所示。

003.jpg

  3.5 定義類的屬性

  類的屬性包括數(shù)據(jù)屬性(DataType property)和對象屬性(Object property)。數(shù)據(jù)屬性的屬性值為基本類型值,即非領(lǐng)域中概念,對象屬性的屬性值為領(lǐng)域中概念。本體概念間的關(guān)系主要有4類:屬性關(guān)系、繼承關(guān)系、整體和部分關(guān)系、類和實例關(guān)系。上一步所定義的類的層次就是繼承關(guān)系。除上述4種常見的關(guān)系外,還可以根據(jù)領(lǐng)域知識自定義屬性,如建設(shè)項目和行業(yè)之間的具有關(guān)系,建設(shè)單位和環(huán)評機構(gòu)之間的委托關(guān)系等。自定義關(guān)系通過對屬性的定義和約束予以實現(xiàn),約束包括屬性的定義域、值域的約束。對于不同的類,在約束時將相同屬性特征的定義域設(shè)置為其父類,根據(jù)子類繼承父類的特性,子類不用定義就會獲得這些特征,減少了冗余。類的屬性可以有多個,并不需要對每個屬性都進行定義,而是要結(jié)合領(lǐng)域范圍和本體構(gòu)建目的,進行適當?shù)娜∩?。此次自定義36個屬性,部分屬性如表1所示。

004.jpg

  當屬性特征確立之后,借助Protégé4.0將屬性進行編輯并存儲,圖4是部分對象屬性的編輯,圖5是部分數(shù)值屬性的編輯。

  3.6 創(chuàng)建實例

  支撐項目從福建省各級環(huán)保部門收集了許多建設(shè)項目環(huán)評數(shù)據(jù),這些可以作為本體實例的重要來源。建設(shè)項目環(huán)評審批基本信息本體實例的數(shù)量非常巨大,鑒于文章篇幅,也為了便于實驗測試,只列舉少數(shù)實例。

  通過領(lǐng)域?qū)<覍λū倔w的審核和評價,發(fā)現(xiàn)本體概念體系及邏輯結(jié)構(gòu)的不足,返回前面第三步進行修改。在領(lǐng)域?qū)<业膸椭?,?jīng)過反復修改,最終構(gòu)建一個簡單的建設(shè)項目環(huán)評審批基本信息本體模型。部分本體模型結(jié)構(gòu)在Protégé4.0中的視圖如圖6所示。

005.jpg

4 結(jié)論

  建設(shè)項目環(huán)評審批基本信息本體只是環(huán)保本體的一部分,也是基于本體的環(huán)保業(yè)務(wù)數(shù)據(jù)集成的開端與基礎(chǔ),最終目的是為了更好地實現(xiàn)環(huán)保業(yè)務(wù)數(shù)據(jù)的集成。本文結(jié)合本體的應(yīng)用目的,設(shè)計了一種該領(lǐng)域本體的構(gòu)建方法,提出了基于業(yè)務(wù)對象模型分析領(lǐng)域知識的思路,嘗試性地構(gòu)建了建設(shè)項目環(huán)評審批基本信息本體,為基于本體的相關(guān)應(yīng)用奠定了基礎(chǔ),也在一定程度上促進了環(huán)保領(lǐng)域知識管理的發(fā)展。

  鑒于作者水平所限以及對領(lǐng)域知識了解不夠,本文構(gòu)建的本體在規(guī)模、深度上都比較簡單,本體的領(lǐng)域范圍和深度都有待擴展。另外,本文無論是概念、關(guān)系的獲取,還是本體編碼都是純手工完成,當領(lǐng)域范圍較廣,本體比較復雜時,純手工完成費時又費力,因此,如何半自動、自動化地實現(xiàn)本體的構(gòu)建也有待繼續(xù)研究。

參考文獻

  [1] STUDER R, RICHARD B, DIETER F. Knowledge engineering: principles and methods[J]. Data and Knowledge Engineering,1998,25(1-2):161-197.

  [2] 蘭春秋,李櫻.音樂領(lǐng)域本體的研究與構(gòu)建[J].計算機光盤軟件與應(yīng)用,2014(3):76-79.

  [3] 李勇,張志剛.領(lǐng)域本體構(gòu)建方法研究[J].計算機工程與科學,2008,30(5):129-131.

  [4] 李恒杰,李軍權(quán),李明.領(lǐng)域本體建模方法研究[J].計算機工程與設(shè)計,2008,29(2):381-384.

  [5] GRUBER T R. Towards principles for the design of ontologies used for knowledge sharing[J]. International Journal of Human-Computer Studies 1995,43(5/6):907-928.

  [6] 劉紫玉,黃磊.高速鐵路領(lǐng)域本體構(gòu)建方法研究[J].情報學報,2009,28(2):195-200.

  [7] 李星毅,高文浩,施化吉.基于本體的異構(gòu)數(shù)據(jù)集成方法[J].計算機工程與設(shè)計,2009,30(8):1931-1933.

  [8] 甘健侯,姜躍,夏幼明.本體方法及其應(yīng)用[M].北京:科學出版社,2011.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。