《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于敘詞分類的海洋科技信息的數(shù)據(jù)轉(zhuǎn)儲(chǔ)
基于敘詞分類的海洋科技信息的數(shù)據(jù)轉(zhuǎn)儲(chǔ)
2016年微型機(jī)與應(yīng)用第16期
史珂,徐建良
中國(guó)海洋大學(xué) 信息科學(xué)與工程學(xué)院,山東 青島 266100
摘要: 在研究敘詞表分類的基礎(chǔ)上,調(diào)研了國(guó)家海洋局第一海洋研究所海洋科技信息數(shù)據(jù)。根據(jù)這些電子資源的存儲(chǔ)方式與存儲(chǔ)結(jié)構(gòu),對(duì)其進(jìn)行數(shù)據(jù)的轉(zhuǎn)儲(chǔ),設(shè)計(jì)了標(biāo)準(zhǔn)的XML文件,以便數(shù)據(jù)資源的二次使用與共享。
Abstract:
Key words :

  史珂,徐建良
 ?。ㄖ袊?guó)海洋大學(xué) 信息科學(xué)與工程學(xué)院,山東 青島 266100)

        摘要:在研究敘詞表分類的基礎(chǔ)上,調(diào)研了國(guó)家海洋局第一海洋研究所海洋科技信息數(shù)據(jù)。根據(jù)這些電子資源的存儲(chǔ)方式與存儲(chǔ)結(jié)構(gòu),對(duì)其進(jìn)行數(shù)據(jù)的轉(zhuǎn)儲(chǔ),設(shè)計(jì)了標(biāo)準(zhǔn)的XML文件,以便數(shù)據(jù)資源的二次使用與共享。
  關(guān)鍵詞:敘詞表;海洋信息;數(shù)據(jù)轉(zhuǎn)儲(chǔ)  

0引言
  在對(duì)現(xiàn)有的海洋科技信息數(shù)據(jù)的研究中發(fā)現(xiàn),其存儲(chǔ)方式大多數(shù)以是Word文件或Excel文件的形式分散在科學(xué)家和各個(gè)研究部門手中。由于各個(gè)科研機(jī)構(gòu)的管理方式和科研工作者的編寫習(xí)慣不一致,導(dǎo)致異構(gòu)數(shù)據(jù)源在不同文件中的組織結(jié)構(gòu)、語義層次不同,從而使整個(gè)海洋科技信息的數(shù)據(jù)出現(xiàn)雜亂、重復(fù)、語義不一致等現(xiàn)象,這就造成了海洋科技信息的數(shù)據(jù)資源沒有辦法滿足海洋科研工作者的科研成果的共享與二次使用,同時(shí)也不能滿足與國(guó)際科研機(jī)構(gòu)的數(shù)據(jù)交換[1]。這種情況對(duì)我國(guó)海洋科學(xué)考察領(lǐng)域的發(fā)展產(chǎn)生了嚴(yán)重的阻礙。
  把這些碎片化的異構(gòu)數(shù)據(jù)源進(jìn)行整合從而達(dá)到規(guī)范化是目前各個(gè)機(jī)構(gòu)和科研工作者的首要任務(wù)。通過對(duì)海洋科技信息數(shù)據(jù)格式和內(nèi)容的研究,本文設(shè)計(jì)了一種規(guī)范、標(biāo)準(zhǔn)的XML文件,把海洋科技信息數(shù)據(jù)資源轉(zhuǎn)儲(chǔ)到該自定義的XML文件,使海洋相關(guān)數(shù)據(jù)得到最大化的共享和利用,同時(shí)也為我國(guó)即將開展的數(shù)字海洋計(jì)劃提供了一定的數(shù)據(jù)資源。
1海洋科技信息數(shù)據(jù)格式
  按照Soergel的理論把敘詞表分為兩類,分別為基于術(shù)語的敘詞表(termbased thesaurus )和基于概念的敘詞表(conceptbased thesaurus )[1]。其中,前者是一種集合,該集合結(jié)構(gòu)清晰,因?yàn)檫@種類型的敘詞表只包含一種實(shí)體類型,這種實(shí)體就是術(shù)語,而術(shù)語與術(shù)語之間存在的關(guān)系分有3種,分別為層級(jí)關(guān)系、相關(guān)關(guān)系、等同關(guān)系[2]。而另外一種敘詞表,即基于概念的敘詞表,則由兩種實(shí)體類型組成,其中一種是概念,另外一種是術(shù)語。概念是一個(gè)簡(jiǎn)單的結(jié)構(gòu)單一的思想單元[3],概念的基本信息包括優(yōu)選術(shù)語、非優(yōu)選術(shù)語、范圍附注等,概念之間同樣也存在層級(jí)關(guān)系、相關(guān)關(guān)系。結(jié)合海洋科技信息數(shù)據(jù)源的存儲(chǔ)結(jié)構(gòu)和存儲(chǔ)類型,可以把這些數(shù)據(jù)資源簡(jiǎn)單分為兩類:
 ?。?)把以Word文檔作為存儲(chǔ)結(jié)構(gòu)的敘詞看作基于概念的敘詞表,不僅有術(shù)語、關(guān)鍵詞,還有概念,概念用來對(duì)關(guān)鍵詞進(jìn)行進(jìn)一步解釋。
  (2)把以Excel文檔作為存儲(chǔ)結(jié)構(gòu)的敘詞看作基于術(shù)語的敘詞表,不僅有術(shù)語關(guān)鍵詞,還有詞間的層級(jí)關(guān)系。
  其關(guān)系結(jié)構(gòu)如圖1所示。

圖像 001.png

2Word和Excel模板規(guī)范
  海洋科技信息文檔的格式和組織架構(gòu)雖然相對(duì)比較固定,但仍然存在語義與結(jié)構(gòu)的不一致現(xiàn)象,直接從這樣的Word和Excel文檔中提取關(guān)鍵信息,容易導(dǎo)致數(shù)據(jù)的混亂,同時(shí)也對(duì)提取的算法要求頗高,這就需要先通過Word的語義模型和Excel的行列關(guān)系規(guī)范文檔的結(jié)構(gòu)。
  通過域的設(shè)定,可以把字體、位置、顏色等顯示樣式規(guī)范化[4]。域中的數(shù)據(jù)都是可變的,如果以后用戶自主創(chuàng)建Word文檔,只需更改域中的文字信息即可,不需要再對(duì)樣式、排版進(jìn)行編輯,其中敘詞用加粗字體表示,對(duì)應(yīng)概念用普通字體表示,敘詞與概念之間用空格銜接,如圖2所示。對(duì)于這種建立模版方法,在插入每一個(gè)域時(shí),都需要輸入相應(yīng)的提示文本,作為該域的語義信息。
  

圖像 002.png

  而對(duì)于Excel文檔,一般情況下總共4列,同一行上后一個(gè)列屬于前一個(gè)列的子類,最后一列對(duì)應(yīng)敘詞,除此之外的每一列都對(duì)應(yīng)一個(gè)分類,如果以樹狀結(jié)構(gòu)列出表中的層次關(guān)系的話,即每個(gè)葉子節(jié)點(diǎn)為敘詞,每個(gè)非葉子節(jié)點(diǎn)都為分類,且分類中也可包含其他分類,如圖3所示。
 

圖像 003.png

3Word和Excel信息抽取
  Microsoft Office 2010提供了通過將自定義XML Schema架構(gòu)插入工作薄,導(dǎo)出符合結(jié)構(gòu)需求的XML文件的功能。該功能是在Office文檔和XML結(jié)構(gòu)之間創(chuàng)建了一個(gè)映射,進(jìn)行Office文檔中數(shù)據(jù)的分離。
  3.1自定義XML Schema
  XML Schema文件的主要定義可擴(kuò)展標(biāo)記語言的合法構(gòu)建結(jié)構(gòu),它可以定義出現(xiàn)在文檔中的元素、元素的層次結(jié)構(gòu)、子元素的次序、子元素的數(shù)目、元素是否為空、文檔中的屬性、元素和屬性的數(shù)據(jù)類型、元素和屬性的默認(rèn)值以及固定值等[5]。本文自定義的XML Schema文件結(jié)構(gòu)如下。
  <?xml version="1.0"?>
  <xsd:schema xmlns:xsd="http://www.w3.org/2001/XMLSchema">
  <xsd:element name="dump-file">
  <xsd:complexType>
  <xsd:sequence>
  <xsd:element name="username" type="xsd:string"/>
  <xsd:element name="security" type="xsd:string"/>
  <xsd:element name="category" type="xsd:string"/>
  <xsd:element name="page">
  <xsd:complexType>
  <xsd:sequence>
  <xsd:element name="category" type="xsd:string"/>
  <xsd:element name="title" type="xsd:string"/> <xsd:element name="text" type="xsd:string" />
  </xsd:sequence>
  </xsd:complexType>
  </xsd:element>
  </xsd:sequence>
  </xsd:complexType>
  </xsd:element>
  </xsd:schema>
  3.2Word到標(biāo)準(zhǔn)XML文檔
  使用了上文通過域定義的語義模版后的Word文檔如圖4所示。使用XML Schema中定義的元素對(duì)Word文檔的關(guān)鍵字進(jìn)行手動(dòng)映射,這樣就把與邏輯相關(guān)的一些標(biāo)記插入到了Word文檔中,以便根據(jù)實(shí)際需要通過標(biāo)識(shí)符來方便地對(duì)文檔進(jìn)行處理。具體實(shí)現(xiàn)方式如下。
  

圖像 004.png

 ?。?)在菜單中選擇“開發(fā)工具架構(gòu)”,在彈出的窗口中選擇“添加架構(gòu)”,將XML Schema文件附加到Word文檔。
 ?。?)在添加架構(gòu)完成后,就可以利用該Schema文件中的元素批注Word文檔。Word文檔右側(cè)的“XML結(jié)構(gòu)”窗格可將附加架構(gòu)中的自定義元素映射到文檔關(guān)鍵字。
  完成Schema文檔中的元素與Word文檔關(guān)鍵字的映射后,需要對(duì)剛創(chuàng)建的文檔進(jìn)行保存,其保存格式為XML文件,保存后的XML文檔結(jié)構(gòu)效果如下。
  <?xml version="1.0" encoding="gb2312" standalone="yes"?>
  <dump-file>
  <username>王一</username>
  <security>公開</security>
  <category>大洋調(diào)查</category>
  <page>
  <category/>
  <title>站位</title>
  <text>若在某一海域中需要進(jìn)行相應(yīng)的調(diào)查目的的采樣,則用站位號(hào)來表示這一區(qū)域。 </text>
  </page>
  <page>
  <category/>
  <title>采樣點(diǎn)</title>
  <text>在某一站位進(jìn)行采樣時(shí),可能需要在不同區(qū)域進(jìn)行多次取樣(儀器入水后在多個(gè)區(qū)域采樣),對(duì)于每個(gè)采樣的區(qū)域稱為一個(gè)采樣點(diǎn)。一個(gè)站位可能零到多個(gè)采樣點(diǎn)。</text>
  </page>
  <page>
  <category/>
  <title>入水經(jīng)緯度</title>
  <text>進(jìn)行采樣作業(yè)時(shí),儀器入水時(shí)的經(jīng)緯度為入水經(jīng)緯度。一個(gè)站位只有一個(gè)入水經(jīng)緯度。</text>
  </page>
  </dumpfile>
  3.3Excel到標(biāo)準(zhǔn)XML文檔
  把XML Schema文件添加到Excel文檔中的具體步驟如下。
  (1)在菜單中選擇“開發(fā)工具源”,在彈出的右側(cè)窗口中選擇“XML映射”,將XML Schema文件附加到Excel文檔。
 ?。?)使用“XML源”將Excel文檔單元格映射到XML架構(gòu)元素。
  Excel會(huì)自動(dòng)創(chuàng)建一個(gè)XML映射對(duì)象,通過鼠標(biāo)拖曳XML映射元素到相應(yīng)關(guān)鍵詞上,實(shí)現(xiàn)它們之間的映射,這樣就可以將單元格中的數(shù)據(jù)反映到XML架構(gòu)的元素上,其顯示效果如圖5所示。
  

圖像 005.png

  完成Schema文檔中的元素與Excel文檔關(guān)鍵字的映射后,Microsoft Excel導(dǎo)出的標(biāo)準(zhǔn)XML文件格式如下。基于這種通用結(jié)構(gòu),可以方便有效地完成海洋數(shù)據(jù)向各個(gè)應(yīng)用或者數(shù)據(jù)庫(kù)的轉(zhuǎn)儲(chǔ)工作。
  <?xml version="1.0" encoding="UTF-8" standalone="yes"?>
  <dump-file>
  <username>王二</username>
  <security>公開</security>
  <category>地球科學(xué)服務(wù)</category>
  <page>
  <category>數(shù)據(jù)分析和可視化</category>
  <title>校準(zhǔn)/檢驗(yàn)</title>
  <text/>
  </page>
  <page>
  <category>數(shù)據(jù)分析和可視化</category>
  <title>地理信息系統(tǒng)</title>
  <text>移動(dòng)地理信息系統(tǒng)</text>
  </page>
  <page>
  <category>數(shù)據(jù)分析和可視化</category>
  <title>地理信息系統(tǒng)</title>
  <text>桌面地理信息系統(tǒng)</text>
  </page>
  <page>
  <category>數(shù)據(jù)管理/數(shù)據(jù)處理</category>
  <title>數(shù)據(jù)互操作</title>
  <text/>
  </page>
  <page>
  <category>數(shù)據(jù)管理/數(shù)據(jù)處理</category>
  <title>數(shù)據(jù)互操作</title>
  <text>數(shù)據(jù)格式化</text>
  </page>
  <page>
  <category>數(shù)據(jù)管理/數(shù)據(jù)處理</category>
  <title>數(shù)據(jù)挖掘</title>
  <text/>
  </page>
  </dump-file>
4結(jié)論
  本文研究的資料直接來源于國(guó)家海洋局第一海洋研究所,能客觀真實(shí)地反映該領(lǐng)域的知識(shí)結(jié)構(gòu)框架,概念更專指,能有效克服“嵌入迷失問題”(詞表過大導(dǎo)致用戶迷失了方向)和“藝術(shù)博物館現(xiàn)象”(用戶花了很多時(shí)間卻沒有找到任何有用信息)[6]。本文通過使用Microsoft Office 2010自帶的映射功能完成標(biāo)準(zhǔn)XML文件的生成,為數(shù)據(jù)的管理和二次利用提供了有效的途徑。
  參考文獻(xiàn)
  [1] 傅強(qiáng). 中國(guó)大洋研究成果數(shù)據(jù)庫(kù)平臺(tái)系統(tǒng)建設(shè)[D]. 青島:國(guó)家海洋局第一海洋研究所, 2007.
 ?。?] BANERJEE S, PEDERSEN T. Extended gloss overlaps as a measure of semantic relatedness[C]. International Joint Conference on Artificial Intelligence, IJCAI, 2003: 805810.

 ?。?] BUDANITSKY A, HIRST G. Evaluating wordnetbased measures of lexical semantic relatedness[J]. Computational Linguistics, 2006, 32(1): 1347.
 ?。?] Chen Zeqiang, Chen Nengcheng. Use of service middleware based on ECHO with CSW for discovery and registry of MODIS data[J].地球空間信息科學(xué)學(xué)報(bào)(英文版), 2010, 13(3):191200.
 ?。?] LEE D, CHU W W. Comparative analysis of six XML schema languages[J]. ACM Sigmod Record, 2000, 29(3):7687.
  [6] AITCHISON J, CLARKE S D. The thesaurus: a historical viewpoint, with a look to the future[J]. Cataloging & classification quarterly, 2004, 37(34): 521.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。