《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于Bayes算法實(shí)現(xiàn)圖像語義分類
基于Bayes算法實(shí)現(xiàn)圖像語義分類
許天兵
濟(jì)南山東財(cái)政學(xué)院計(jì)算機(jī)信息工程系(250014)
摘要: 介紹了根據(jù)圖像的邏輯特征和抽象屬性進(jìn)行檢索的基于語義分類的圖像檢索技術(shù),并用Bayes分類算法設(shè)計(jì)了一個(gè)語義分類器,該語義分類器通過計(jì)算用戶要查詢圖像的后驗(yàn)概率,對被查詢的圖像進(jìn)行語義分類。
Abstract:
Key words :

 摘 要: 介紹了根據(jù)圖像的邏輯特征和抽象屬性進(jìn)行檢索的基于語義分類圖像檢索技術(shù),并用Bayes分類算法設(shè)計(jì)了一個(gè)語義分類器,該語義分類器通過計(jì)算用戶要查詢圖像的后驗(yàn)概率,對被查詢的圖像進(jìn)行語義分類。
關(guān)鍵詞: 語義分類  圖像檢索  Bayes算法  特征向量

1  語義圖像檢索
  圖像檢索的傳統(tǒng)方法是基于文本的,使用關(guān)鍵字注釋是最常用的方法。這樣,對圖像的檢索就變成了對關(guān)鍵字的查找。但是,基于文本的檢索存在的主要問題是:由于圖像注解的主觀性和不完備性,因而不能保證檢全率。為了克服基于文本方法的局限性,20世紀(jì)90年代出現(xiàn)了基于內(nèi)容的圖像檢索(Content-Based Image Retrieval,CBIR)。CBIR系統(tǒng)是指直接采用圖像內(nèi)容進(jìn)行圖像信息查詢的檢索系統(tǒng)[1]。按照圖像檢索復(fù)雜度的遞增,CBIR可以分為以下3個(gè)層次上的圖像檢索。
  (1)原始特征。使用顏色、紋理、形狀等視覺特征進(jìn)行圖像檢索。這些特征是客觀的,是圖像本身的屬性,不需要任何外部知識。在這一層次上的檢索一般應(yīng)用于特定領(lǐng)域的專家系統(tǒng),如商標(biāo)登記、檔案識別等。
  (2)導(dǎo)出特征。導(dǎo)出特征又稱為邏輯特征,是通過對圖像中所描述對象進(jìn)行某種程度的邏輯推理而得到的。例如,“查詢雙層公共汽車的圖片”,這一層次的檢索需要得到一些外部知識的幫助。目前,報(bào)紙、雜志等圖像數(shù)據(jù)庫的檢索主要是在這一層次上進(jìn)行。
  (3)抽象屬性。該層次的檢索涉及到對圖像中所包含物體的含義和場景的描述進(jìn)行大量的高層次的推理。例如,“查詢描寫苦難的圖片”,要想檢索成功,需要較復(fù)雜的搜索引擎,運(yùn)用推理和主觀判斷,在圖像內(nèi)容和抽象概念之間建立聯(lián)系。
  按導(dǎo)出特征和抽象屬性進(jìn)行檢索又稱為語義圖像檢索[2]。目前,大部分CBIR是按照圖像的原始視覺特征,在第一層次上進(jìn)行檢索。然而,基于語義的圖像檢索的應(yīng)用范圍更為廣闊,現(xiàn)在已成為基于內(nèi)容的圖像檢索的發(fā)展熱點(diǎn)。
2  基于Bayes算法的圖像語義分類
  特征(即內(nèi)容)的提取是CBIR的基礎(chǔ)。CBIR的特征主要是指視覺特征,包括顏色、紋理、形狀和位置關(guān)系等特征。但是,按照原始視覺特征檢索的CBIR系統(tǒng)存在的主要問題是沒有建立視覺內(nèi)容和圖像語義之間的關(guān)聯(lián),如木紋圖像和水紋圖像的紋理特征向量之間的距離很小,一片楓葉圖像的顏色特征和紅色油漆木門圖像的顏色特征非常相似,但它們的語義卻截然不同。為了填補(bǔ)視覺內(nèi)容和內(nèi)容解釋之間的語義縫隙,本文提出語義圖像檢索,其核心部分是圖像的語義分類[3]。這里,用Bayes分類算法來計(jì)算在特征值為[xi1,xi2,……]的條件下,圖像屬于語義類型cj的概率P(cj|[xi1,xi2,……])。
  Bayes分類算法是根據(jù)先驗(yàn)概率計(jì)算出后驗(yàn)概率。通過訓(xùn)練樣本,可以構(gòu)造出語義分類器,語義分類器根據(jù)用戶要查詢圖像的后驗(yàn)概率對被查詢圖像進(jìn)行語義分類。
  圖像的語義,即對圖像內(nèi)容的解釋。簡單語義通常就是圖像的主題詞,復(fù)雜語義則是對圖像內(nèi)容的敘事型描述。本文采用簡單語義的標(biāo)記方式,即:
  圖像語義s∷=圖像標(biāo)識+{主題詞注釋}
  這里,圖像主題詞注釋既包括圖像名稱、圖像中顯示出的物體,也包括圖像的視覺屬性。圖像可以按照語義歸類。
  

  在計(jì)算出先驗(yàn)概率P(c)和條件概率P(x|c)后即可得到后驗(yàn)概率P(c|x)。
  對于給定的一組訓(xùn)練樣本圖像,若樣本總數(shù)為N,語義類型c中包含的樣本個(gè)數(shù)為Nc,則記為:
    

  研究表明,人類的視覺內(nèi)容往往存在一定的偏差。這種偏差可以通過正態(tài)分布擬合給予彌補(bǔ),即對于任一種語義類型c,首先把同樣的Gaussian內(nèi)核放入它的所有訓(xùn)練樣本的特征向量Xi,然后再把這些Gaussian內(nèi)核累加起來作為條件概率P(x|c)的估計(jì):
    

  這里,G(X-μ,σ)是Gaussian內(nèi)核,μ是平均值,σ是模糊度(即標(biāo)準(zhǔn)差)。模糊度根據(jù)圖像質(zhì)量由用戶指定。
  不同的視覺特征對不同語義的圖像有不同的辯識能力。現(xiàn)在的問題是:如何從圖像特征向量集合中選擇一類或幾類特征,使得被選擇特征對特定語義類型的圖像具有最強(qiáng)的表達(dá)能力。圖像、圖像特征和圖像語義三者的關(guān)系如圖1所示。

  定義3 給定一個(gè)語義類型集C,尋找一個(gè)從圖像I到圖像特征向量集合X的映射f(I)=X,使MAX(p(I∈ci|f(I)=X),i=1,2,……m)成立,這一過程稱為基于語義分類的圖像檢索。
3  語義分類器
  直接利用圖像的原始視覺特征進(jìn)行語義分類較困難。常用的方法是:用戶先對一組圖像(訓(xùn)練樣本)進(jìn)行手工語義分類,設(shè)定好CBIR系統(tǒng)的語義分類器。當(dāng)用戶查詢圖像時(shí),系統(tǒng)根據(jù)查詢圖像的視覺特征識別其語義,把查詢圖像和具有相同語義類型的圖像庫進(jìn)行比較,按相似性大小返回查詢結(jié)果。對圖像按語義分類的具體流程如圖2所示。

  下面設(shè)計(jì)一個(gè)語義分類器,其圖像語義層次結(jié)構(gòu)如圖3所示。該語義分類器具有以下特點(diǎn):
  (1)圖像的語義按層次結(jié)構(gòu)分類。
  (2)圖像的語義為自頂向下分類。
  (3)圖像的語義分類結(jié)構(gòu)為可擴(kuò)充的體系結(jié)構(gòu)。

  先利用一組訓(xùn)練圖像數(shù)據(jù)進(jìn)行語義分類,對于訓(xùn)練數(shù)據(jù)中的圖像,按上述語義層次結(jié)構(gòu),用手工方法把圖像歸入一個(gè)語義類型中,并給圖像貼上相應(yīng)的語義標(biāo)簽。城市風(fēng)貌可以歸納為具有人工建筑和人造物品,如建筑物、汽車、道路等。自然風(fēng)景沒有這些特征。在自然風(fēng)景下有3個(gè)子類:日出、森林和山峰。日出可以用飽和度較高的顏色(紅色、橙黃色、黃色)來表示,森林中綠色為主色調(diào),山峰可以用長距離的山區(qū)景色來標(biāo)識。
  衡量視覺特征對語義類型的區(qū)別能力還很困難。通常認(rèn)為,如果一個(gè)視覺特征使同一語義類型內(nèi)的圖像距離較小,而使不同語義類型中的圖像距離較大,則該視覺特征對語義類型的區(qū)別能力是較強(qiáng)的。通過計(jì)算一個(gè)語義類型內(nèi)每一對圖像之間的距離,可以得到該語義類型內(nèi)的圖像的距離分布。通過計(jì)算不同語義類型(如城市風(fēng)貌和自然風(fēng)景)之間每一對圖像之間的距離,可以得到不同語義類型之間的圖像的距離分布。
在每個(gè)語義類型(城市風(fēng)貌和自然風(fēng)景)中選擇k個(gè)最相似的圖像,用戶的查詢圖像通過與這k幅圖像的比較,可以判斷查詢圖像屬于哪個(gè)語義類型。
  對于本文設(shè)計(jì)的語義分類器,經(jīng)過計(jì)算發(fā)現(xiàn),形狀特征對城市風(fēng)貌和自然風(fēng)景2種語義類型的區(qū)別能力比其他視覺特征要強(qiáng)。城市風(fēng)貌中的人造物體具有較明顯的水平和垂直邊,而自然風(fēng)景對象的邊緣就比較隨意。因此用形狀特征能夠比較容易地區(qū)別二者。以顏色特征區(qū)別自然風(fēng)景下的日出、森林、山峰更加理想,如草地用綠色表示,天空用藍(lán)色表示等。
4  結(jié)束語
  本文根據(jù)Bayes分類方法對圖像語義進(jìn)行分類,設(shè)計(jì)了一個(gè)語義分類器。利用訓(xùn)練數(shù)據(jù)定義好語義類型后,就可以根據(jù)圖像的視覺特征找到圖像的語義類型。這樣相似性匹配即可在同一語義類型下進(jìn)行,因而提高了圖像檢索效率。
參考文獻(xiàn)
1   付巖,王耀威.SVM用于基于內(nèi)容的自然圖像分類和檢索. 計(jì)算機(jī)學(xué)報(bào),2003;26(10)
2   Smeulders A,Worring M.Content-based Image Retrieval  at the End of the Early Years.IEEE Transactions on  Pattern Analysis and Machine Intelligence,2000;22(12)
3   莊越挺,潘云鶴.基于內(nèi)容的圖像檢索綜述.模式識別與人工智能,1999;12(2)
 

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。