《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信與網(wǎng)絡(luò) > 設(shè)計(jì)應(yīng)用 > 綠網(wǎng)摘要提取系統(tǒng)算法研究
綠網(wǎng)摘要提取系統(tǒng)算法研究
來源:微型機(jī)與應(yīng)用2013年第12期
龍 瓏1, 鄧 偉2
(1. 廣西師范學(xué)院 計(jì)算機(jī)與信息學(xué)院, 廣西 南寧530023; 2. 廣西腫瘤防治研究所, 廣西
摘要: 隨著互聯(lián)網(wǎng)的普及和發(fā)展, 傳統(tǒng)的文本摘要的提取方法已無法適應(yīng)綠色網(wǎng)絡(luò)提供優(yōu)質(zhì)內(nèi)容并過濾不良文本的社會(huì)需求。提出通過條件隨機(jī)場(chǎng)模擬對(duì)句子進(jìn)行注解的方法提取文本摘要。實(shí)驗(yàn)證明新方法提取文本的效果有效并可提供更好的過濾不良文本的服務(wù)。
Abstract:
Key words :

摘  要: 隨著互聯(lián)網(wǎng)的普及和發(fā)展, 傳統(tǒng)的文本摘要的提取方法已無法適應(yīng)綠色網(wǎng)絡(luò)提供優(yōu)質(zhì)內(nèi)容并過濾不良文本的社會(huì)需求。提出通過條件隨機(jī)場(chǎng)模擬對(duì)句子進(jìn)行注解的方法提取文本摘要。實(shí)驗(yàn)證明新方法提取文本的效果有效并可提供更好的過濾不良文本的服務(wù)。
關(guān)鍵詞: 綠色網(wǎng)絡(luò); 提取信息; 不良文本; 過濾; 條件隨機(jī)場(chǎng)

    目前尚未發(fā)現(xiàn)“綠色網(wǎng)絡(luò)”權(quán)威定義,現(xiàn)階段只能將其理解為可預(yù)防網(wǎng)民患上網(wǎng)癮流行病的計(jì)算機(jī)網(wǎng)絡(luò)[1-2]?;谛袨榉治龅木G色網(wǎng)絡(luò)系統(tǒng)軟件的設(shè)計(jì)目的是為了預(yù)防青少年感染不良的網(wǎng)癮行為?;谛袨榉治龅木G色網(wǎng)絡(luò)系統(tǒng)中提取文本摘要子系統(tǒng)(下文稱綠網(wǎng)摘要提取系統(tǒng))采用智能的方法濃縮文本信息,從而使基于行為分析的綠色網(wǎng)絡(luò)系統(tǒng)能快速有效地識(shí)別過濾對(duì)青少年有不良影響的文本,保留青少年獲得感興趣并對(duì)他們身心有益的文本。
    在如何快速準(zhǔn)確提取文本摘要這個(gè)問題上,不少學(xué)者進(jìn)行了大量有價(jià)值的研究。Baxendale提出引入句子位置判斷句子重要性的方法提取文本摘要[3]。Luhn列出高頻詞并打分,分?jǐn)?shù)高的句子被認(rèn)定為文本摘要句[4]。AONE C等提出基于TF-IDF樸素貝葉斯模型的算法提取文本摘要[5-7]。KUPIE C J等通過增加句長(zhǎng)方法改進(jìn)樸素貝葉斯模型的算法提取文本摘要[8]。金立左等提取文本摘要使用基于最大熵模型,增加了先驗(yàn)概率,從而優(yōu)于所有基于樸素貝葉斯模型的方法[9-11]。
    針對(duì)文本摘要更新較快和多樣性的特點(diǎn),本文提出通過條件隨機(jī)場(chǎng)模擬對(duì)句子進(jìn)行注解來達(dá)到提取文本摘要的方法。實(shí)驗(yàn)表明該方法可有效地提取文本摘要,為綠色網(wǎng)絡(luò)系統(tǒng)是否過濾該文本提供依據(jù)。
1 綠網(wǎng)摘要提取系統(tǒng)摘要主要特征
    文本摘要具有三個(gè)基本的特征:源自文件、保留文本重要信息、長(zhǎng)度短。因此要滿足以上特點(diǎn),很多因素會(huì)影響一個(gè)句子是否被認(rèn)為是文本摘要句。影響分為兩大類,第一類是句子自身因素,也稱單句特征;第二類是文本上下文信息因素,稱為關(guān)聯(lián)特征。
1.1 句子自身特征
    句子自身特征是指不涉及文本上下文信息也能體現(xiàn)出句子本身的特征。下文列舉出幾種句子自身因素。
    (1)長(zhǎng)度特征,由于文本摘要基本不會(huì)出現(xiàn)過短或過長(zhǎng)的句子,先過濾掉句子中的停用詞,然后以詞為單位計(jì)算目標(biāo)句子的長(zhǎng)度,最終本文算法選取最短和最長(zhǎng)的閥值分別為38和6。
    (2)位置特征,位置因素是文本預(yù)料的重要特征因素,首句、尾句、段首和段尾是最重要的影響提取文本摘要的幾個(gè)特征,本文采用了首段、尾句、段首和段尾的位置特征因素。標(biāo)記詞語特征,判斷摘要句的標(biāo)記詞語,例如“表示”等,統(tǒng)計(jì)表明,約有30%句子含有標(biāo)記詞語,本文算法利用這些詞語判斷摘要句。
    (3)高頻詞特征,高頻詞是指出現(xiàn)在目標(biāo)文本頻率較高的句子,詞頻越高,證明該詞語的重要程度越大,所在的句子代表性越強(qiáng),本文算法在停用詞被過濾后,再度量使用高頻詞。
    (4)時(shí)間、數(shù)字及專有名詞特征,文章的焦點(diǎn)基本是命名實(shí)體,算法選擇句子時(shí)決定使用時(shí)間、數(shù)字以及專有名詞。
1.2 上下文關(guān)聯(lián)特征
     一個(gè)句子是否被綠網(wǎng)摘要提取系統(tǒng)選擇為摘要句,除了句子自身的特征影響外,受到上下文關(guān)聯(lián)特征的影響也是很大的。綠網(wǎng)摘要提取系統(tǒng)選擇兩種基本的關(guān)聯(lián)特征。
    (1)與文本標(biāo)題相似度的關(guān)聯(lián)特征。文本信息包含在標(biāo)題中,研究發(fā)現(xiàn)句子與標(biāo)題相似度越大,則出現(xiàn)在摘要的可能性越大。
    (2)與文本其他句子的相似度的關(guān)聯(lián)特征。實(shí)際開發(fā)中綠網(wǎng)摘要提取系統(tǒng)把使用該特征看作尋找“高頻句”的相似過程,原理與高頻詞原理相似,建模公式為:
  

其中,x為綠網(wǎng)摘要提取系統(tǒng)目標(biāo)文本;Length(x)為綠網(wǎng)摘要提取系統(tǒng)目標(biāo)文本的長(zhǎng)度,即系統(tǒng)目標(biāo)文本所包含的句子數(shù)。
3 實(shí)驗(yàn)測(cè)試結(jié)果及分析
3.1 實(shí)驗(yàn)測(cè)試預(yù)料

    本文實(shí)驗(yàn)的測(cè)試數(shù)據(jù)來源于廣西軟件測(cè)試中心,從搜狐、新浪、網(wǎng)易以及鳳凰網(wǎng)4個(gè)網(wǎng)站上采集了35 220篇文本,其中既有不宜青少年閱讀的文本,也有適合青少年閱讀的文本,將這些平均分為5等份,4份用于訓(xùn)練,1份用于測(cè)試,測(cè)試使用交叉驗(yàn)證方法。
3.2 實(shí)驗(yàn)測(cè)試評(píng)測(cè)方法
    為了更好地評(píng)價(jià)綠網(wǎng)摘要提取系統(tǒng)測(cè)試實(shí)驗(yàn)效果,采用準(zhǔn)確率、召回率和F值3個(gè)標(biāo)準(zhǔn)指標(biāo)來衡量,其中F值是本次測(cè)試最重要的評(píng)價(jià)指標(biāo)。綠網(wǎng)摘要提取系統(tǒng)測(cè)試實(shí)驗(yàn)結(jié)果的計(jì)算公式為:
 
    從表1的實(shí)驗(yàn)結(jié)果可以看出,綠網(wǎng)摘要提取系統(tǒng)使用基本條件隨機(jī)場(chǎng)模型的綜合效果(即F值)好于系統(tǒng)使用其他兩種模型,召回率不如系統(tǒng)使用樸素貝葉斯模型。算法設(shè)計(jì)小組觀察標(biāo)注的結(jié)果發(fā)現(xiàn),當(dāng)系統(tǒng)選取目標(biāo)文本過長(zhǎng)時(shí),使用條件隨機(jī)場(chǎng)提取摘要句子分布會(huì)過于分散,位于文本中部的句子其位置特征相對(duì)分散,導(dǎo)致誤判,從而綠網(wǎng)摘要提取系統(tǒng)使用基本條件隨機(jī)模型提取目標(biāo)文本的摘要的召回率低一些。算法設(shè)計(jì)小組對(duì)本次測(cè)試統(tǒng)計(jì)發(fā)現(xiàn),有54%的文本超過10句,24%的文本超過20句,文本越長(zhǎng),綠網(wǎng)摘要提取系統(tǒng)使用基本條件隨機(jī)模型提取目標(biāo)文本的摘要的效果越差。
    表2 列出了第二組測(cè)試的實(shí)驗(yàn)結(jié)果。

 

 

    從表2實(shí)驗(yàn)結(jié)果可以看出,綠網(wǎng)摘要提取系統(tǒng)使用合適的修正因子條件隨機(jī)場(chǎng)模型后,召回率提高了15.4%,綜合效果(F值)也提高了1.6%,在一定程度上提高了F值,取得更好的效果。
    綠網(wǎng)摘要提取系統(tǒng)采用增加修正因子的方法改進(jìn)條件隨機(jī)模型可以克服目標(biāo)文本因文本過長(zhǎng)所造成的影響。從實(shí)驗(yàn)效果來看,使用修正因子可以提高提取摘要的效果,今后可重點(diǎn)考慮在算法模型中增加更多因素的修正因子,以提高模型算法的提取效果。
參考文獻(xiàn)
[1] 寧葵,龍瓏,覃曉,等.綠色網(wǎng)絡(luò)不良內(nèi)容語義分析方法研究[J].計(jì)算機(jī)應(yīng)用研究,2010,27(12):4643-4645.
[2] 龍瓏,鄧偉.綠色網(wǎng)絡(luò)智能文摘算法研究[J].計(jì)算機(jī)應(yīng)用, 2012,32(7):2030-2032.
[3] BAXENDALE P. Machine-made index for technical literature-an experiment[J]. IBM Journal of Research Development, 1958,2(4):354-361.
[4] LUHN H P. The automatic creation of literature abstracts[J].  IBM Journal of Research Development,1958,2(2):159-165.
[5] AONE C, OKUROWSKI M E, GORLINSKY J, et al. A  trainable summarize with knowledge acquired from robust NLP techniques[C].In Mani, I.and Maybury,M. T., editors, Advances in Automatic Text Summarization, 71-80. MIT Press. 1999.
[6] PANG B,LEE L,VAITHYANTHAN S. Thumbs up? Sentiment classification using machine learning techniques[C]. Processdings of the Conference on Empirical Methods in  Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2002:79-86.
[7] 何鳳英.基于語義理解的中文博文傾向性分析[J].計(jì)算機(jī)應(yīng)用,2011,31(8):2130-2137.
[8] KUPIEC J, PENDERSEN J, CHEN F. A trainable document summarizer[C]. Proceedings of SIGIR‘95, 68-73,New York, NY,USA,1995.
[9] 金立左,袁曉輝,趙一凡,等.二維模糊劃分最大熵圖像分割算法[J].電子與信息學(xué)院,2002,2(8):1040-1048.
[10] 張龍凱, 王厚峰. 文本摘要問題中的句子抽取方法研究[J].中文信息學(xué)報(bào),2012,26(2):97-101.
[11] 屈志毅,李一偉,張延堂,等.一種基于關(guān)鍵重復(fù)語義的最大熵文本分類[J].廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2007,25(4):204-207.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。