《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 設(shè)計(jì)應(yīng)用 > 一種基于成詞率和譜聚類(lèi)的電力文本領(lǐng)域詞發(fā)現(xiàn)方法
一種基于成詞率和譜聚類(lèi)的電力文本領(lǐng)域詞發(fā)現(xiàn)方法
2021年電子技術(shù)應(yīng)用第10期
楊 政1,尹春林1,蔡 迪2,李慧斌2
1.云南電網(wǎng)有限責(zé)任公司電力科學(xué)研究院,云南 昆明650217;2.西安交通大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,陜西 西安710049
摘要: 考慮到當(dāng)前電力行業(yè)仍缺少有效的領(lǐng)域詞發(fā)現(xiàn)方法,以電力行業(yè)科技項(xiàng)目文本為原始語(yǔ)料庫(kù),將基于互信息與左右熵的統(tǒng)計(jì)特征與傳統(tǒng)語(yǔ)言構(gòu)詞規(guī)則特征相融合,提出了電力文本成詞率的概念。所提方法首先利用成詞率對(duì)電力文本進(jìn)行無(wú)監(jiān)督篩選得到初始候選詞集,然后對(duì)候選詞集進(jìn)行文本切片算法和常用詞過(guò)濾操作,最后進(jìn)行詞嵌入和譜聚類(lèi)得到最終所需的電力文本領(lǐng)域詞。實(shí)驗(yàn)結(jié)果表明,所提出的方法準(zhǔn)確有效,為電力文本的領(lǐng)域詞發(fā)現(xiàn)提供了一種新方法。
中圖分類(lèi)號(hào): TP311
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.211437
中文引用格式: 楊政,尹春林,蔡迪,等. 一種基于成詞率和譜聚類(lèi)的電力文本領(lǐng)域詞發(fā)現(xiàn)方法[J].電子技術(shù)應(yīng)用,2021,47(10):29-32,37.
英文引用格式: Yang Zheng,Yin Chunlin,Cai Di,et al. A power text domain word discovery method based on word formation rate and spectral clustering[J]. Application of Electronic Technique,2021,47(10):29-32,37.
A power text domain word discovery method based on word formation rate and spectral clustering
Yang Zheng1,Yin Chunlin1,Cai Di2,Li Huibin2
1.Electric Power Research Institute of Yunnan Power Grid Co.,Ltd.,Kunming 650217,China; 2.School of Mathematics and Statistics,Xi′an Jiaotong University,Xi′an 710049,China
Abstract: Considering that the current power industry still lacks effective domain word discovery methods, this paper takes the power industry science and technology project text as the original corpus, combines the statistical features based on the mutual information, left entropy as well as right entropy with the features of traditional language word-formation rules, and proposes the new concept of power text word formation rate. The proposed method firstly uses the word formation rate to get the initial candidate word set by unsupervised filtering, and then performs the text slicing algorithm and common word filtering operation on the candidate word set, and finally performs the word embedding and spectral clustering algorithms to get the final power text-domain words. Experimental results show that the method proposed in this paper is accurate and effective, and provides a new method for power text domain word discovery.
Key words : word formation rate;spectral clustering;domain word discovery;power text

0 引言

    針對(duì)特定領(lǐng)域的文本數(shù)據(jù),領(lǐng)域詞的詞庫(kù)構(gòu)建是最為關(guān)鍵的任務(wù)之一。傳統(tǒng)領(lǐng)域詞發(fā)現(xiàn)方法依賴(lài)互信息或鄰接熵得到候選詞集,進(jìn)而利用word2vec進(jìn)行詞向量轉(zhuǎn)化、K-means進(jìn)行聚類(lèi)[1],最終得到行業(yè)領(lǐng)域詞。傳統(tǒng)方法對(duì)詞語(yǔ)組合規(guī)律運(yùn)用得不夠全面,因此這類(lèi)方法篩選的候選詞集存在諸多不合理的詞語(yǔ)。領(lǐng)域詞發(fā)現(xiàn)分為候選詞集篩選與字符串過(guò)濾兩個(gè)步驟。

    在候選詞集篩選方面,領(lǐng)域詞發(fā)現(xiàn)算法主要是基于詞語(yǔ)統(tǒng)計(jì)特性的無(wú)監(jiān)督方法或序列模式機(jī)器學(xué)習(xí)的有監(jiān)督算法?;跓o(wú)監(jiān)督的方法中,互信息和凝固度是最常見(jiàn)的用來(lái)篩選詞語(yǔ)的度量,劉偉童等[2]提出使用互信息初步篩選詞集,隨后用鄰接熵對(duì)詞集進(jìn)行再過(guò)濾的方法。劉昱彤等[3]使用改進(jìn)的類(lèi)Apriori算法,通過(guò)組合、統(tǒng)計(jì)頻率、過(guò)濾3個(gè)步驟來(lái)篩選候選詞集。杜麗萍等[4]提出利用改進(jìn)的互信息,同時(shí)結(jié)合一定的構(gòu)詞規(guī)則篩選候選詞集。無(wú)監(jiān)督算法泛化性?xún)?yōu)良,但缺少規(guī)則,會(huì)遺留有較多垃圾串與非領(lǐng)域詞?;诒O(jiān)督的機(jī)器學(xué)習(xí)詞集篩選方法有馬建紅等[5]提出的基于CNN和LSTM抽取詞特征,隨后使用半馬爾科夫條件隨機(jī)場(chǎng)(SCRF)來(lái)識(shí)別詞語(yǔ)邊界。Fu Guohong等[6]在隱馬爾可夫模型(HMM)的框架下運(yùn)用命名實(shí)體識(shí)別(NER)的思路,同時(shí)結(jié)合上下文篩選出候選詞集。陳飛等[7]提出運(yùn)用條件隨機(jī)場(chǎng)來(lái)判斷分詞的詞匯邊界是否為候選詞邊界的方法。監(jiān)督方法通常需要大量標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,耗費(fèi)高額的人工成本。此外,部分方法選擇基于純規(guī)則的構(gòu)詞法[8-9](即漢語(yǔ)成詞規(guī)則)與一些領(lǐng)域先驗(yàn)知識(shí)結(jié)合,進(jìn)行候選詞集的篩選。這種方式雖然準(zhǔn)確性相對(duì)較高,但是規(guī)則維護(hù)復(fù)雜,基本無(wú)跨域能力。




本文詳細(xì)內(nèi)容請(qǐng)下載:http://theprogrammingfactory.com/resource/share/2000003777。




作者信息:

楊  政1,尹春林1,蔡  迪2,李慧斌2

(1.云南電網(wǎng)有限責(zé)任公司電力科學(xué)研究院,云南 昆明650217;2.西安交通大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,陜西 西安710049)




wd.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。