文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.211437
中文引用格式: 楊政,尹春林,蔡迪,等. 一種基于成詞率和譜聚類(lèi)的電力文本領(lǐng)域詞發(fā)現(xiàn)方法[J].電子技術(shù)應(yīng)用,2021,47(10):29-32,37.
英文引用格式: Yang Zheng,Yin Chunlin,Cai Di,et al. A power text domain word discovery method based on word formation rate and spectral clustering[J]. Application of Electronic Technique,2021,47(10):29-32,37.
0 引言
針對(duì)特定領(lǐng)域的文本數(shù)據(jù),領(lǐng)域詞的詞庫(kù)構(gòu)建是最為關(guān)鍵的任務(wù)之一。傳統(tǒng)領(lǐng)域詞發(fā)現(xiàn)方法依賴(lài)互信息或鄰接熵得到候選詞集,進(jìn)而利用word2vec進(jìn)行詞向量轉(zhuǎn)化、K-means進(jìn)行聚類(lèi)[1],最終得到行業(yè)領(lǐng)域詞。傳統(tǒng)方法對(duì)詞語(yǔ)組合規(guī)律運(yùn)用得不夠全面,因此這類(lèi)方法篩選的候選詞集存在諸多不合理的詞語(yǔ)。領(lǐng)域詞發(fā)現(xiàn)分為候選詞集篩選與字符串過(guò)濾兩個(gè)步驟。
在候選詞集篩選方面,領(lǐng)域詞發(fā)現(xiàn)算法主要是基于詞語(yǔ)統(tǒng)計(jì)特性的無(wú)監(jiān)督方法或序列模式機(jī)器學(xué)習(xí)的有監(jiān)督算法?;跓o(wú)監(jiān)督的方法中,互信息和凝固度是最常見(jiàn)的用來(lái)篩選詞語(yǔ)的度量,劉偉童等[2]提出使用互信息初步篩選詞集,隨后用鄰接熵對(duì)詞集進(jìn)行再過(guò)濾的方法。劉昱彤等[3]使用改進(jìn)的類(lèi)Apriori算法,通過(guò)組合、統(tǒng)計(jì)頻率、過(guò)濾3個(gè)步驟來(lái)篩選候選詞集。杜麗萍等[4]提出利用改進(jìn)的互信息,同時(shí)結(jié)合一定的構(gòu)詞規(guī)則篩選候選詞集。無(wú)監(jiān)督算法泛化性?xún)?yōu)良,但缺少規(guī)則,會(huì)遺留有較多垃圾串與非領(lǐng)域詞?;诒O(jiān)督的機(jī)器學(xué)習(xí)詞集篩選方法有馬建紅等[5]提出的基于CNN和LSTM抽取詞特征,隨后使用半馬爾科夫條件隨機(jī)場(chǎng)(SCRF)來(lái)識(shí)別詞語(yǔ)邊界。Fu Guohong等[6]在隱馬爾可夫模型(HMM)的框架下運(yùn)用命名實(shí)體識(shí)別(NER)的思路,同時(shí)結(jié)合上下文篩選出候選詞集。陳飛等[7]提出運(yùn)用條件隨機(jī)場(chǎng)來(lái)判斷分詞的詞匯邊界是否為候選詞邊界的方法。監(jiān)督方法通常需要大量標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,耗費(fèi)高額的人工成本。此外,部分方法選擇基于純規(guī)則的構(gòu)詞法[8-9](即漢語(yǔ)成詞規(guī)則)與一些領(lǐng)域先驗(yàn)知識(shí)結(jié)合,進(jìn)行候選詞集的篩選。這種方式雖然準(zhǔn)確性相對(duì)較高,但是規(guī)則維護(hù)復(fù)雜,基本無(wú)跨域能力。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://theprogrammingfactory.com/resource/share/2000003777。
作者信息:
楊 政1,尹春林1,蔡 迪2,李慧斌2
(1.云南電網(wǎng)有限責(zé)任公司電力科學(xué)研究院,云南 昆明650217;2.西安交通大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,陜西 西安710049)