一種基于成詞率和譜聚類的電力文本領(lǐng)域詞發(fā)現(xiàn)方法
所屬分類:技術(shù)論文
上傳者:aetmagazine
文檔大小:544 K
標(biāo)簽: 成詞率 譜聚類 領(lǐng)域詞發(fā)現(xiàn)
所需積分:0分積分不夠怎么辦?
文檔介紹:考慮到當(dāng)前電力行業(yè)仍缺少有效的領(lǐng)域詞發(fā)現(xiàn)方法,以電力行業(yè)科技項(xiàng)目文本為原始語料庫,將基于互信息與左右熵的統(tǒng)計(jì)特征與傳統(tǒng)語言構(gòu)詞規(guī)則特征相融合,提出了電力文本成詞率的概念。所提方法首先利用成詞率對電力文本進(jìn)行無監(jiān)督篩選得到初始候選詞集,然后對候選詞集進(jìn)行文本切片算法和常用詞過濾操作,最后進(jìn)行詞嵌入和譜聚類得到最終所需的電力文本領(lǐng)域詞。實(shí)驗(yàn)結(jié)果表明,所提出的方法準(zhǔn)確有效,為電力文本的領(lǐng)域詞發(fā)現(xiàn)提供了一種新方法。
現(xiàn)在下載
VIP會員,AET專家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。