《電子技術應用》
您所在的位置:首頁 > 通信與網(wǎng)絡 > 設計應用 > 一種面向微博文本的命名實體識別方法
一種面向微博文本的命名實體識別方法
2018年電子技術應用第1期
李 剛,黃永峰
清華大學 電子工程系NGN實驗室,北京100084
摘要: 命名實體識別是自然語言處理領域的一項基礎性技術。近年來微博等網(wǎng)絡社交平臺發(fā)展迅速,其獨特的形式對傳統(tǒng)的命名實體識別技術提出了新的挑戰(zhàn)。故提出一種基于條件隨機場模型的改進方法,針對微博文本短小、語義含糊等特點,引入外部數(shù)據(jù)源提取主題特征和詞向量特征來訓練模型,針對微博數(shù)據(jù)規(guī)模大、人工標準化處理代價大的特點,采取一種基于最小置信度的主動學習算法,以較小的人工代價強化模型的訓練效果。在新浪微博數(shù)據(jù)集上的實驗證明,該方法與傳統(tǒng)的條件隨機場方法相比F值提高了4.54%。
中圖分類號: TP391
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.179024
中文引用格式: 李剛,黃永峰. 一種面向微博文本的命名實體識別方法[J].電子技術應用,2018,44(1):118-120,124.
英文引用格式: Li Gang,Huang Yongfeng. An approach to named entity recognition towards micro-blog[J]. Application of Electronic Technique,2018,44(1):118-120,124.

An approach to named entity recognition towards micro-blog
Li Gang,Huang Yongfeng
NGN Laboratory,Department of Electronics Engineering,Tsinghua University,Beijing 100084,China
Abstract: Named entity recognition is a fundamental technology in natural language processing(NLP). In recent years, rapid development of social network platforms such as microblog presents new challenges to the traditional named entity recognition(NER) technology because of the unique form. In this paper, an improved method based on the conditional random field(CRF) model is proposed for microblog texts. Due to the short texts and semantic ambiguity, external data resources are introduced to generate the topic feature and word representation feature for training the model. Due to the large-scale of microblog data and the high cost of manual standardization, an active learning algorithm based on least confidence is adopted to enhance the training effect at a lower cost of labor. Experiments on a Sina weibo data set show that this method improves the F-score by 4.54% compared to the traditional CRF methods.
Key words : named entity recognition;micro-blog;conditional random field;word representation;active learning

0 引言

    命名實體識別(Named Entity Recognition)是指識別文本中的各種實體,如人名、地名、機構名或其他特有標識[1],是自然語言處理(Natural Language Processing,NLP)中非常重要的一項基礎性技術。近年來,Twitter、新浪微博等新型社交平臺發(fā)展迅速,成為命名實體識別的新方向。RITTER A[2]等人設計了一個應用于Twitter上的T-NER系統(tǒng),重構了命名實體識別的流程。TURIAN J等人[3]利用半監(jiān)督的系統(tǒng)進行命名實體識別,大大減少了識別的成本。Liu Xiaohua等人[4]在一個半監(jiān)督的框架下把K近鄰分類器和CRF模型結合起來,識別Twitter中的命名實體,取得了較好的效果。

    上述工作都是基于Twitter的,沒有考慮中文的深層語義,且多使用有限自建數(shù)據(jù)集,沒有考慮人工標記的代價和不足,因此需要加以改進。本文研究面向中文微博的命名實體識別,將識別視為一個序列標注問題,通過改進的基于概率模型的算法優(yōu)化識別效果。針對微博文本短小、信息量少和文體不正規(guī)、語意含糊的特點,引入外部數(shù)據(jù)源提取深層語義特征;針對微博數(shù)據(jù)集人工處理代價大的問題,引入主動學習算法,以較小的人工代價獲得識別效果的提升。

1 面向微博的命名實體識別方法

    參照CoNLL2003的標準,給定一條微博,需要識別出其中的人名、地名、機構名和其他實體共4類命名實體[5]。

    研究的基礎模型采用了CRF[6]模型。

1.1 特征選取

    基礎特征采用當前詞和前后位置詞的詞型和詞性特征,這也是大多數(shù)CRF模型會采用的特征。由此生成的模型作為基礎模型,對應的實驗結果作為基線。

1.1.1 主題特征

    (Latent Dirichlet Allocation,LDA)模型[7]是一種無監(jiān)督的概率主題模型。每個主題下都分布著出現(xiàn)概率較高的詞語,這些詞都與這個主題有很強的相關性,利用這種相關性能在一定程度上解決一詞多義、同義詞等問題。模型的訓練使用了外部數(shù)據(jù)源,主題個數(shù)k可以事先指定。

    獲得LDA模型后,對于給定k個主題,通過p(w|t),將每個主題視為一個特征,將訓練集中的每個詞看作是由k個特征表示的K維向量,則每個詞都可以表示成一個k維向量,即:

    jsj3-gs1.gif

其中,vi表示第i個詞的向量,λk表示該詞在第k個主題上的權重,N是詞表的大小。

1.1.2 詞向量特征

    詞向量源于HINTON G E[8]提出的Distributed Representation。一個流行的詞向量訓練工具是word2vec,由MIKOLOV T[9]于2013年提出。word2vec能把詞映射到d維的向量空間,用向量空間的相似度表示文本語義上的相似度,有利于解決微博語義含糊的問題。

    詞向量一般有200~500維,如果直接將詞向量作為特征引入CRF模型,則計算量過大。這里需要利用的是其相似性,因此可以用聚類的方法進行簡化。實驗中選擇將詞語表示為200~500維的詞向量,再利用k-means進行聚類,將類別作為特征輸入模型。特別需要指出的是,相比采用單一的聚類結果,更好的辦法是多層聚類(multi-layer cluster)。

jsj3-gs2.gif

1.2 模型強化

    人工處理微博語料人工處理代價高昂,為了以最小的人工代價獲得最大的系統(tǒng)性能提升,研究采用了主動學習算法。主動學習算法包含兩部分,一個是分類器,另一個是抽樣策略[10]。分類器采用前文所述的改進型CRF模型。抽樣策略可采用如下方法。

    抽樣不確定度是一中常見的衡量樣本信息含量的方法,在序列標注模型中,可以根據(jù)最小置信度(Least Confidence)φLC(x)來確定抽樣不確定度。

    jsj3-gs3.gif

其中,x表示一個樣本,y*是對應概率最大的標記。對于一個訓練好的CRF模型,可以在對每條微博進行標記的同時輸出對應概率P?,F(xiàn)給出整個算法框架。

    算法1:基于置信度的主動學習算法

    輸入:有標記語料DL、未標記語料DU

    輸出:分類器C

        用DL訓練分類器C(CRF classifier)

        重復:

jsj3-2-s1.gif

2 實驗

    實驗用到了3個數(shù)據(jù)集,分別是訓練集、擴展集和測試集。其中3 000條標記語料作為訓練集,2 000條標記語料作為測試集。另外2 000條作為擴展集用于主動學習,不需標注。另有500萬條經(jīng)過除重去噪的微博作為外部源,分別用于LDA模型訓練和詞向量模型訓練,供抽取外部特征使用。

2.1 評價標準

    本文采用的評價標準包括準確率P(Precision)、召回率R(Recall)和F1值(F1-measure)3個指標。F1是準確率和召回率的調(diào)和平均值,是一個綜合性的指標。

2.2 實驗數(shù)據(jù)及分析

    (1)使用訓練集提取基礎特征,建立基礎模型,在測試集上進行評估。結果如表1所示。此結果將作為基線與后續(xù)實驗結果進行對比。

jsj3-b1.gif

    (2)引入外部特征進行了多組實驗。圖1左側是引入主題特征后的提升效果,雖然有效果但不明顯。圖1右側是將400維的詞向量進行聚類后作為特征引入模型的效果。F1值在聚類個數(shù)為400時達到了63.96%,較基線有明顯提升。究其原因,主要是詞向量的分量中隱含了豐富的上下文語法和語義信息,而LDA模型內(nèi)部采用了詞袋模型,僅考慮了詞的共現(xiàn)關系而沒有考慮上下文關系,這樣簡化了模型,但不可避免地帶來了信息的損失。

jsj3-t1.gif

    多層聚類的實驗效果如圖2所示,每個維度下前4個柱圖表示單層聚類(分別是聚成200、300、400、500個類簇)時的效果,最后一個表示同時使用前4個聚類結果作為多層聚類時的效果,顯然效果比單層聚類更好。

jsj3-t2.gif

    同時將所有的外部特征添加到基礎模型進行實驗,F(xiàn)1值提高到65.41%。

    (3)采用主動學習的方法進一步強化模型。提升效果如圖3所示。詳細的數(shù)據(jù)參見表2。曲線Model_ba表示僅用外部特征而不進行主動學習的模型效果。曲線Model_la表示把一次性把包括訓練集DL和擴展集DU在內(nèi)的所有語料都進行標記(label all)并用于模型訓練。Model_al1、Model_al2和model_al3是使用主動學習策略但閾值不同的模型。總體看,無論是取哪個閾值,相比不進行主動學習,主動學習都能提高F1值,且收斂速度很快。

jsj3-t3.gif

jsj3-b2.gif

    表2進一步說明了主動學習的優(yōu)點。Model_la需要標記微博2 080條,約9萬個詞,人工代價太大。相比之下,3個主動學習模型能明顯降低人工標記量。其中Model_al2比Model_al3的F1值要高0.25%,標記量僅提升了12.9%;而Model_al1與Model_al2相比,F(xiàn)1值僅提升了0.1%,但代價是標記量提升了17%,且多迭代了兩次。綜合考慮,取Model_al2作為最終的實驗結果。此時僅需標記457條微博,約37 000個標記,F(xiàn)1值達到67.23%,相較最初的模型提升4.54%。

3 結語

    本文提出了一種面向中文微博的命名實體識別方法,先引入外部特征訓練CRF模型,再采用主動學習算法強化訓練結果。實際工作中發(fā)現(xiàn),中文分詞效果不佳影響了后續(xù)的工作,主動學習仍然引入了二次標記,不利于大規(guī)模的識別任務。這些都需要在以后的工作中加以改進。

參考文獻

[1] NADEAU D,SEKINE S.A survey of named entity recognition and classification[J].Lingvisticae Investigationes,2007,30(1):3-26.

[2] RITTER A,CLARK S,ETZIONI O.Named entity recognition in tweets: an experimental study[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,2011:1524-1534.

[3] TURIAN J,RATINOV L,BENGIO Y.Word representations:a simple and general method for semi-supervised learning[C].Proceedings of the 48th annual meeting of the association for computational linguistics.Association for Computational Linguistics,2010:384-394.

[4] Liu Xiaohua,Zhang Shaodian,Wei Furu,et al.Recognizing named entities in tweets[C].Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies-Volume 1. Association for Computational Linguistics,2011:359-367.

[5] TJONG KIM SANG E F,DE MEULDER F.Introduction to the CoNLL-2003 shared task:Language-independent named entity recognition[C].Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Vol-ume 4.Association for Computational Linguistics,2003:142-147.

[6] LAFFERTY J D,MCCALLUM A,PEREIRA F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C].Eighteenth International Conference on Machine Learning.Morgan Kaufmann Publishers Inc.,2001:282-289.

[7] BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

[8] HINTON G E.Learning distributed representations of concepts[C].Proceedings of the Eighth Annual Conference of the Cognitive Science Society,1986,1:12.

[9] MIKOLOV T,SUTSKEVER I,CHEN K,et al.Distributed representations of words and phrases and their compositionality[C].Advances in Neural Information Processing Systems,2013:3111-3119.

[10] WU Y,KOZINTSEV I,BOUGUET J Y,et al.Sampling strategies for active learning in personal photo retrieval[C].Multimedia and Expo,2006 IEEE International Conference on.IEEE,2006:529-532.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權禁止轉載。