文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.2017.06.030
中文引用格式: 王帥,黃永峰,胡萍. 面向網(wǎng)絡(luò)股評觀點的垂直搜索引擎設(shè)計與實現(xiàn)[J].電子技術(shù)應(yīng)用,2017,43(6):118-121.
英文引用格式: Wang Shuai,Huang Yongfeng,Hu Ping. Design and implementation of a vertical search engine for web stock review[J].Application of Electronic Technique,2017,43(6):118-121.
0 引言
我國自上世紀(jì)九十年代建立了上海證券交易所以來,經(jīng)過了20多年的發(fā)展,中國股票A股市場的總市值已經(jīng)超過了日本,位列全球第二[1]。隨著股票市場對國家宏觀經(jīng)濟(jì)以及投資者的影響越來越大,研究者們也在探索各種股市行情的分析方法,希望能夠?qū)善笔袌龅淖邉葸M(jìn)行預(yù)測。網(wǎng)民對股市或某只股票的網(wǎng)絡(luò)評論觀點在很大程度上反應(yīng)了股市行情,也影響著股市漲跌。因此,如何快速高效地挖掘到網(wǎng)民對股市態(tài)度和觀點,對股市預(yù)測具有很大指導(dǎo)意義。
近年來隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,越來越多學(xué)術(shù)界和金融從業(yè)者在研究各種股票預(yù)測方法。例如,文獻(xiàn)[2]提出了智能神經(jīng)網(wǎng)絡(luò)(ANNs)對基于網(wǎng)絡(luò)數(shù)據(jù)的股票進(jìn)行分析預(yù)測方法;HUANG B等提出了通過分析谷歌搜索趨勢,查找金融相關(guān)搜索術(shù)語能夠提前預(yù)測股票市場變化[3]。許多研究都已成功證明,股民的股票操作行為決策很大程度上受到網(wǎng)絡(luò)股民觀點和感情因素的影響。因此,目前有許多研究成果是通過對用網(wǎng)絡(luò)股票的情感極性分析,來實現(xiàn)對近期的相關(guān)股票指數(shù)、價格波動進(jìn)行預(yù)測[4]。另外,文獻(xiàn)[5]的研究表明,股票價格的走勢與股民的情緒波動有著越來越密切的關(guān)系,學(xué)術(shù)界開始研究具體的情感傾向性分析方法來預(yù)測股市行情。2014年,Wang Gang等人基于SeekingAlpha以及StackTwits等平臺,采取建立情感字典和機(jī)器學(xué)習(xí)分類的方式,得到了網(wǎng)絡(luò)文本中的評論情緒,通過進(jìn)一步情感分析,給出了具體的投資策略,最終獲得了較為滿意的收入結(jié)果[6]。另外,面向股市的垂直搜索引擎也在得到深入的研究和廣泛的應(yīng)用[7]。
綜上所述,現(xiàn)有股市趨勢分析研究成果都存在著一定的局限性。例如分析過程中沒有融合網(wǎng)民自己的主觀意見和知識。另外,現(xiàn)有的面向股評的垂直搜索引擎雖然能檢索到股評內(nèi)容信息,但不能直接給予網(wǎng)民觀點信息,缺乏對股民應(yīng)有的支撐[8]。因此,融合觀點挖掘的股評全文搜索引擎技術(shù)是一項亟待研究的新方向。
本文通過重點研究垂直引擎的系統(tǒng)架構(gòu)、主題爬蟲和情感極性分析等相關(guān)技術(shù)來構(gòu)建一套面向網(wǎng)絡(luò)股評觀點的垂直搜索引擎,重點解決搜索引擎的響應(yīng)速度、主題數(shù)據(jù)的采集效率和情感極性的分析精準(zhǔn)度等關(guān)鍵技術(shù)問題。本設(shè)計的垂直搜索引擎可以根據(jù)用戶鍵入的股評查詢關(guān)鍵詞來檢索相關(guān)網(wǎng)絡(luò)股評內(nèi)容,同時還能給出這些股評的觀點,即股評的情感正負(fù)極性。
1 面向網(wǎng)絡(luò)股評觀點的垂直搜索引擎
1.1 垂直搜索引擎的體系結(jié)構(gòu)設(shè)計
面向網(wǎng)絡(luò)股評觀點的垂直搜索引擎設(shè)計目標(biāo)是實現(xiàn)網(wǎng)絡(luò)股市新聞、股市論壇等網(wǎng)絡(luò)股評文本信息的全文搜索,同時還能通過分析檢索到文本的情感極性來進(jìn)一步挖掘網(wǎng)民對股市或某只股票的觀點與態(tài)度。因此,面向網(wǎng)絡(luò)股評觀點的垂直搜索引擎的主要功能應(yīng)該包括如下幾個方面:(1)對特定的金融論壇網(wǎng)站數(shù)據(jù)采集、清洗解析、結(jié)構(gòu)化的信息抽??;(2)情感正負(fù)觀點極性分類與觀點呈現(xiàn);(3)對分類后數(shù)據(jù)生成倒排序文件及保存管理;(4)支撐用戶對股評的全文檢索以及相關(guān)屬性統(tǒng)計查詢等。
因此,根據(jù)上述目標(biāo)和功能的設(shè)計,本文提出了一種基于Hadoop平臺的面向網(wǎng)絡(luò)股評觀點的垂直搜索引擎體系結(jié)構(gòu),如圖1所示。
從圖1可以看出,本文設(shè)計的垂直搜引擎與現(xiàn)有的全文搜索引擎(例如Google和百度等)相比較,具有如下特點:
(1)針對指定金融網(wǎng)站進(jìn)行精準(zhǔn)的主題數(shù)據(jù)采集與解析,并抽取一些結(jié)構(gòu)化信息,為某些屬性的統(tǒng)計分析提供支撐。
(2)能對采集網(wǎng)絡(luò)文本(例如股票評論、微博等)進(jìn)行正負(fù)情感極性的計算與分析,從而實現(xiàn)網(wǎng)民的觀點挖掘,同時支撐正負(fù)觀點等屬性的統(tǒng)計分析。
(3)融合情感極性分類和關(guān)鍵詞索引等功能,綜合生成檢索倒排序文件。存儲在Hadoop大數(shù)據(jù)平臺的HDFS和HBase中。
(4)搜索引擎能提供基于關(guān)鍵詞、情感極性和屬性統(tǒng)計等多種檢索條件及其組合表達(dá)式的查詢。
另外,本文構(gòu)建的垂直搜索引擎是基于開源Apache 的Lucene代碼改進(jìn)來實現(xiàn)。在Lucene開源的基礎(chǔ)上,增加的核心模塊有情感極性分類、面向特定網(wǎng)站的主題數(shù)據(jù)采集和屬性統(tǒng)計等,并對倒排序生成和文件檢索、查詢及呈現(xiàn)等模塊進(jìn)行功能擴(kuò)展和性能優(yōu)化。下面重點分析面向股評主題的定點收割爬蟲和多粒度模糊計算情感極性分析模塊的設(shè)計方法。
1.2 面向股評的主題數(shù)據(jù)定點收割爬蟲的設(shè)計
目前,對網(wǎng)絡(luò)開源的數(shù)據(jù)采集都是采用通用爬蟲技術(shù),但在一些特定領(lǐng)域,只需要采集專門主題數(shù)據(jù),此時通用爬蟲技術(shù)就不再適應(yīng)了。因為在Web數(shù)據(jù)呈爆炸性增長情況下,通用爬蟲通常會采集到大量的不相關(guān)信息,從而極大地浪費硬件和網(wǎng)絡(luò)資源。
為此,在現(xiàn)有主題爬蟲技術(shù)的基礎(chǔ)上,提出了一種面向指定網(wǎng)站的定點收割爬蟲技術(shù)。該技術(shù)采用了目錄搜索技術(shù)和主題爬蟲技術(shù)相結(jié)合思想。通過用戶來定制一些指定網(wǎng)站或網(wǎng)站中某些頻道的目錄信息,再根據(jù)網(wǎng)站信息更新的頻率,設(shè)定定時器、周期性爬蟲這些網(wǎng)站或頻道中的數(shù)據(jù),并進(jìn)行解析和主題分析,為下一層爬取奠定基礎(chǔ)。本文設(shè)計的面向股評網(wǎng)站的定時收割爬蟲器的組成結(jié)構(gòu)如圖2所示。在該結(jié)構(gòu)中,用戶可以對需要的文本主題進(jìn)行定義,主題描述主要是采用關(guān)鍵詞和LDA模型。用戶還可以對需要爬取的網(wǎng)站或網(wǎng)站頻道進(jìn)行目錄定制。定時收割器能是根據(jù)這些網(wǎng)站的信息更新頻率來設(shè)置爬取的時間。超文本分類器是根據(jù)目錄列表和主題描述來進(jìn)行文本分類和內(nèi)容過濾,獲得用戶需要的文本數(shù)據(jù)。
定點收割爬蟲器的工作過程的算法設(shè)計如圖3所示。其中,最核心的問題是如何選擇爬蟲收割網(wǎng)頁的URL列表。在分析URL時,需要結(jié)合主題相似性比較方法來確定哪些網(wǎng)頁是與主題相關(guān)的,并進(jìn)行相似性程度的排序,以此來支撐URL優(yōu)先級列表構(gòu)建。
1.3 面向股評觀點挖掘的情感極性分類器
網(wǎng)絡(luò)評論的觀點挖掘主要是采用網(wǎng)絡(luò)文本情感極性的分類方法來實現(xiàn),目前網(wǎng)絡(luò)評論情感極性分類方法主要存在如下問題:(1)在計算評論的情感極性時,都只引入了情感詞或短語的情感極性信息,忽略了句子結(jié)構(gòu)和句間關(guān)系信息。事實上,句子結(jié)構(gòu)和句間關(guān)系信息對情感極性分類具有較大影響;(2)當(dāng)前的情感極性分類建模主要是采用確定性數(shù)值模型,忽略了情感詞語義的模糊性。
針對上述存在的2個方面問題,本文提出了一種多粒度及模糊計算的無監(jiān)督股評極性分類方法。該方法是針對情感詞語義對文本上下文的依賴問題而分析不同層次上情感特征信息,然后結(jié)合模糊集合理論,來構(gòu)建一種文本情感極性的分析計算模型,以此來提高股評情感極性的分類精度。其核心思想是:在股評情感極性預(yù)分類階段,同時考慮情感詞、情感短語、句子類型和句間關(guān)系對情感詞情感極性的影響,這就是所謂“多粒度”。同時,還將現(xiàn)有情感極性確定性數(shù)值計算改進(jìn)為模糊集合計算。因此,多粒度及模糊計算的情感極性分析模型是通過綜合考慮詞、短語和句子等不同粒度的情感信息,綜合分析股評的情感極性及其強(qiáng)度。在得到股評情感極性和強(qiáng)度后,采用模糊集合理論對股評的情感極性進(jìn)行預(yù)分類,再結(jié)合自學(xué)習(xí)機(jī)制,構(gòu)建一套股評情感極性無監(jiān)督的在線分類器。
面向股評的多粒度及模糊計算情感極性分類器的整體架構(gòu)如圖4所示??蚣苤饕?部分組成:(1)無監(jiān)督情感極性分類器的情感知識庫,包括:情感詞典(QWSL)和情感語素字典(KSMD)等;(2)股評情感強(qiáng)度的多粒度計算組件。組件采將股評劃分3種不同粒度的語言單位:句子、短語和詞,并分別計算3種粒度的情感強(qiáng)度,然后綜合分析整個股評的情感強(qiáng)度。(3)模糊分類器。根據(jù)最大隸屬度原則來構(gòu)造模糊分類函數(shù),并采用自學(xué)習(xí)機(jī)制的設(shè)計分類器的相關(guān)參數(shù)。
上述組成部分中,最重要的是模糊分類器。其基本思路闡述如下:以股評集合R={ri}中評論ri的情感強(qiáng)度si(ri)為基礎(chǔ),通過定義股評集合R={ri}的正向情感類別為模糊集P。
根據(jù)模糊成員函數(shù)定義和最大隸屬度原則,可將式(2)和式(4)正負(fù)成員函數(shù)組合為一個模糊集分類函數(shù),如式(5)所示:
其中,μp(ri)表示模糊集P的正向成員函數(shù);參數(shù)α和β為調(diào)節(jié)參數(shù),可以統(tǒng)一為參數(shù)k來表示,k=(α+β)/2。
2 實驗測試與結(jié)果分析
實驗?zāi)繕?biāo)是驗證所提出的垂直搜索引擎中多粒度模糊情感極性分類方法的效果。
本文采取了3類實驗測試數(shù)據(jù)集,具體包括:網(wǎng)站股評、論壇股評和微博股評。每個數(shù)據(jù)集都包含正面評價和負(fù)面評論。3個數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)見表1。
對于多粒度模糊情感極性分類方法,準(zhǔn)確度(P)、召回率(R)、F1和精度(AC)是四類主要的性能指標(biāo),即檢驗該分類方法的查全率和查準(zhǔn)率。本文在選擇基于情感詞典的網(wǎng)絡(luò)評論極性分類(MBSL)和基于情感詞典和模糊集的網(wǎng)絡(luò)評論極性分類(MBSLFS)兩種典型方法的基礎(chǔ)上,提出了基于多粒度模糊計算模型的網(wǎng)絡(luò)評論極性分類方法(MBMGC)。根據(jù)模糊分類器參數(shù)設(shè)置策略不同,分別采用人工標(biāo)注數(shù)據(jù)集的方法(MBMGC1)和初始偽標(biāo)注數(shù)據(jù)集的方法(MBMGC1)。
表2實驗結(jié)果表明:在3個數(shù)據(jù)集上,MBMGC的4個性能指標(biāo)值均高于MBSL和MBSLFS,MBSLFS比MBSL提升了約8.62%分類精度,表明基于模糊集合的計算方法比基于情感詞典的確定數(shù)值計算方法更有效。而MBMGC1和MBMGC2比MBSLFS分別平均提升了約4.486%和3.677%分類精度,進(jìn)一步表明基于多粒度的模糊集合方法比基于單一情感詞典的模糊集方法對情感極性分類更有效。
3 結(jié)語
本文根據(jù)股市信息搜索的需求,在主流全文搜索的基礎(chǔ)上,設(shè)計與實現(xiàn)了一種面向股評觀點的垂直搜索引擎。該引擎在對股市網(wǎng)絡(luò)評論進(jìn)行全文檢索的同時,還能完成情感極性分類檢索。本文的貢獻(xiàn)點表現(xiàn)3個方面:(1)提出了一種面向股評觀點的垂直搜索引擎框架,能支持股評信息的高效全文檢索和觀點分析;(2)設(shè)計了一種面向網(wǎng)絡(luò)股評信息采集的定點收割爬蟲,能保證股評主題數(shù)據(jù)采集的精準(zhǔn)性和召回率;(3)建立了一種多粒度及模糊計算的股評情感極性無監(jiān)督的分類方法,解決了股評極性的在線分類問題。實驗結(jié)果證明,本文實現(xiàn)的面向股評觀點垂直搜索引擎能滿足實際應(yīng)用要求。下一步研究重點為改進(jìn)查詢接口方式和在更大數(shù)據(jù)量下的性能優(yōu)化,進(jìn)一步提高查詢響應(yīng)速度。
參考文獻(xiàn)
[1] BROWN E D.Will twitter make you a better investor?A look at sentiment, user reputation and their effect on the stock market[C].In Proc.of 2012 SAIS,2012.
[2] JOHAN B,Mao Huina,Zeng Xiaojun.Twitter mood predicts the stock market[J].Journal of Computational Science,2011,2(1):1-8.
[3] HUANG B,HEILMAN T D.A web-based kernel function for measuring the similarity of short text snippets[C].Proceedings of the 16th International Conference on World Wide Web.AcM,2007:377-386.
[4] WANG B,HUANG Y,WU X,et al.A fuzzy computing model for identifying polarity of Chinese sentiment words[C].Computational Intelligence & Neuroscience,2015:1-13.
[5] MOAT H S,CURME C,AVAKIAN A,et al.Quantifying Wikipedia usage patterns before stock market moves[J].Social Science Electronic Publishing,2013,3(5):926-930.
[6] Wang Gang,Wang Tianyi,Wang Bolun,et al.Crowds on wall street:Extracting value from clooaborative investing platforms[C].In Progress in CSCW,2015.
[7] CHOUDHURY M M,SUNDARAM H,JOHN A.Can blog communication dynamics be correlated with stock market activity?[C].In Proc.of HyperText,2008:55-60.
[8] WANG B,MIN Y,HUANG Y,et al.Review rating prediction based on the content and weighting strong social relation of reviewers[C].Proceedings of the 2013 International Workshop on Mining Unstructured Big Data Using Natural Language Processing.ACM,2013:23-30.
作者信息:
王 帥,黃永峰,胡 萍
(清華大學(xué) 電子工程系 下一代網(wǎng)絡(luò)及應(yīng)用技術(shù)研究室,北京100084)