李艷紅1,沈瑞琪1,歐敬民2
(1.上海財(cái)經(jīng)大學(xué) 信息管理與工程學(xué)院,上海 200433;2.上海交通大學(xué)醫(yī)學(xué)院附屬新華醫(yī)院 普外科,上海 200092)
摘要:大數(shù)據(jù)時(shí)代的來(lái)臨日益凸顯數(shù)據(jù)挖掘技術(shù)的價(jià)值。文本挖掘作為數(shù)據(jù)挖掘的研究分支,對(duì)非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)發(fā)現(xiàn)有重要意義。高血壓患病人群廣,發(fā)病率高,治療藥物種類繁雜,尋找其中的用藥規(guī)律,是臨床醫(yī)學(xué)的一個(gè)重要方向?;谖谋就诰蚣夹g(shù),從在線醫(yī)療網(wǎng)站獲取醫(yī)患互動(dòng)論壇數(shù)據(jù),進(jìn)行文本預(yù)處理,基于TFIDF算法發(fā)現(xiàn)高血壓常用中西藥、非藥物治療、并發(fā)癥用藥特點(diǎn)等,結(jié)合關(guān)聯(lián)規(guī)則算法挖掘“癥藥”關(guān)系,有益于高血壓的臨床判斷及用藥研究。另外,驗(yàn)證了在線醫(yī)療網(wǎng)站醫(yī)患互動(dòng)數(shù)據(jù)用于疾病研究的可用性和效果。
關(guān)鍵詞:高血壓;文本挖掘;用藥規(guī)律;TF-IDF;關(guān)聯(lián)規(guī)則
中圖分類號(hào):TP399文獻(xiàn)標(biāo)識(shí)碼:ADOI: 10.19358/j.issn.1674-7720.2017.03.030
引用格式:李艷紅,沈瑞琪,歐敬民.基于文本挖掘技術(shù)的高血壓用藥規(guī)律研究[J].微型機(jī)與應(yīng)用,2017,36(3):103-106.
0引言
文本挖掘能抽取分散在文本數(shù)據(jù)中未被發(fā)現(xiàn)的、有價(jià)值的、能被用戶理解的知識(shí),從而更好地組織信息,是數(shù)據(jù)挖掘的一個(gè)研究分支。大數(shù)據(jù)時(shí)代的數(shù)據(jù)量龐大,類型繁多,價(jià)值密度低。利用傳統(tǒng)的信息檢索技術(shù)處理如此大量瑣碎的文本數(shù)據(jù)顯然力不從心,文本挖掘漸漸受到重視。大量醫(yī)學(xué)信息以非結(jié)構(gòu)化文本的形式充斥互聯(lián)網(wǎng),如醫(yī)療新聞、生物醫(yī)學(xué)文獻(xiàn)、在線醫(yī)療網(wǎng)站上的醫(yī)患互動(dòng)論壇等,應(yīng)用文本挖掘知識(shí)以及技術(shù)從中發(fā)現(xiàn)隱含潛在的規(guī)律,已成為醫(yī)學(xué)研究的一個(gè)重要方向。
高血壓是目前最常見(jiàn)的疾病,據(jù)統(tǒng)計(jì),全國(guó)高血壓患者接近2.7億,15歲及以上高血壓發(fā)病率達(dá)四分之一,并有逐漸增多的趨勢(shì)。治療使用的中西藥種類繁多,而且不斷有研發(fā)出的新藥用于臨床。尋找高血壓的用藥規(guī)律,是臨床醫(yī)學(xué)的一個(gè)重要任務(wù)。
本文基于文本挖掘技術(shù),抓取國(guó)內(nèi)知名在線醫(yī)療網(wǎng)站上關(guān)于高血壓的醫(yī)患問(wèn)答文本,獲取高血壓的相關(guān)知識(shí),所得結(jié)論供醫(yī)生和病人參考,有益于高血壓臨床判斷及用藥研究。
1文獻(xiàn)綜述
文本挖掘在生物信息和生物制藥領(lǐng)域的應(yīng)用取得成功,為其在中醫(yī)藥領(lǐng)域的應(yīng)用建立了案例。參考文獻(xiàn)[1]指出文本挖掘技術(shù)對(duì)中醫(yī)藥文獻(xiàn)分析是一種很有前景的方法。目前,文本挖掘技術(shù)也確實(shí)在我國(guó)的中醫(yī)藥領(lǐng)域被廣泛運(yùn)用,越來(lái)越多的學(xué)者基于中醫(yī)藥文獻(xiàn)使用文本挖掘技術(shù)研究某疾病用藥規(guī)律,僅針對(duì)高血壓疾病,文獻(xiàn)[23]基于中國(guó)生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)中檢索的高血壓診療相關(guān)文獻(xiàn),進(jìn)行必要的數(shù)據(jù)清洗后,參考文獻(xiàn)[2]對(duì)每一篇文獻(xiàn)共同出現(xiàn)的關(guān)鍵詞對(duì)構(gòu)建關(guān)鍵詞對(duì)程序算法,合并相同的關(guān)鍵詞對(duì),根據(jù)出現(xiàn)的頻數(shù)找出常用的中西藥;參考文獻(xiàn)[3]采用基于敏感關(guān)鍵詞頻數(shù)統(tǒng)計(jì)的數(shù)據(jù)分層算法,挖掘高血壓中醫(yī)癥狀、證候以及用藥規(guī)律。目前國(guó)內(nèi)尚未見(jiàn)到網(wǎng)絡(luò)數(shù)據(jù)用于醫(yī)學(xué)研究,在國(guó)外,有相應(yīng)的工作發(fā)布,如參考文獻(xiàn)[4]認(rèn)為網(wǎng)絡(luò)和社會(huì)媒體數(shù)據(jù)是重要的疾病監(jiān)測(cè)資源,基于其上的文本挖掘研究不僅能預(yù)測(cè)流感趨勢(shì),還能通過(guò)社交網(wǎng)絡(luò)的異常進(jìn)行生物事件的探測(cè);參考文獻(xiàn)[5]試圖建立一個(gè)機(jī)器學(xué)習(xí)方法,從社交媒體中高度非正式的描述性文本中提取藥物不良反應(yīng)信息;參考文獻(xiàn)[6]發(fā)現(xiàn)網(wǎng)絡(luò)和社會(huì)化媒體的謾罵相關(guān)信息可用于監(jiān)控濫用處方藥;參考文獻(xiàn)[7]調(diào)查了是否在線醫(yī)療社區(qū)的社交支持交換有利于患者的心理健康,如憂郁癥;參考文獻(xiàn)[8]針對(duì)twitter用戶使用樸素和日常的語(yǔ)言來(lái)描述他們的疾病,經(jīng)常報(bào)告綜合癥狀,而不是一個(gè)疑似或確診等特點(diǎn),發(fā)現(xiàn)twitter有潛力成為一個(gè)內(nèi)容豐富和低成本的數(shù)據(jù)源,可用于癥狀監(jiān)測(cè)。
用藥規(guī)律研究方面,包括參考文獻(xiàn)[1]在內(nèi)的已有文獻(xiàn)都只挖掘出常用中藥及西藥的用藥規(guī)律,鮮有研究“癥藥”關(guān)聯(lián)。另外,數(shù)據(jù)源都是直接從生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)檢索的文獻(xiàn)。雖然文獻(xiàn)的數(shù)據(jù)更具權(quán)威性,但已被人為處理過(guò)。根據(jù)國(guó)外的研究成果,已知網(wǎng)絡(luò)數(shù)據(jù)在醫(yī)學(xué)某方面應(yīng)用的有效性,直接從網(wǎng)上抓取的數(shù)據(jù)更具客觀性、先進(jìn)性以及臨床價(jià)值。所以,本文在研究方法和數(shù)據(jù)源選擇方面進(jìn)行新的嘗試。
2研究設(shè)計(jì)
本文的研究工作路徑設(shè)計(jì)如下:數(shù)據(jù)爬取→文本預(yù)處理(分詞和過(guò)濾)→抽取關(guān)鍵詞→文本向量化→知識(shí)獲取。
數(shù)據(jù)獲取是研究的第一步,使用Python設(shè)計(jì)兩層網(wǎng)絡(luò)爬蟲(chóng),使用Scrapy架構(gòu),采用Spider作為爬蟲(chóng)設(shè)計(jì)的基類來(lái)獲取網(wǎng)絡(luò)數(shù)據(jù)源。中文文本預(yù)處理最基礎(chǔ)的一個(gè)工作就是分詞。非結(jié)構(gòu)化的文本數(shù)據(jù)會(huì)摻雜大量對(duì)結(jié)果沒(méi)有影響的無(wú)意義的單詞,處理文本時(shí)需要過(guò)濾掉。在哈工大擴(kuò)展停用詞表的基礎(chǔ)上手工添加了若干如“疾病”、“醫(yī)生”這些對(duì)研究沒(méi)有幫助的高頻詞,導(dǎo)入到結(jié)巴分詞中,完成文本預(yù)處理。由于文本包含的信息和詞條繁雜,直接進(jìn)行文本向量化維數(shù)過(guò)大,因此需要先進(jìn)行特征提取降維。使用詞頻反詞頻(Term FrequencyInverse Document Frequency, TFIDF)方法更客觀地權(quán)衡某詞語(yǔ)的重要程度,實(shí)現(xiàn)關(guān)鍵詞的自動(dòng)抽取。文本向量化是把文本數(shù)據(jù)從非結(jié)構(gòu)化轉(zhuǎn)到結(jié)構(gòu)化的重要一步,使用Python機(jī)器學(xué)習(xí)包scikitlearn完成文本向量化的過(guò)程。最后,基于詞頻統(tǒng)計(jì)信息和關(guān)聯(lián)規(guī)則的經(jīng)典算法Apriori完成高血壓用藥相關(guān)知識(shí)獲取。
3實(shí)證分析過(guò)程
3.1獲取數(shù)據(jù)
爬取到2013~2016年尋醫(yī)問(wèn)藥在線醫(yī)療網(wǎng)站上高血壓相關(guān)醫(yī)患互動(dòng)文本數(shù)據(jù)57 000條。
3.2文本預(yù)處理
導(dǎo)入自定義詞典,自定義詞典為高血壓相關(guān)的醫(yī)學(xué)專有名詞以及藥名。導(dǎo)入哈工大停用詞典。進(jìn)行分詞。
3.3獲取關(guān)鍵字
首先使用基于詞頻統(tǒng)計(jì)的方法抓取關(guān)鍵詞,得出病人提問(wèn)部分主要集中在患者對(duì)血壓(“高壓”、“低壓”)、病史(如“心臟病”、“糖尿病”、“冠心病”等),以及癥狀(“頭暈”、“頭疼”)的描述。醫(yī)生回答部分主要為藥名。設(shè)置參數(shù)輸出指定詞性的關(guān)鍵詞,抓取名詞關(guān)鍵詞作為特征提取能更高效地挖掘用藥規(guī)律。選用同時(shí)兼顧詞頻和詞重要性的TFIDF方法自動(dòng)抽取關(guān)鍵詞。
3.4文本向量化
將TFIDF結(jié)果轉(zhuǎn)換成對(duì)應(yīng)稀疏矩陣。每行對(duì)應(yīng)一個(gè)文件,共有57 000行,列由關(guān)鍵詞表組成。然后進(jìn)行高血壓用藥相關(guān)知識(shí)獲取。
4高血壓用藥知識(shí)獲取
4.1基于詞頻獲取高血壓常用中西藥及非藥物治療
由于中藥種類繁多,量效關(guān)系復(fù)雜,用藥配比規(guī)定嚴(yán)格,在線醫(yī)療網(wǎng)站上醫(yī)生答復(fù)以西藥為主,故所得中藥成分相關(guān)數(shù)據(jù)頻數(shù)普遍較小。選取部分頻數(shù)相對(duì)比較高的,可見(jiàn)治療高血壓常用中藥以丹參、山楂、牛黃、決明子、菊花、天麻、葛根為主,多有祛風(fēng)解毒、清肝補(bǔ)腎之藥效,如圖1所示。文獻(xiàn)[2][3]得出治療高血壓病最常用的中藥是天麻、鉤藤、丹參、地黃,最常用的中成藥是丹參注射液和珍菊降壓片。本研究未細(xì)致區(qū)分中藥和中成藥,導(dǎo)致丹參兼具中藥成分和注射液的雙重身份,故頻數(shù)最多,所以本文結(jié)論與文獻(xiàn)[2][3]類似。
治療高血壓的常用西藥頻數(shù)統(tǒng)計(jì)如圖2??梢?jiàn)鈣通道拮抗劑類藥物使用較多,繼續(xù)對(duì)其進(jìn)行分析。根據(jù)圖3可知,硝苯地平頻數(shù)最多,是鈣通道拮抗劑中使用最廣的藥物。
表1為ACEI類各藥物的目前使用頻數(shù)表,顯示ACEI類藥物中卡托普利及依那普利應(yīng)用最廣泛,占ACEI藥物的60%和35%。
ARB類各藥物的使用頻數(shù)如表2,可見(jiàn)替米沙坦、纈沙坦使用較多,分別占比34%和30%。
利尿劑使用氫氯噻嗪、吲達(dá)帕胺兩種最多,氨苯蝶啶和螺內(nèi)酯也起利尿作用,但頻數(shù)較低,如圖4。
如圖5所示為文獻(xiàn)[2]對(duì)高血壓病常用西藥使用情況的研究結(jié)果。本文研究對(duì)目前高血壓西藥的用藥情況結(jié)論與文獻(xiàn)[2]類似,排名前三的藥物是一樣的。本文在高血壓西藥大的分類框架下做了更細(xì)致的分析,提供了更詳細(xì)的信息。硝苯地平是臨床常用的降壓藥,也是一種不可多得的急救藥,特別是舌下含化,療效迅速。根據(jù)資料和專家求證發(fā)現(xiàn)硝苯地平能否作為長(zhǎng)期降壓藥,理論和實(shí)踐中存在分歧。從本文研究數(shù)據(jù)中看,它的使用位居榜首,從圖5可見(jiàn)它的使用基本持平卡托普利。圖5結(jié)論基于中國(guó)生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)數(shù)據(jù),更反映臨床研究。本文研究基于互聯(lián)網(wǎng)醫(yī)患互動(dòng)論壇數(shù)據(jù),涉及面更廣,反映廣大患者的實(shí)際使用。二者近似相同,證實(shí)了本文研究一定程度的可信性。同時(shí)也提出了疑問(wèn),目前硝苯地平如此多的使用,是否存在誤用問(wèn)題,有待于引發(fā)思考,進(jìn)一步求證。
由圖6可見(jiàn),除了藥物治療以外,改變生活習(xí)慣,食療和鍛煉也是治療高血壓的常用療法。高血壓患者要注意:低脂低鹽,保持情緒穩(wěn)定,戒煙忌酒,飲食清淡,注意睡眠,多吃蔬菜,補(bǔ)充維生素,多參加體育鍛煉,多喝水等。
4.2基于關(guān)聯(lián)規(guī)則獲取“癥藥”關(guān)系
基于詞頻統(tǒng)計(jì)獲得的高血壓癥狀信息如圖7,可見(jiàn)高血壓常見(jiàn)癥狀為頭暈、頭痛、惡心嘔吐、水腫等。頭暈、頭痛為最主要的兩大癥狀,此結(jié)論與文獻(xiàn)[3]一致。根據(jù)圖7,可把高血壓癥狀主要分為3類:影響患者腦部血管引起患者頭痛、頭暈、耳鳴;影響患者心血管機(jī)能造成患者心悸、心絞痛;造成患者四肢乏力、麻木、水腫。
本文數(shù)據(jù)源并非權(quán)威的文獻(xiàn),患者癥狀描述或醫(yī)生答復(fù)并不詳盡,數(shù)據(jù)集的稀疏度決定最小支持度不能太高。同時(shí)再次對(duì)數(shù)據(jù)進(jìn)行清洗去噪,把矩陣中不包含關(guān)鍵詞和只包含一個(gè)關(guān)鍵詞的評(píng)論刪除以增加數(shù)據(jù)的密集度。經(jīng)過(guò)多次嘗試,降低最小支持度至5%,計(jì)算出滿足置信度50%的強(qiáng)規(guī)則有:
規(guī)則1:頭痛→頭暈,最小置信度為53.1%;
規(guī)則2:頭痛→鈣通道拮抗劑,最小置信度為53.3%;
規(guī)則3:水腫→利尿劑,最小置信度為67.2%。
由規(guī)則1可知,出現(xiàn)頭痛癥狀的高血壓患者通常伴有頭暈,這兩種癥狀都與腦部血管有關(guān)。規(guī)則2和規(guī)則3都是“癥藥”的強(qiáng)規(guī)則。規(guī)則2說(shuō)明如高血壓患者出現(xiàn)頭疼,醫(yī)生通常都會(huì)使用鈣通道拮抗劑類的藥。規(guī)則3的置信度接近70%,“癥藥”關(guān)系比較強(qiáng),可推斷高血壓患者若出現(xiàn)水腫的癥狀,醫(yī)生通常會(huì)開(kāi)利尿劑配合降壓藥使用。挖掘出的“癥藥”規(guī)則較少,可能是由于沒(méi)有經(jīng)過(guò)面診的文本數(shù)據(jù)質(zhì)量不高,還因?yàn)楦哐獕翰±韽?fù)雜,并發(fā)疾病多,用藥需要結(jié)合患者年齡、病史、并發(fā)疾病以及進(jìn)一步的儀器檢查方能確定,因此單一的“癥藥”關(guān)聯(lián)較弱。
4.3基于詞頻獲得高血壓并發(fā)癥用藥特點(diǎn)
高血壓病人常伴有糖尿病、動(dòng)脈硬化、冠心病、腦梗塞、血栓、中風(fēng)或腎臟病等,如圖8。這幾種疾病或者病因是相通的,疾病的危害互相影響。根據(jù)并發(fā)癥的不同,癥狀與治療方法也有所不同。探究高血壓并發(fā)癥用藥特點(diǎn),以高血壓合并“冠心病”、“糖尿病”、“腎病”為例進(jìn)行研究。篩出包含如上某個(gè)并發(fā)癥的數(shù)據(jù),比較篩選前后關(guān)鍵詞頻率變化較大的項(xiàng),可知:高血壓合并冠心病的患者出現(xiàn)“心悸”、“胸悶氣短”、“心絞痛”癥狀更頻繁。與之對(duì)比,單單高血壓的患者出現(xiàn)以上3種癥狀的頻率則低得多,并發(fā)“腦梗塞”、“動(dòng)脈硬化”的頻率也只有并發(fā)冠心病患者的1/2。用藥方面,并發(fā)冠心病的高血壓患者使用鈣通道拮抗劑的頻率為48.3%,接近篩選前的兩倍多,可見(jiàn)并發(fā)冠心病的高血壓患者更傾向于使用鈣通道拮抗劑作為首選降壓藥。由整體數(shù)據(jù)可知,高血壓并發(fā)糖尿病關(guān)鍵字詞頻總體上比高血壓低,說(shuō)明癥狀與高血壓基本相同。四肢的癥狀如“四肢乏力”、“水腫”、“麻木”頻率稍微比單純高血壓患者高一點(diǎn),說(shuō)明高血壓并發(fā)糖尿病后容易出現(xiàn)這些癥狀,可多吃利尿的食物。肥胖的患者更容易出現(xiàn)高血壓并發(fā)糖尿病,高血壓并發(fā)糖尿病患者也更容易出現(xiàn)昏厥,所以高血壓患者要多運(yùn)動(dòng)減肥,防止低糖。對(duì)于高血壓合并腎臟病,“低鹽”、“低脂肪”詞頻高達(dá)70%以上,說(shuō)明高血壓腎病患者要尤其注重低鹽、低脂肪的飲食,同時(shí)保持情緒穩(wěn)定。在用藥方面,鈣通道拮抗劑是高血壓腎病患者的首選。多喝水、多補(bǔ)充維生素這些對(duì)于單純高血壓需要提倡的非藥物治療方法,對(duì)于高血壓腎病患者不強(qiáng)調(diào),意圖減輕腎臟負(fù)擔(dān)。
5結(jié)論
本文基于文本挖掘正規(guī)流程,基于在線醫(yī)療網(wǎng)站醫(yī)患互動(dòng)論壇數(shù)據(jù),使用TFIDF算法和關(guān)聯(lián)規(guī)則算法,發(fā)現(xiàn)高血壓常用中西藥、非藥物治療、并發(fā)癥用藥特點(diǎn)、“癥藥”關(guān)系等知識(shí),并與當(dāng)前文獻(xiàn)交互驗(yàn)證,發(fā)現(xiàn)待思考求證的問(wèn)題,驗(yàn)證了互聯(lián)網(wǎng)數(shù)據(jù)用于疾病研究的可用性和效果。
本文的不足之處及后繼工作是:受當(dāng)前自然語(yǔ)言處理發(fā)展的影響,分詞處理還有提升空間;由于病理復(fù)雜,單一的“癥藥”關(guān)聯(lián)規(guī)則分析可能無(wú)法應(yīng)用于實(shí)際臨床中,需要進(jìn)一步對(duì)“多癥狀多藥”進(jìn)行聯(lián)合挖掘。
隨著醫(yī)療管理的移動(dòng)化和智能化,數(shù)據(jù)會(huì)更多更好,各種源頭的數(shù)據(jù)聯(lián)合使用,文本挖掘技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用會(huì)展現(xiàn)出蓬勃的生命力。
參考文獻(xiàn)
?。?] 楊進(jìn),羅漫,張啟蕊.文本挖掘在中醫(yī)藥文獻(xiàn)分析中的應(yīng)用[J].廣東藥學(xué)院學(xué)報(bào),2010,26(2):216-220.
[2] 王麗穎,鄭光,郭洪濤,等.基于文本挖掘技術(shù)的高血壓病中成藥與西藥用藥規(guī)律分析[J].中華中醫(yī)藥雜志,2013,28(1):60-63.
?。?] 賀丹,姜淼,鄭光,等.利用文本挖掘技術(shù)探索高血壓病癥狀、證候以及用藥規(guī)律[J].中國(guó)實(shí)驗(yàn)方劑學(xué)雜志, 2014,20(19):214-216.
?。?] CORLEY C D,COOK D J, MIKLER A R, et al. Text and structural data mining of influenza mentions in Web and social media[J]. International Journal of Environmental Research & Public Health, 2010, 7(2):596-615.
?。?] NIKFARJAM A, SARKER A, O’CONNOR K, et al. Pharmacovigilance from social media: mining adverse drug reaction mentions using sequence labeling with word embedding cluster features[J]. Journal of the American Medical Informatics Association, 2015,22(3):671-681.
?。?] SARKER A, O’CONNOR K,GINN R, et al. Social media mining for toxicovigilance: automatic monitoring of prescription medication abuse from twitter[J]. Drug Safety, 2016,39(3):231-240.
?。?] YAN L, TAN Y. Feeling blue? go online: an empirical study of social support among patients[J]. Information Systems Research, 2014,25(4): 690-709.
?。?] GESUALDO F,STILO G,AGRICOLA E,et al. Influenzalike illness surveillance on twitter through automated learning of naive language[J]. PLoS One, 2013, 8(12): 182.