文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.200160
中文引用格式: 淮曉永,韓曉東,高若辰,等. 一種自適應(yīng)網(wǎng)頁(yè)結(jié)構(gòu)化信息提取方法[J].電子技術(shù)應(yīng)用,2020,46(12):97-102.
英文引用格式: Huai Xiaoyong,Han Xiaodong,Gao Ruochen,et al. An adaptive method for extracting structured information from web pages[J]. Application of Electronic Technique,2020,46(12):97-102.
0 引言
在互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代,互聯(lián)網(wǎng)信息呈現(xiàn)爆炸式增長(zhǎng),其中蘊(yùn)藏著很多有價(jià)值的重要信息需要處理與利用。通過智能化的大數(shù)據(jù)信息挖掘處理,可以從中分析把握技術(shù)發(fā)展的方向態(tài)勢(shì),迅速發(fā)現(xiàn)高價(jià)值的科技信息。
從關(guān)注的Internet網(wǎng)站源自動(dòng)采集收集新發(fā)布的信息,并提取出其中的結(jié)構(gòu)化信息,是建立互聯(lián)網(wǎng)大數(shù)據(jù)系統(tǒng)的基礎(chǔ)。通過網(wǎng)絡(luò)爬蟲系統(tǒng)可以從各類網(wǎng)站爬取大量的網(wǎng)頁(yè)數(shù)據(jù),但傳統(tǒng)的網(wǎng)站信息整頁(yè)采集方式信息混雜,無(wú)法直接進(jìn)行大數(shù)據(jù)挖掘處理,而人工從網(wǎng)頁(yè)中提取結(jié)構(gòu)化的文本信息又存在成本高、工作效率低的問題。如何通過自動(dòng)化的網(wǎng)頁(yè)數(shù)據(jù)結(jié)構(gòu)化信息采集技術(shù)實(shí)現(xiàn)自動(dòng)從網(wǎng)頁(yè)中提取結(jié)構(gòu)化的信息,是進(jìn)行互聯(lián)網(wǎng)大數(shù)據(jù)挖掘處理的關(guān)鍵預(yù)處理技術(shù)。
本文研究針對(duì)傳統(tǒng)的網(wǎng)站信息整頁(yè)采集方式存在采集信息混雜、無(wú)法直接使用,而人工結(jié)構(gòu)化采集方式成本高、工作效率低的問題,研究實(shí)現(xiàn)了一種基于DOM樹的網(wǎng)頁(yè)結(jié)構(gòu)化信息提取方法(DOM based Web-page Structured Information Extraction,DWSIE),實(shí)現(xiàn)了一個(gè)網(wǎng)頁(yè)結(jié)構(gòu)化信息提取服務(wù)工具包,該工具包極大地提高了網(wǎng)站結(jié)構(gòu)化信息采集處理的自動(dòng)化水平和處理效率。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://theprogrammingfactory.com/resource/share/2000003263
作者信息:
淮曉永,韓曉東,高若辰,高煥新
(華北計(jì)算機(jī)系統(tǒng)工程研究所,北京100083)