文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.200160
中文引用格式: 淮曉永,韓曉東,高若辰,等. 一種自適應(yīng)網(wǎng)頁結(jié)構(gòu)化信息提取方法[J].電子技術(shù)應(yīng)用,2020,46(12):97-102.
英文引用格式: Huai Xiaoyong,Han Xiaodong,Gao Ruochen,et al. An adaptive method for extracting structured information from web pages[J]. Application of Electronic Technique,2020,46(12):97-102.
0 引言
在互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代,互聯(lián)網(wǎng)信息呈現(xiàn)爆炸式增長,其中蘊(yùn)藏著很多有價(jià)值的重要信息需要處理與利用。通過智能化的大數(shù)據(jù)信息挖掘處理,可以從中分析把握技術(shù)發(fā)展的方向態(tài)勢,迅速發(fā)現(xiàn)高價(jià)值的科技信息。
從關(guān)注的Internet網(wǎng)站源自動采集收集新發(fā)布的信息,并提取出其中的結(jié)構(gòu)化信息,是建立互聯(lián)網(wǎng)大數(shù)據(jù)系統(tǒng)的基礎(chǔ)。通過網(wǎng)絡(luò)爬蟲系統(tǒng)可以從各類網(wǎng)站爬取大量的網(wǎng)頁數(shù)據(jù),但傳統(tǒng)的網(wǎng)站信息整頁采集方式信息混雜,無法直接進(jìn)行大數(shù)據(jù)挖掘處理,而人工從網(wǎng)頁中提取結(jié)構(gòu)化的文本信息又存在成本高、工作效率低的問題。如何通過自動化的網(wǎng)頁數(shù)據(jù)結(jié)構(gòu)化信息采集技術(shù)實(shí)現(xiàn)自動從網(wǎng)頁中提取結(jié)構(gòu)化的信息,是進(jìn)行互聯(lián)網(wǎng)大數(shù)據(jù)挖掘處理的關(guān)鍵預(yù)處理技術(shù)。
本文研究針對傳統(tǒng)的網(wǎng)站信息整頁采集方式存在采集信息混雜、無法直接使用,而人工結(jié)構(gòu)化采集方式成本高、工作效率低的問題,研究實(shí)現(xiàn)了一種基于DOM樹的網(wǎng)頁結(jié)構(gòu)化信息提取方法(DOM based Web-page Structured Information Extraction,DWSIE),實(shí)現(xiàn)了一個(gè)網(wǎng)頁結(jié)構(gòu)化信息提取服務(wù)工具包,該工具包極大地提高了網(wǎng)站結(jié)構(gòu)化信息采集處理的自動化水平和處理效率。
本文詳細(xì)內(nèi)容請下載:http://theprogrammingfactory.com/resource/share/2000003263
作者信息:
淮曉永,韓曉東,高若辰,高煥新
(華北計(jì)算機(jī)系統(tǒng)工程研究所,北京100083)