一種自適應(yīng)網(wǎng)頁結(jié)構(gòu)化信息提取方法 | |
所屬分類:技術(shù)論文 | |
上傳者:aetmagazine | |
文檔大?。?span>509 K | |
標(biāo)簽: 信息提取 結(jié)構(gòu)化信息 分類模型 | |
所需積分:0分積分不夠怎么辦? | |
文檔介紹:面向互聯(lián)網(wǎng)信息采集挖掘應(yīng)用,針對傳統(tǒng)的網(wǎng)站信息整頁采集方式存在采集信息混雜、無法直接使用,而人工結(jié)構(gòu)化采集方式成本高、工作效率低的問題,研究提出了一種自適應(yīng)網(wǎng)頁結(jié)構(gòu)化信息提取方法,實現(xiàn)了網(wǎng)頁分類算法、基于子樹的標(biāo)題項、內(nèi)容項的結(jié)構(gòu)化信息提取算法?;诘湫途W(wǎng)站網(wǎng)頁分類標(biāo)注數(shù)據(jù)集進行分類模型的學(xué)習(xí)建模,可以自適應(yīng)不同網(wǎng)站的差異,對網(wǎng)頁進行分類,按照網(wǎng)頁分類分別提取出網(wǎng)頁中的列表項結(jié)構(gòu)化信息、內(nèi)容項結(jié)構(gòu)化信息。該技術(shù)對提高網(wǎng)站信息結(jié)構(gòu)化采集處理的自動化水平及處理效率具有重要作用。 | |
現(xiàn)在下載 | |
VIP會員,AET專家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。 |
Copyright ? 2005-2024 華北計算機系統(tǒng)工程研究所版權(quán)所有 京ICP備10017138號-2