文獻標(biāo)識碼: A
DOI: 10.19358/j.issn.2096-5133.2021.12.009
引用格式: 王慶才,劉貴全. 基于混合表征學(xué)習(xí)的專利分類方法研究[J].信息技術(shù)與網(wǎng)絡(luò)安全,2021,40(12):51-59.
0 引言
專利分類是專利挖掘和管理中重要的基礎(chǔ)任務(wù)。其主要目的是通過自然語言處理等方法提取專利文檔中的重要特征,然后將這些特征輸入分類器中,其輸出結(jié)果表示專利文檔所屬的標(biāo)簽。通常一個專利具有一個或多個標(biāo)簽。面對每年快速增長的專利申請數(shù)量,實現(xiàn)高效的、自動化的專利分類算法可以大大減少專利機構(gòu)的人工成本和時間成本。目前,自動化專利分類算法已被專利機構(gòu)廣泛使用,為專利檢索[1]、專利價值評估[2]、專利訴訟風(fēng)險評估[3]等專利智能服務(wù)提供支持。
因此,這吸引了許多研究人員來研究自動專利分類問題[4-6],并且這些方法中的大多數(shù)將其視為多標(biāo)簽文本分類任務(wù)[4-5]。專利的主要內(nèi)容為其組件和創(chuàng)新的詳細(xì)說明文檔,該任務(wù)的目標(biāo)是針對專利自動化預(yù)測一組標(biāo)準(zhǔn)化的類別。傳統(tǒng)的專利分類方法大多基于統(tǒng)計學(xué)和自然語言處理方法人工構(gòu)造特征信息,輸入到機器學(xué)習(xí)模型中進行訓(xùn)練,然后預(yù)測未知專利的類別信息。這些方法大多屬于淺層模型,僅僅學(xué)習(xí)了專利文本簡單的詞義信息,無法獲取深層的上下文語義信息。而且專利中包含了大量的非結(jié)構(gòu)化信息,如專利之間的引用信息,通常將專利作為網(wǎng)絡(luò)節(jié)點構(gòu)建專利引用網(wǎng)絡(luò),然后基于網(wǎng)絡(luò)分析的方法對專利節(jié)點進行分類。此類方法專注于學(xué)習(xí)網(wǎng)絡(luò)的結(jié)構(gòu)信息,忽略了專利文本信息對預(yù)測專利類別的影響。
本文詳細(xì)內(nèi)容請下載:http://theprogrammingfactory.com/resource/share/2000003896.
作者信息:
王慶才1,2,劉貴全1,2
(1.中國科學(xué)技術(shù)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,安徽 合肥230027;
2.大數(shù)據(jù)分析與應(yīng)用安徽省重點實驗室,安徽 合肥230027)