一種用于專利實體的實體消歧方法教案資料_第1頁
一種用于專利實體的實體消歧方法教案資料_第2頁
一種用于專利實體的實體消歧方法教案資料_第3頁
一種用于專利實體的實體消歧方法教案資料_第4頁
一種用于專利實體的實體消歧方法教案資料_第5頁
已閱讀5頁,還剩17頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、Good is good, but better carries it.精益求精,善益求善。一種用于專利實體的實體消歧方法-文章編號:XXXX一種用于專利實體的實體消歧方法王琰炎,王裴巖,蔡東風(沈陽航空航天大學知識工程與人機交互研究中心,沈陽,110136)摘要:專利實體是用以表述專利、實用新型或外觀設計的具有實際意義的實體,作為專利文本的核心內容,專利實體是專利文本中最值得實體搜索用戶關注的焦點。專利實體搜索是專利技術方案信息抽取的第一步,而專利實體消歧是專利實體搜索中最重要的操作,是將具有領域歧義性的專利實體相關詞,按照實體不同的領域含義,劃分為不同類別的過程。將實體搜索技術應用于中文專

2、利摘要文本,并在實體搜索過程中使用了實體消歧技術,得到用戶最關注的實體相關信息。本文在充分分析了專利摘要文本的特點的基礎上,提出一種面向專利實體的消歧方法。本文使用基于IPC和向量空間模型的詞向量表示法,結合凝聚式層次聚類算法,得到專利實體消歧結果。根據對比實驗的結果能夠得出結論,本方法能夠實現準確的實體消歧,評測結果高達78.9%。關鍵詞:專利實體、實體搜索、實體消歧、IPC、凝聚式層次聚類中圖分類號:TP391.1文獻標識碼:AAnEntityDisambiguationMethodforPatentEntityWANGYan-yan,WANGPei-yan,CAIDong-feng(Kn

3、owledgeEngineeringResearchCenter,ShenyangAerospaceUniversity,Shenyang110136)Abstract:PatentEntityisasignificantentitythatusedtoexpresspatents,utilitymodels,andappearancedesign,asthekernelofpatenttext,patententityistheabsolutefocusofentitysearchusers.PatentEntitySearchisthefirststepofPatentInformatio

4、nExtraction,andtheentitydisambiguationofpatentisthemostimportantoperationofPatentEntitySearch,whichisdividerelativewordstodifferenttypesaccordingtodifferentdomains.ApplyentitysearchtechnologytotheabstracttextofChinesepatent,makeuseofthetechnologyofentitydisambiguation,whichcangettherelativeinformati

5、onthattheuserconcerned.Thispaperproposeadisambiguationmethodonthebasisofanalyzingthefeatureoftheabstracttextofpatentadequately.CombinedwithHAC,thispaperhavegottentheresultofdisambiguationbyusingthewordvectorrepresentationonthebasisofIPCandVectorSpaceModel,combinedwithHAC.Accordingtotheparallelexperi

6、ments,wecometotheconclusionthatthemethodcoulddisambiguateaccuratelywiththemeasurevalueof78.9percent.Keywords:PatentEntity,EntitySearch,EntityDisambiguation,IPC,HAC專利文本是集技術情報、法律情報和經濟情報于一體的實用知識載體,是極為重要的科技信息來源1。專利實體作為專利文本中的核心對象,研究價值較高。專利實體的消歧是專利實體搜索的核心步驟,目標是解決專利實體搜索中同名實體的歧義問題,幫助用戶準確定位目標信息。在專利文本的基礎上進行實體

7、消歧,就是將具有領域歧義的實體相關詞按照不同的領域含義劃分為不同的類別。因此,專利實體上的歧義消解實際上就是目標詞的聚類過程,消歧結果的好壞就取決于聚類中目標詞向量的原始特征選擇。本文嘗試了三種不同的特征選取方法,將目標詞表示成特征向量,再進行類別劃分。經過實驗驗證,使用基于IPC分類的特征生成目標詞向量的方法取得了更好的效果。本文共分為5部分內容,第1部分介紹了國內外的相關研究,第2部分介紹了本文提出的三種相關詞特征向量表示方法,第3部分介紹了使用聚類算法進行專利實體消歧的過程,第4部分則是實驗和分析,最后一部分是本文得出的結論與展望。1相關研究實體消歧問題是當下比較熱點的研究問題,國內外的

8、大多熟研究從兩個角度解決實體歧義造成的影響,分別是通過尋求更高質量的特征和引入外部資源輔助消解。在特征選取方面,何正焱2利用DNN(深度神經網絡)方法,提出了一種文檔和實體的相似度為框架的消歧模型;姜麗麗3提出了一種基于帶權圖結構的框架來實現人物實體的消歧工作,并使用實體標簽對每個人物實體進行標注;Bagga和Baldwin4將不同文檔間上下文的相似度作為特征實現實體消歧的;R.Bekkerman和A.McCallum5則結合了社交網絡的鏈接信息和聚類兩種非監督的框架對社交網絡中的人物實體進行消歧。給定的文檔集中所包含的被査詢人的信息往往是非常有限的,因此網絡公共資源經常被用來挖掘更多的信息以

9、提高同名消歧質量。其中,中科院的韓先培6使用了在線知識庫信息來輔助解決實體歧義的,D.Bollegara7通過擴展查詢詞來對Web搜索引擎中的同名人物實體進行消歧;R.Bunescu8嘗試使用在線百科全書(Wikipedia)的部分錨文本信息來擴充文檔集,從而完成信息檢測和同名消歧的任務。這些方法能夠非常出色的完成實體消歧的任務,但是由于其需要花費大量的時間進行在線信息采集,因此更適合于服務器端的應用。現在階段的實體消歧研究集中在通用文本上,而專利文本上的實體,又與通用文本中的實體有本質的區別。因此,本文需要充分利用專利文本及專利實體的特點,并在通用的實體消歧方法的基礎上進行優化。2特征向量表

10、示方式實體消歧的目標是對專利相關詞解析并分類,利用向量空間模型(VSM)的思想,將相關詞表示成特征向量的形式,再對它們進行消歧。本文嘗試了三種特征向量的表示方式,分別是利用基于TF-IDF的文檔特征表示法、Word2vec詞向量表示法,以及基于IPC分類的輔助表示法。2.1TF-IDF特征表示法TF-IDF是一種利用詞語的詞頻(TF)和反文檔頻率(IDF)特征的統計方法,主要思想在于,如果某個詞在一篇專利文檔中出現的頻率TF高,而在其他文檔中出現較少,則認為此詞具有很好的類別區分能力。基于TF-IDF的特征權值選取方法,使每個特征維度代表一篇相關文檔,將每個目標詞在每篇對應文檔中的TD-IDF

11、值作為對應維度上的特征值,表示形式如下。其中,表示的是目標詞w在專利文本中的詞頻,idf表示w在文本集上的反文檔頻率,N表示專利文本集中的文本總數,則表示w在文本集中的文檔頻率。由于考慮到專利文本的長度對目標詞在不同專利文本中的權重值影響較大,需要進行的向量的歸一化操作。2.2Word2vec詞向量表示法本文使用了由Google的TomasMikolov1011團隊研發的Word2vec詞向量生成工具,生成指定維度的目標詞向量。Word2vec工具是基于DeepLearning和神經網絡模型,利用深度神經網絡(DNN)的思想,通過上下文的分析,自動選取特征,并通過用戶指定的參數,經過多次的迭代

12、,訓練出詞向量。Word2vec常用的參數包含上下文窗口大小(Window)、向量維度(size)、訓練架構選擇(cbow)以及最低訓練詞頻(min-count)等。本文先利用分詞工具和命名實體識別工具,將相關文檔集進行分詞和實體識別操作,并將經過分詞和識別之后的文檔作為word2vec工具的訓練語料,進行詞向量的訓練。2.3IPC向量表示法IPC(國際專利分類)是目前國際上唯一通用的專利文獻分類和檢索工具12,是一個復雜的層次結構分類系統,分為部、大類、小類、主組和分組5個層次13。例如,篇專利文本的IPC分類編號是A47B1/02,可按照IPC體系做如下分解。表1專利文本的IPC編號分解舉

13、例分解片段IPC層次含義A部(最外層)人類生活需要A47大類家具A47B小類桌子、寫字臺、抽屜、櫥柜等A47B1/00主組可伸展的桌子A47B1/02分組(最內層)有可插入的活板和固定框架的桌子基于IPC的特征選取方法是利用IPC體系中每個層次的類別特征,將實體相關詞詞表示成特征向量的形式。基于IPC的特征向量表示方法是利用IPC的5個不同層次的IPC類別作為特征。以IPC的最外層(部)為例,IPC的部有AH類的8種特征,如下表所示。表2IPC的部的層次特征介紹標識表示含義舉例說明A類人類生活需要A01:農業;A41:服裝;A63:運動娛樂B類作業、運輸B27:木材;B64:航空、飛行器C類化

14、學、冶金C01:無機化學;C10:石油、煤氣;C21:煉鐵D類紡織、造紙D03:織造;D21:造紙E類固定構造E02:水利工程;E04:建筑物;E05:門窗、鑰匙F類機械工程、照明、加熱F02:燃氣機;F21:照明;F23:燃燒設備G類物理G02:光學;G11:信息貯存;G21:核物理、核工程H類電學H01:基本電氣元件;H04:電子通信技術其中,AH類的每個特征向量的維度都是8,此時對于目標詞w,其特征向量的形式是,向量的8個特征權值分別表示目標詞w的上表中的8個類別上的權重值。使用類似于基于詞語的TF-IDF的特征權值表示法,將基于單篇文檔的特征更改為基于8種部的特征,將基于N篇專利文檔的

15、特征進行降維,從而將基于文檔的特征映射到基于IPC的8種部的特征。于是權值的表示形式為:其中,表示目標詞在類文本中的詞頻,N是相關文檔集大小,表示的是目標詞w在類文本中的文檔頻率。同理,在IPC分類體系的大類和小類的層面上進行相同的特征選擇,得到不同層次下的特征向量。本文在前三個層次的特征進行了實驗,其中大類和小類的特征數目是123和629。3聚類分析3.1凝聚式層次聚類實體消歧中對于實體相關詞的劃分,使用的是聚類的思想,將實體相關詞利用VSM表示成特征向量之后,對這些目標向量進行聚類分析。由于對于聚類結果缺乏預知,無法預測目標詞會分為幾類,因此本文使用層次聚類來實現專利實體的消歧。根據層次分

16、解的順序是自下向上的還是自上向下的,分為凝聚的層次聚類算法和分裂的層次聚類算法14,本文使用的是前者。HAC是一個自底向上的層次聚類過程,一開始將每個目標詞都看做一個由單個詞組成的小聚簇,然后不斷地對簇進行兩兩合并的操作,直到所有聚簇都合并成一個類為止。實體的歧義消解過程中,將每個目標詞作為聚類的對象,每個目標詞用特征向量的形式表示,對這些目標詞進行聚類的過程就是對這些特征向量聚類的過程,其中向量之間的距離衡量公式使用的是歐氏距離。3.2聚類終止條件控制HAC的聚類過程需要通過閾值控制聚類的終止。本文選取6個不同的簇內相似度值水平k進行閾值控制,分別是0.5、0.3、0.1、0.001、1e-

17、9和0,分別對應聚類終止控制策略的16層。對于一個歧義實體,以這6個相似度作為層次聚類的終止條件得到6種聚類結果,分別采集每種聚類結果的詳細記錄,其表示形式如下:其中,表示第i層聚類結果的聚簇數目,是第i層聚類結果的F評價值;而則表示第i層的詳細聚類結果記錄,詳細記錄了每個聚簇包含的相關詞數目以及簇內對象的相似度平均值,表示形式如下:隨著層數的增加,相似度閾值逐層降低,聚簇數目逐層減少,每個聚簇內詞語間的平均相似度值也逐層衰減,本文就是通過相似度的衰減程度來控制聚類的終止,本文嘗試了幾種衰減策略來控制,即最大值衰減、最小值衰減、平均值衰減,以及它們之間的融合衰減方法。3.2.1衰減程度首先計算

18、每個相似度水平k下的聚類結果中除1外的類內的目標相似度值。從第二層的相似度水平k=0.3開始,根據本層的類內相似度值和上一層的相似度值,計算衰減程度,第i層的衰減程度的表示形式如下:其中,和表示當前層和上一層的目標相似度值,可以表示當前聚類結果中簇內相似度的最大值、最小值或平均值。于是得到每一層的的三個衰減度、和。再通過實驗選取合適的衰減閾值,當在第i層的衰減度大于該閾值時終止聚類,并將上一層的聚類結果作為最終的消歧結果。3.2.2衰減融合策略將三種衰減度中的兩種以上加以融合,形成新的衰減策略,即衰減融合策略。共存在如表2的4種衰減策略。表2四種融合衰減策略融合策略策略說明RMax+Min同時

19、使用最大值策略、最小值策略RMax+Avg同時使用最大值策略、平均值策略RMin+Avg同時使用最小值策略、平均值策略RAll同時使用三種策略例如,在表2所示的聚類結果中使用RMax+Min的融合策略,此融合策略要求在每層的聚類結果中,兩個衰減度和需同時滿足和,若條件之一不滿足就終止聚類。其他三種融合策略的應用方法與RMax+Min方法相似,只是使用的衰減度類型不同。通過實驗分別驗證這四種融合策略對于實體消歧的有效性,并與前一節提及的三種使用單獨的衰減度的策略進行對比,找出最佳的衰減策略應用于專利實體的消歧。4實驗與分析4.1實驗設置本文使用的實驗語料為來源于不同領域的2009-2010年的中

20、文專利摘要,共92萬篇。本實驗使用了10個具有領域歧義性的查詢詞,每個查詢詞通過相關詞檢索和篩選,得到50個最相關的目標詞語。每個查詢(Query)都含有至少兩個領域含義例如,領域概念“載體”具有3個領域含義,將實體相關詞映射到“載體”的3種不同的領域含義上,并按照不同的領域含義對標注這些目標詞,從而實現專利實體的歧義消解,標準的消歧結果如下表所示。表3“載體”的實體相關詞的標注結果相關詞標注結果備注說明抗體DNA基因數據載體信道導體POC金屬載體1112233生物醫藥類載體生物醫藥類載體生物醫藥類載體數據通信類載體數據通信類載體工業領域載體工業領域載體4.2評價指標專利實體消歧的目標是將實體

21、相關詞利用層次聚類的方法劃分為不同的類別,因而使用聚類技術的評價方法評價實體消歧的有效性,本文使用的評價方法是基于人工判定的F-Measure值。已知實體相關詞標注結果和聚類結果集,其中表示標注結果中包含s個類別,表示聚類結果中包含的聚簇數目是m。計算每個標注類別在不同聚簇下的準確率(Precision)、召回率(Recall)和聚類F值,其中聚類準確率、召回率和F值的計算公式如下:,從中挑選最優指標值以及與其對應的簇,并以該最優的指標值來判定的質量,每個標注類別的F值表示為。本次聚類結果的最終F值的表示為:4.3實驗結果與分析=1*GB2*MERGEFORMAT聚類終止條件的閾值控制由于實體

22、消歧的過程就是層次聚類的過程,需要控制聚類的終止條件得到最終的消歧結果。本文使用了3種單獨的衰減方式(最大值衰減、最小值衰減、平均值衰減)以及它們之間相互融合的4種衰減方式,以控制了層次聚類的終止。7種衰減方式的聚類結果評價如下表所示。表4聚類終止條件控制結果展示RMaxRMinRAvgRMax+MinRMax+AvgRMin+AvgRAll0.67240.62880.65860.63210.62970.63040.7565從表中數據可得出結論,使用三種衰減方式相融合的衰減方式RAll得到最優的聚類結果。在此基礎上,本文選取了4個候選的衰減度閾值0.2、0.3、0.4和0.5,分別在這4個閾值

23、的基礎上得出聚類的評測結果,如下表所示。表5不同衰減度水平的評價結果0.50.71010.74850.76180.7887從實驗結果中可以看出,本文在使用三種衰減度融合的基礎上,并使用衰減度閾值為0.5的情況下,得到最優的結果。=2*GB2*MERGEFORMAT消歧評測結果本文提出的專利實體消歧方法是基于IPC分類體系結合VSM生成相關詞的特征向量,并利用HAC算法進行聚類分析的過程,因而本文提出方法的評價指標采用的是層次聚類的評價方法F-Measure。將TF-IDF的特征表示法作為Baseline;在word2vec的詞向量表示法方面,使用了三種維度的特征向量表示;而在

24、基于IPC的特征表示法方法則使用了IPC的三個層次進行特征向量的輔助生成。作為對比實驗,本文引用了姜麗麗3的基于文檔的詞語相似度方法。本文在十個查詢中的結果如表6所示。表6十個查詢詞的F值查詢詞Baselineword2vec方法共現度方法IPC方法size=200size=250size=300PBCSC病毒0.72480.75710.75710.75710.91110.98430.9921緩沖器0.37110.65990.64610.64610.65890.61220.61220.569引擎0.38820.55680.55680.55680.35150.75910.75420.7941接口

25、0.63850.69890.69890.69890.65350.68580.68580.6858種子0.54880.68840.77930.77930.9230.93890.93420.9389粉碎機0.45880.52770.52770.52770.60350.68170.74810.6986過濾器0.53040.43550.46270.46270.55870.63270.69930.6549散熱器0.41280.45310.45310.45310.49590.72030.76830.752牽引器0.48220.41220.41220.41220.57920.76250.83260.7915

26、載體0.52170.63570.63570.63570.68050.82130.86090.7936Avg0.50770.58250.5930.5930.64160.760.78870.7678從實驗結果可以看出,基于IPC的特征向量表示方法的聚類效果明顯優于其他方法,且在IPC的3個層次上都獲得了較好的歧義消解結果。總體上看,此方法在大類的層次上獲得了最好的評價結果,因為在部的層次上,相關詞的特征向量維度是8,在低維空間上較稠密,不利于實體的歧義消解;而在小類層次上,特征向量又比較稀疏,使一些具有較高領域相關度的詞對,由于在很多特征維度上沒有交集,使它們的相關度較低,未被聚到一起,而影響最終

27、的消歧結果。基于TF-IDF的方法能夠反映的實體信息有限,大部分實體相關詞都是專利術語,其對應的特征向量較稀疏,而特征向量的維度較大,在聚類過程中不利于形成明顯的聚簇,使聚類的準確率降低。使用Word2vec工具生成的詞向量,能夠在一定程度上引入語義信息,但這種語義信息只是集中于一定范圍的上下文中,對于信息較為分散的專利文本,并沒有生成對歧義消解有幫助的特征向量。使用文檔共現度的信息表示法取得了不錯的效果,但對于專利相關詞之間的關系,文檔共現信息不能完全體現詞對的相關性。5結論與展望本文提出了一種用于專利實體的實體消歧方法,在充分分析和利用專利文本特點的基礎上,利用IPC分類體系對專利實體進行

28、消歧分析。充分利用IPC分類編號的特點,按照領域的歧義性,對實體相關詞進行類別的劃分。本文在IPC體系的三個層次上分別利用詞頻、文檔頻率以及類別頻率等特征,得到能夠表達詞語領域標識性的特征向量,再利用HAC算法對這些特征向量進行聚類,得到的聚類結果就是實體消歧的結果。同時,為了驗證本方法的有效性,本文還引入了其他三種方法做對比,分別是基于TF-IDF的向量表示法、Word2vec詞向量表示法以及文檔共現度信息表示法。結果表明,本文提出的方法能夠有效地實現專利實體的消歧。下一步的工作中,將嘗試在不同的IPC層次下的特征在領域不同上進行混合和篩選。例如,在IPC的部的層次上,G類和H類都是與物理工

29、業相關的領域,可以考慮將二者合并;A類是“人類日常生活類”,其中包含的領域較復雜,可以考慮將A類特征按照不同領域進行分解等。這樣,在新的IPC層次上進行實驗,以期獲得更好的效果。參考文獻(References)1鄧要武.科技報告、專利文獻和標準文獻資源檢索與利用.圖書館工作與研究J.2008(7):71-7412ZhengyanHe,ShujiLiu,MuLietal.LearningEntityRepresentationforEntityDisambiguationC.InproceedingsofAssociationofComputationalLanguage,2013:30-343

30、姜麗麗.實體搜索與實體解析方法研究D.蘭州:蘭州大學,2012.4A.Bagga,B.Baldwin.Entity-basedcross-documentcoreferencingusingthevectorspacemodelC.InProceedingsofthe36thAnnualMeetingoftheAssociationforComputationalLinguisticsandthe17thInternationalConferenceonComputationalLinguistics(COLING-ACL),1998:79-85.5R.Bekkerman,A.McCallum.Disambiguatingweb

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論