學科領域本體的構建與進化——以經濟學領域本體為例_第1頁
學科領域本體的構建與進化——以經濟學領域本體為例_第2頁
學科領域本體的構建與進化——以經濟學領域本體為例_第3頁
學科領域本體的構建與進化——以經濟學領域本體為例_第4頁
學科領域本體的構建與進化——以經濟學領域本體為例_第5頁
已閱讀5頁,還剩14頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、學科領域本體的構建與進化以經濟學領域本體為例?現代圖書情報技術?2007年第3期數字圖書館總第148期學科領域本體的構建與進化以經濟學領域本體為例杜小勇馬文峰武文娟(中國人民大學信息學院北京100872)(中國人民大學圖書館北京100872)(教育部數據工程與知識工程重點實驗室北京100872)【摘要】概述國內外領域本體構建方法及本體進化的研究現狀;介紹以?中國分類主題詞表?為根底構建"經濟學領域本體"初始版本的根本過程,闡述經濟學領域本體進化的根本設想,以及具體進化過程及方法,包括獲取進化實驗數據集,抽取候選關鍵詞,獲得本體新概念,建立概念關聯等.Construction

2、andEvolutionofDisciplineDomainOntologyACaseStudyforEconomicsDomainOntologyDuXiaoyong''MaWenfeng2WuWenjuan(SchoolofInformation,RenminUniversityofChina,Beng100872,China)(LibraryofRenminUniversityofChina,Beijing100872,China)(KeyLaboratoryofDataEngineeringandKnowledgeEngineering,MinistryofEducat

3、ion,Beng100872,China)【Abstract】ThispaperbrieflysurveysthestateoftheartofconstructionandevolutionofdomainOntology.ItdescribestheprocesstoconstructaprimaryveionofeconomicsOntologyfromexistingChineseclassifiedthesaurus,cludecreatingadatasetforOntologylearning,determiningthecandidatekeywords,anddiscover

4、ingtheconceptsandrelationshipofthedomainOntology.【Keywords】OntologyDomainOntologyDisciplinedomainOntologyDomainOntologyevolution1引言2學科領域本體構建與進化研究概述本體在知識組織與知識管理中的重要性已被眾多領看,單純從技術角度描述本體的較多,理論聯系實踐,并管理實踐,立足學科領域本體,并以"經濟學領域本體"試驗開發為例,研究探討學科領域本體的構建與進化.收稿日期:200701一lO收修改稿日期:2007一O120本文系國家社會科學基金資助工程&q

5、uot;數字資源整合的理論與方法"(工程編號:04BTQ003)和國家自然科學基金資助工程"本體庫管理系統技術研究"(工程編號:60573092)的研究成果之一.利用領域本體組織領域資源的根本思路,即是在資源集合的上層構建一個反映領域資源知識結構的領域本體概念模型,以此為根底對資源進行基于語義的標注,提供基于語義的資源瀏覽與檢索.所以,怎樣構建領域本體已經成為一個新的研究熱點¨,在實踐中也產生了一些面向不同應用需求的本體構建方法,如IDEF一5法,骨架法,企業建模法,Methontology法,循環獲取法,七步法等.文獻5在介紹上述本體構建方法的根底上,

6、闡述了一個本體原型構建的根本過程.文獻6面向學科領學科領域本體的構建過程中,初始核心本體的獲得是關?一7?現代圖書情報技術?2007年第3期數字圖書館總第148期鍵.目前大致有兩條獲得路徑,一是通過知識獲取技術從現有的學科數據庫中提取專業術語,挖掘,發現學科的根本概念,再由領域專家確認并建立概念關聯;二是在傳統的知識組織體系如分類法和主題詞表中轉換改造為初與本體的改造,融合及轉換.化也稱本體學習或本體演化,即是在初始核心領域本體根底上,依據一定的理論,技術和標準,對本體概念結構,概念及關系不斷進行豐富,完善,改良,更新和評估的過進化的重點和難點.近些年來,這方面的研究開始引起學界的關注,文獻1

7、2對其進行了較為全面的綜述.對于概念的獲取,國外目前提出了三類方法,即基于語言學的方法¨,基于統計的方法¨,結合語言學和文獻20提出的利用Bootstrapping的機器學習技術,文獻21提出的采用非線性函數與"成比照擬法"相結合的方法,文獻22提出的將統計方法與規那么方法相結合的專業領域術語抽取算法等.對于概念問關系的獲取,國外研究也很多,常用的方法有:基于模板的方法,基于概念聚類的方法,基于關聯規那么的方法,基于詞典的方法及使用假設干種方法的混和方法¨.為進一步給獲取的關系賦予相應的語義標簽,文獻31提出使用擴展的關聯規那么挖掘方法為本體中

8、概念間的非分類關系賦予語義標簽.目前,國內關于領域本體的進化尚無深入的研究成果,一些涉及本體進化的研究多側重于技術層面,拘泥于是幾個算法就能解決問題的,它是一項復雜的系統工程,需要以一定的理論為指導,需要和學科開展保持同步,同時必須基于科學文獻的標注實踐.3經濟學領域本體的構建與進化筆者認為,轉換改造傳統分類法/主題詞表中的分類概念和主題概念,是獲得學科領域本體初始核心概念的科學方法.因為領域本體的根底是概念系統,而分類法/主題詞表也是分類概念和主題概念及關系的集合,其基使用于各個學科領域,因此從中選擇某一領域,將其改造轉換為初始核心本體的根底,是一種比擬科學,簡便且實?8?用的學科領域本體構

9、建方法.基于這一思路和認識,筆者采用了2005年出版的?中國分類主題詞表(第2版)?電子版來構建經濟學學科領域初始核心本體.?中國分類主題詞表?是在?中國圖書館分類法?第三版和?漢語主題詞表?第一版的根底上編制的兩者相互52992個,正式主題詞l10837條,主題詞串59738條,非正式主題詞(入口詞)35690條,涵蓋哲學,社會科學和自然科學,工程技術等各領域學科和主題概念.?中國分類主題詞表?采用基于類目涵義的一體化對應方式來反映類目和主題的關系,通過一一對應,增詞對應,上位對應,組配對應,包含對應這5種方法,將符合條件的主題詞無遺漏地對應在分類法類目之下,用主題法形式揭示分類法類目的內容

10、,完成類目涵義與主題意義的兼容,因而可以說是構建了一個完整的知識地圖,既描述了知識的等級體系,又描述了主題概念的語義關聯,還描述了這兩者的對應聯系.雖然?中國分類主題詞表?中的分類/主題概念不那么標準和嚴密,語義關系也比擬簡單,但由于它涵蓋了學科領域的核心概念,其中有屬分關系或相關關系參照的主題詞達77%3,反映了最根本,重要的概念邏輯關系,因此將其經濟領域的概念轉化為初始本體,在此根底上再進行試驗與探索,是一個非常適用的初始本體構建方法.筆者以?中國分類主題詞表?中經濟類分類/主題概念為根底,建立了經濟學領域的初始本體概念集,共獲取經濟本體概念12627個,其中分類概念l523個,主題概念l

11、1104個(其中具有屬分關系的主題詞5366個,具有相關關系的主題詞4351個).類概念是主干,主要反映學科概念間等級關系,主題概念是枝葉,主要反映主題概念問的等級和相關關系及等同關系,以此構成一個經濟學領域概念網絡("經濟學領域本體"EOV1.0).領域本體的進化需要考慮以下問題:為概念進化的根底數據,一是用戶資源查詢日志,一是資源標注記錄.鑒于目前沒有資源查詢的日志信息,本次實驗主要初始本體概念中,網絡文獻對其標引得還很少,缺乏以成為進化的依據,因此,目前只有期刊論文的標注信息可作為本體概念進化的依據.期刊論文的前置信息(摘要,關鍵詞,中圖分類號)是作者對文獻的概要描述

12、,是原始的標注信息,特別是關鍵詞反映了文獻的主要內容,可以作為進化的主要依據.?現代圖書情報技術?2007年第3期數字圖書館總第148期體進化概念,要看其是否具有一定的標注頻度,一個詞被標注的概率要到達一定的要求,才能作為本體進化概念予以考慮.完全自動發現概念關聯的方法尚不可行,因此采用一些啟發式的規那么來輔助發現概念之間的關系顯得尤為重要.具體進化過程及方法:(1)獲取實驗數據.本次實驗從?中國期刊全文數據庫?中抽取20022004年共3年的文獻作為本體進化的實驗數前還不知道我國經濟學文獻的半衰期的具體值,因此選擇3年時限主要是考慮到實驗中數據處理的時間.另外,規定一個時間期限將有助于今后進

13、一步的進化實驗,包括某些老化本體概念剔除的可能.(2)抽取候選關鍵詞集合.在獲取的785426篇論文中,作者標注關鍵詞的論文232456篇,沒有標注關鍵詞的論文取關鍵詞的依據.在232456篇標注關鍵詞的論文中,共獲取關鍵詞164553個,其中,經濟初始本體中已有概念5172個,通用概念1748個,被?中國分類主題詞表?收錄的相關領域主題詞9478個,剩下150425個關鍵詞.在抽取關鍵詞時,對以下情況進行了預處理.例如,對括號的處理,有些關鍵詞是一些縮寫,作者標引的時候習慣將其含義放在括號中,或者反過來將縮寫放在括號中,以下兩種標引都是常見的:CRM(客戶關系管理),客戶關系管理(CRM).

14、對于這種情況,需要進行一些標準化處理.具體做法為:將括號內外的詞區分開來,作為兩個獨立的關鍵詞,然后在這兩個關鍵詞之間建立起等價關系,并確定中文關鍵詞為標準詞,替換論文中的關鍵詞.有些情況下,縮寫相同,但是中文卻不一樣.例如,"ABC"這個詞,不同的作者分別應用不同的中文,包括"作業本錢法","作業本錢核算","作業本錢計算","作業本錢","活動本錢法"等.對此,除了要在這些單詞與ABC有一種情況是,中文相同但英文各異,這時只要簡單地丟棄英文就可以了.在150425個詞中,

15、到底哪些可以作為本體新概念的候選詞集合,還需要作進一步的限定.例如,可以關鍵詞出現的現/標注次數應在某個閾值以上,在出現某個閾值以上的關鍵詞中,還應該考慮其出現的位置,這里的位置主要指題名位置.因為標題是標明文章中心內容的簡短語句,一般能夠反位置是選取本體概念候選集合的一個重要指標.本次實驗規定,在150425個候選關鍵詞中,"出現/標注次數>=10",并且"題名出現>=5"的關鍵詞可以進入本體進化概念的候選集合.經統計,符合這一規定,即出標注次數超過1O次并且在題名中出現5次以上的關鍵詞有4328個.由于學科專業領域不同,不

16、同的專業領域其開展速度也不均衡,因此,下一步對低于"出標注次數>=10","題名出現>=5"的關鍵詞也需要經過其他方法或者領域專家再進行甄別.對4328個候選關鍵詞又作了進一步處理:刪除沒有實質意義的詞.一般來講,論文關鍵詞應是反映論文的作者由于沒有掌握關鍵詞選取方法,標注了一些沒有實質檢索意義的詞,如"開展","提高","回憶","反思","前景","初探","兩難","走出去

17、"等,因而需要將這些非關鍵性詞語剔除.刪除屬于其他學科領域的詞(術語,人名,地名等).如"文化建設","案例教學","長株潭","蘇北"等.經過專家篩選,共剔除1351個關鍵詞,能夠作為本體新概念候選集合的詞共2977個.念間的關系,也就是說,怎樣建立進化概念和初始本體概念間的關聯,這是本體進化重要而困難的一步.如前所述,需要制的出現位置,出現頻率,出現形式等的初步分析,提出以下幾個規那么作為發現/建立概念關聯的根本方法:分類概率規那么:某一關鍵詞所屬文獻被類分類目的次數越多,其與本體分類概念的關聯程度也

18、越高.的多個類目中,在這種情況下,可以根據該關鍵詞所屬文獻被類分的頻率進行判斷,選取類分頻率高的類目與本體分類概念的類號進行對應,即可將這一關鍵詞看作是與本體分類概念對應的相關概念,在該進化關鍵詞與本體分類概念之間建立關聯.經統計,在2977個候選關鍵詞中,有2161個詞在其出現的全部次數中(即出現/標注次數>=10并且題名出現>=5),有一半以上出現在(被類分在)同一個二級類目中.因此,從語義上可以判定這些詞與其分類類H/概念(或下屬分類類H/概念)之間具有關聯性.如表1所示.?詞素一致規那么:某一關鍵詞的詞素與本體概念的詞素的相似性越高,兩者的關聯程度也越高.由

19、于漢語的同義詞,準同義詞及近義詞往往具有詞素相似性(1字,2字以至多字),所以可以通過分析關鍵詞與本體主題概念所含詞素的相似程度,選出與本體主題概念相等或相近的主題詞,建立與本體概念等同關系和近義關系的關聯.本次實驗中,由于尚無法從本體詞/候選關鍵詞中準確地別離出詞素來,所以僅考慮"包含"這種關系,也就是本體詞作為某個候選關鍵詞的子串,或者候選關鍵詞是某個本體詞的子串這種情況.在此根底上計算指數:2min(IsI,ItI)/大于一定閾值(本次實驗中取0,7).?9?現代圖書情報技術?2007年第3期數字圖書館總第148期例如,候選關鍵詞"可持續經營"和本

20、體概念"持續經營",前者包含后者.在這個例子中,公共子串的字數即概念的字數是4,關鍵詞種計算方法,如果本體概念和關鍵詞完全相同,那么公共子串即關鍵詞和概念的長度全都相同,這樣,所得到的比例值就是1;如果本體概念和關鍵詞沒有重疊的局部,其比例值就是O.因此,這個比例值是一個大于O小于1的數.如果公共子串(也即"被包含詞")占"包含詞"的比例越大,所得到的比例值就越大;如果"包含詞"很長,而"被包含詞"很短,那么其比例值就會比擬小,多數情況下,它們之間的關系相對就較弱了.表1候選關鍵詞所屬論文類分例

21、如全局相對父候選關鍵詞所分類別比例類比例注冊會計師行業F233會計工作組織與制度11預算執行審計F239審計11電信運營企業發F626電信企業組織和經營管理1l生態畜牧業173263畜牧業,飼養業11(注:1)所分類別:即指該關鍵詞出現的總次數中,有4o%以上都出現在該類;Of且關鍵詞出現在該類的次數占出現該類父類的所有子類的次數總和的70%以上.例如,"中小金融機構"出現在"17832"中42次,出現在"1783"及所有子類中共44次(包括17831,17832,17833,17832.1.有符合條件的結果中,同時考慮級別高和全局比

22、例,相對父類的比例,選出最優的結果.2)全局比例:即該關鍵詞出現在所分類目的次數與其所出現的總次數的比值.3)相對父類的比例:即該關鍵詞出現在所分類目的次數,除以出現在該類目的父類所有子類的次數總和.)本次試驗選擇了對應比例值>O.7的"候選關鍵詞一本體概念"系的例如.可以看出,在表2,表3包含/被包含的候選關鍵詞和本體概念之間,可以建立等同關系,近義關系和相關關系的關聯.?10?表2候選關鍵詞與本體概念詞素匹配例如A(候選關鍵詞包含本體概念)候選關鍵詞本體概念概念詞素比例分類號長度值綠色貿易壁壘貿易壁壘r7424O8(注:1)概念分類號:本體概念所對應的中圖

23、法分類號.2)詞素長度:即子串長度,指被包含詞的字數.3)比例值:即按上述方法計算的比例值.)必須說明的是,以關鍵詞和本體概念"包含/被包含"作為詞素一致規那么的方式,不是發現關聯的最正確方式,它會喪失一些有意義的關聯關系,例如:(關鍵詞)附加值(本體概念)高附加值,更為適宜的關聯對應是:(關鍵詞)附加值存在個別對應誤差的現象,例如:(關鍵詞)資金流(本體概念)資能作為輔助發現關鍵詞和本體概念關聯的手段,其關聯的最終確定還需要由專家來完成.關聯度規那么:某一關鍵詞與某一本體概念共現的頻率越高,其關聯程度也越高.一些關鍵詞看起來是相對獨立的詞,可以通過數據挖掘中的頻繁項集發現

24、算法,找出該關鍵詞與本體概念的共現關系.例如,"減持"是在題名中出現頻率較高的詞(39次),經統計,該詞在題名中和"國有股"共現次數最高(42次),所以可與"17830,91證券市場"對應的主題詞"國有股流通"和"國有股"建立關聯.需要指出:(1)由于類分文獻既需要有分類依據(如?中圖法?),也需具備一定的文獻分類知識,而論文作者受其知識和條件所限,使得一些論文類分存在不同程度的隨意性.因此,以上規那么不是絕對的,只是作為建立概念關聯的參考與輔助.例如,關鍵詞出現頻率高的類目與本體概念類目可能存

25、在較低的對應,而關鍵詞出現頻率較低的類目與本體概念類目也可能存?現代圖書情報技術?2007年第3期數字圖書館總第148期在較高對應.因此,為了使概念問的關聯具有準確性,需采用人機結合的方式,在按上述規那么由計算機建立初步關聯后,應由領域專家進行最終評價和確認.(2)從進化的角度看,我們在運用上述規那么的時候,盡量念可以在今后不斷完善本體進化技術的根底上再發現出來.(3)從使用目的看,本體的主要目的是資源的組織和檢索.一些不恰當的本體概念被發現出來,被用于資源組織,問題也不大.從系統管理的角度看,只不過是增加了一些無用的索引而已,不會對檢索的正確性造成影響.經過上述工作后,初步獲得了"

26、經濟學領域本體"的新版本(EOV2.0),新版本共增加本體詞2161個,新增關系2821個,其中分類概念與主題詞之間的關聯關系2161條,等同,近義,相關關系的詞660條.表3候選關鍵詞與本體概念詞素匹例如B(本體概念包含候選關鍵詞)概念詞素比例候選關鍵詞本體概念長度值分類號一(注:各列含義同表2.)4結語領域本體建設是一項復雜的系統工程,不是輕而易舉就能夠構建的,需要腳踏實地進行理論研究與應用試驗.首先,要對領域本體構建的理論,方法與技術進行深入研究,建立公認的核心概念和完整的領域本體構建的理論體系,以及具有適用性,針對性的領域本體構建技術體系.其次,面向某一應用領域進行領域本體系

27、統的構建實驗.在此根底上,總結經驗,尋找規律,將其提升為理性認識,再進一步指導實踐,以促進領域本體的實驗研究更快,更有效地走向應用.本文在對國內外領域本體構建方法及本體進化的研究現狀進行概述的根底上,立足經濟學領域,介紹"經濟領域本體是某一學科領域知識體系的概念集,所以,以反映學科知識概念的分類法/主題詞表為根底構建"經濟學自動或半自動方式獲取進化概念及其與本體概念之間的關聯,是"經濟學領域本體"進化的關鍵,本文提出分類概率規那么,詞素一致規那么和關聯度規那么作為發現/建立概念樣提高進化概念與本體概念關聯的正確度;如何發現具有屬分關系的概念關聯;怎樣在等

28、同,等級,相關關系的根底上增加新的概念關系,以增強領域本體的語義表達能力;怎樣獲取領域本體公理,實現本體推理功能等等,都需要進一步深人研究和試驗.參考文獻:技術,2004(7):17222袁媛.領域本體建設的方法論和工具研究:學位論文.北京:中國人民大學,2004:793NoyNF,McGuinnessDL.OntologyDevelopment101:AGuidetotions/ontologydevelopment/ontology101一noy(AccessedFeb.08,2006)4CorehoO,FernandezLopezM,GomezPerezA.Methodologies,p

29、oint?Data&KnowledgeEngineering,2003,46(1):4164館學,信息科學,資料工作,2005(8):134139作,2005(8):74787王素芳.Ontology與敘詞表的融合初探.大學圖書館,2005(1):75788唐靜.敘詞表轉換為Ontology的研究.情報理論與實踐,2004(6):642645館,2004(3):4144,64識,2OO6(12):828511馬文峰,杜小勇.領域本體進化研究.圖書情報工作,2OO6(6):7174?11.?現代圖書情報技術?2007年第3期數字圖書館總第148期l2杜小勇,李曼,王珊.本體學習綜

30、述.軟件,2006(9):1837一l847guageTexts.Int'lJournalHumanComputerStudies,2004,60(1):1763ECAI2004WorkshoponOntologyLearning.2000. :/o12000.karlsruhe.de/(AccessedMay.30,2006)proachtoAutomaticAcquisitionofDomainRelevantTermsandTheirRelationswithBootstrapping.In:Proc.oftheLREC2002. :/sb.de/feiyu/LRECTermEx

31、traction(AccessedMay.30,2006)tologyLearningandEngineering.IEEEComputer,2002,35(11):6063tems,2003,18(1):2231tomaticExtractionofTerminology.In:Proc.oftheACL'94Workshop"TheBalancingAct:CombiningSymbolicandStatisticalAp-W94-0104.pdf(AccessedJun.3,2006)FOIS.NewYork:ACMPress,2001,270284Bootstrapping.In:Pl'oc.oftheJSCL.Beij

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論