




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1語義web中的本體學習Ontology Learning for the Semantic Web報告人:李 曼2主要內容研究背景研究背景本體的學習本體的學習本體的評價本體的評價相關工作相關工作未來的研究方向未來的研究方向31.研究背景 BernersLee在2000的XML大會上正式提出了語義web。 語義web是對當前web的擴展。語義web上的信息具有定義良好的含義,使得計算機之間以及人類能夠更好的彼此合作。 41.研究背景 語義web采用多層次的表示框架,本體位于從文檔描述到知識推理轉折的層次,具有重要的地位。本體的構建是實現語義web的關鍵環節。51.1 本體 Ontology是共
2、享概念模型的明確的形式化規范說明。 “概念模型概念模型”:指Ontology是通過抽象出客觀世界中一些現象的相關概念而得到的模型。 “明確明確”:指Ontology所使用的概念及概念的約束都有明確的定義。 “形式化形式化”:指Ontology是計算機可讀的(即能被計算機處理)。 “共享共享”:指Ontology中體現的是共同認可的知識,反映的是相關領域中公認的概念集(即Ontology針對的是團體而非個體的共識)。 61.1 本體 Ontology的結構是一個五元組 O:= C, R, Hc,rel,AO C:概念; R:關系; Hc:概念層次,例如HC(C1,C2); rel:概念間的關系,
3、 例如,rel(R)(C1,C2); AO:用某種邏輯語言表示的一組本體公理。C1是C2的子概念C1和C2具有關系R71.2 本體的應用本體的應用語義web 81.2 本體的應用本體的應用問題問題 :XML在處理語義上存在兩個問題在處理語義上存在兩個問題 同義詞; 一詞多義 解決解決:引入本體:引入本體 本體通過對概念和概念間關系的嚴格定義來確定概念的精確含義,表示共同認可的、可共享的知識。 對于本體來說,Author,Creator是同一個概念,而Doctor在大學和醫院分別表示的是兩個概念。因此,在語義web中,本體是解決語義層次上web信息共享和交換的基礎。91.2 本體的應用本體的應用
4、自然語言理解 全面的理解自然語言需要整合大量的知識源。以本體形式表示的領域知識是深入理解文本的基礎。目前在基于本體的信息抽取方面已有一些研究成果。知識管理 知識管理主要是處理一個組織中知識的獲取、維護和訪問。其中,本體可以用于對無結構信息進行語義標注,從而使得信息的整合和訪問更容易。101.2 本體的應用本體的應用電子商務 在電子商務中,交易的自動化要求對商品進行形式化描述,因此,需要一個標準化的詞匯表本體。本體有助于對內容意義的精確、高效通信,同時促使系統的交互式操作、重用和共享等一系列的性能得以提高。111.2 本體的應用本體的應用 從上述應用可以看出,這些應用領域的一個共同需求是共享某個
5、領域內的知識。而提供共享概念模型的明確的形式化規范說明正是本體的主要目標。所以,這些領域的許多難題都能夠通過使用本體來解決。 121.3 本體的構建本體的構建手工手工:費時費力,容易出錯全自動全自動:適用性不強半自動半自動:可行,其核心技術是本體的學習利用知識發現技術從數據源中獲取知識132. 本體學習 2.1 2.1 本體學習周期本體學習周期 2.2 2.2 本體學習框架本體學習框架 2.3 2.3 數據的導入和處理技術數據的導入和處理技術 2.4 2.4 本體學習算法本體學習算法142. 本體學習 2.1 2.1 本體學習周期本體學習周期 2.2 2.2 本體學習框架本體學習框架 2.3
6、2.3 數據的導入和處理技術數據的導入和處理技術 2.4 2.4 本體學習算法本體學習算法152.1 2.1 本體學習周期本體學習周期(導入(導入/ /重用、抽取、修剪和精練)重用、抽取、修剪和精練)162.1 2.1 本體學習周期本體學習周期 導入和重用階段導入和重用階段 該階段可以作為整個本體學習過程的開始。主要步驟:選擇有關的本體,并定義導入策略。例如,定義一個本體包裝器(wrapper),支持從一種本體描述語言轉換為另一種語言。合并導入的概念結構,作為其它階段的基礎。172.1 2.1 本體學習周期本體學習周期 抽取階段抽取階段 利用導入的本體,抽取出新的知識。在這個階段,本體學習技術
7、部分依賴于給定的本體部分,所以,當本體被修訂過一次后又會引起新的抽取結果,這是一個反復增長的模型。182.1 2.1 本體學習周期本體學習周期 修剪階段修剪階段 本體結構的修剪可以使本體適應給定的應用。 該階段需要考慮兩個方面:對本體中某個特殊部分的修剪將如何影響整個本體用戶驅動保留或修剪本體元素的策略 應用驅動192.1 2.1 本體學習周期本體學習周期 精練階段精練階段 利用給定的領域本體,以更細的粒度完善本體 。 精練和抽取具有類似的功能。原則上,同樣的算法既可以用于抽取也可以用于精練。抽取主要用于整個本體(或至少是本體中非常有意義的部分)的建模,而精練是對目標本體的精細的調整。 202
8、.1 2.1 本體學習周期本體學習周期 上述四個階段都可以單獨執行,且某些階段可以被跳過。 例如,導入一個本體,然后根據指定的應用程序數據直接修剪該本體。 212. 本體學習 2.1 2.1 本體學習周期本體學習周期 2.2 2.2 本體學習框架本體學習框架 2.3 2.3 數據的導入和處理技術數據的導入和處理技術 2.4 2.4 本體學習算法本體學習算法222.2 2.2 本體學習框架本體學習框架(TEXT-TO-ONTO)232.2 2.2 本體學習框架本體學習框架輸入數據源輸入數據源本體,一種特殊的數據源。例如,詞匯語義網絡(WordNet,GermaNet),領域本體,詞典(輕量級本體
9、)。SchemaDababase Schema,例如關系數據庫模式Web Schema,例如DTD,XML-Schema242.2 2.2 本體學習框架本體學習框架輸入數據源輸入數據源實例,即數據庫或知識庫中的實例集合,它們是領域概念的外延描述。半結構化數據自然語言文本252.2 2.2 本體學習框架本體學習框架主要的組件主要的組件數據導入和處理組件數據導入和處理組件發現、導入、分析和轉換有關的輸入數據。產生一組預處理數據作為算法庫組件的輸入本體包裝器本體合并器基于本體的文檔爬蟲器自然語言處理系統重要文檔包裝器將字典或一些半結構化文檔轉換為指定格式轉換模塊將自然語言處理后的文檔轉換為指定格式2
10、62.2 2.2 本體學習框架本體學習框架主要的組件主要的組件算法庫組件算法庫組件提供許多本體抽取和本體維護算法。可以采用綜合多策略學習結果的方法,即標準化各種學習算法的結果,然后綜合它們。本體構建和管理環境本體構建和管理環境構建本體(手工)。提供圖形界面,支持導出本體到標準的本體描述語言,如RDF,OWL等。本體學習可以看作是本體構建環境的一個插件。272.2 2.2 本體學習框架本體學習框架主要的組件主要的組件圖形用戶界面和管理組件圖形用戶界面和管理組件本體工程師使用該組件與本體學習組件交互。支持本體工程師選擇相關的數據支持本體工程師選擇參數和本體學習算法提供全面的結果集視圖 282.2
11、2.2 本體學習框架本體學習框架 總之,目標應用是衡量結果本體的尺度。因此,實際的應用數據可以作為本體學習的輸入數據。292. 本體學習 2.1 2.1 本體學習周期本體學習周期 2.2 2.2 本體學習框架本體學習框架 2.3 2.3 數據的導入和處理技術數據的導入和處理技術 2.4 2.4 本體學習算法本體學習算法302.3 2.3 數據的導入和處理技術數據的導入和處理技術數據源數據源本體文檔312.3 2.3 數據的導入和處理技術數據的導入和處理技術本體導入和處理的步驟本體導入和處理的步驟將已有的本體轉換為本體學習框架可以處理的表示形式。若只有一個本體可供導入,則使用本體包裝器本體包裝器
12、將已有的本體描述語言轉換為本體學習框架可以識別形式;若給出了一個以上的本體,需要使用本體合并算法本體合并算法(例如FCA-Merge)將給出的本體合并成一個共同的本體。 322.3 2.3 數據的導入和處理技術數據的導入和處理技術 本體包裝器本體包裝器 (例如:導入(例如:導入WordNetWordNet到到Text-to-OntoText-to-Onto中)中) WordNetWordNet中包含的本體原語中包含的本體原語SynSetSynSet:同義詞集合同義詞集合HypernymHypernym:上位詞集上位詞集HyponymHyponym:下位詞集下位詞集HolonymHolonym:
13、整體詞集整體詞集MeronymMeronym:部分詞集合部分詞集合AntonymAntonym:反義詞集合反義詞集合例如,如果例如,如果X X是一種是一種Y Y,則則Y Y是是X X的上位詞的上位詞, , X X是是Y Y的下位詞的下位詞例如,如果例如,如果X X是是Y Y的一部分,則的一部分,則Y Y是是X X的整體詞,的整體詞,X X是是Y Y的部分詞的部分詞332.3 2.3 數據的導入和處理技術數據的導入和處理技術從從WordNetWordNet到到Text-to-OntoText-to-Onto本體結構本體結構O O的映射的映射WordNetWordNetOntology OOnto
14、logy OSynSetC,LcHyperonym,HyponymHcMeronym,HolonymSAntonymS概念C的同義詞集合存到L中,并映射到概念C上下位關系被直接映射到概念層次Hc整體詞關系被映射到關系名“has-part”,部分詞關系被映射到關系名“part-of”反義詞被映射到關系名“opposite-of”342.3 2.3 數據的導入和處理技術數據的導入和處理技術本體合并算法(本體合并算法(FCA-MergeFCA-Merge)步驟步驟抽取概念的外延描述,計算兩個形式上下文K1和K2。 合并這兩個形式上下文,然后生成一個概念格。基于概念格生成最終的合并過的本體。 352.
15、3 2.3 數據的導入和處理技術數據的導入和處理技術第一步第二步第三步本體本體文檔集本體362.3 2.3 數據的導入和處理技術數據的導入和處理技術 FCA-Merge(第一步):生成兩個形式上下文。 形式上下文是一個三元組K:(G,M,I),其中,G是一組對象的集合;M是一組屬性的集合;I是G和M間的二元關系,即I GM,(g,m)I讀作對象g具有屬性m。 372.3 2.3 數據的導入和處理技術數據的導入和處理技術382.3 2.3 數據的導入和處理技術數據的導入和處理技術 FCA-Merge(第二步):合并上一步生成的兩個形式上下文,生成一個概念格。392.3 2.3 數據的導入和處理技
16、術數據的導入和處理技術合并過的形式上下文文檔名本體1中的概念 本體2中的概念使用TITANTIC算法進行概念聚簇概念格402.3 2.3 數據的導入和處理技術數據的導入和處理技術 FCA-Merge(第三步):從概念格生成新本體412.3 2.3 數據的導入和處理技術數據的導入和處理技術本體1中的Hotel本體2中的Hotel本體2中的Accommodation合并合并合并生成新概念或關系422.3 2.3 數據的導入和處理技術數據的導入和處理技術 FCA-Merge算法小結算法小結 輸入:兩個本體和一個自然語言文檔集 輸出:一個合并過的本體。 對輸入數據有如下要求:文檔集應該和每個源本體都相
17、關。文檔集應該包含源本體中的所有概念。文檔集應該能夠很好的分離概念。432.3 2.3 數據的導入和處理技術數據的導入和處理技術文檔的收集、導入和處理文檔的收集、導入和處理步驟步驟使用一個以本體為中心的文檔爬蟲來搜集網上的相關文檔。使用自然語言處理技術來進行文檔的處理。 使用一個文檔包裝器將半結構化文檔(如領域字典)轉換成本體學習框架可以識別的格式(如RDF格式)。將處理過的文檔轉換為本體學習算法可以識別的格式。 442.3 2.3 數據的導入和處理技術數據的導入和處理技術 總之,將數據轉換為需要的格式是一個復雜的任務,該步驟處理的質量直接影響了下一步算法的生成結果。 452. 本體學習 2.
18、1 2.1 本體學習周期本體學習周期 2.2 2.2 本體學習框架本體學習框架 2.3 2.3 數據的導入和處理技術數據的導入和處理技術 2.4 2.4 本體學習算法本體學習算法46 2.4 2.4 本體學習算法本體學習算法本體抽取算法本體抽取算法 詞條的抽取:(1)計算詞頻 (2)利用字典抽取詞條 分類關系的抽取:(1)使用層次聚類技術(2)使用模式匹配技術(字典) 非分類關系的抽取:使用基于關聯規則的挖掘算法47 2.4 2.4 本體學習算法本體學習算法本體維護算法本體維護算法 本體的修剪(發現和刪除無關的概念)(1)基線修剪(2)相對修剪本體的精練(對本體的精細調整和增量擴展)主要思想是
19、先找出未知的詞條,然后從本體中找出與其相似的概念并提交給用戶,最后由用戶決定該未知詞條的意義。 483.本體的評價目前還沒有評價標準。常用的評價方法常用的評價方法基于應用的評價,即通過使用本體的應用來評價本體本身。使用同一個標準對兩個本體交叉比較,例如把利用各種學習方法自動生成的本體和手工生成的本體相比較。493.本體的評價比較兩個本體的方法:比較兩個本體的方法:精度(precision)和召回率(recall)詞匯級的比較 概念級的比較 503.本體的評價精度precisionOL = 召回率recallOL = 其中,Ref是參照本體中元素的集合,Comp是比較本體中元素的集合。 |CompRefComp|RefRefComp學習生成的本體手工生成的本體513.本體的評價 詞匯級的比較詞匯級的比較 該方法基于編輯距離編輯距離(edit distance)串相似度: SM(Li,Lj):max(0, ) 0,1 |)| |,(|LjLimined(Li,Lj)Lj|)min(|Li|,|從一個串轉換到另一個串所需要的最少操作步驟例如ed(“TopHo
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 酒店營銷經理勞動合同范本
- 肇慶市實驗中學高三生物三四五高效課堂教學設計:自由組合定律專題
- 西南財經大學天府學院《基本體操(1)》2023-2024學年第一學期期末試卷
- 四川省廣安市代市中學2025屆初三下學期教學質量檢測試題模擬考試數學試題含解析
- 山東建筑大學《文學與大眾文化》2023-2024學年第二學期期末試卷
- 山西工程技術學院《藥物分析Ⅱ》2023-2024學年第一學期期末試卷
- 上海外國語大學《語言與社會》2023-2024學年第二學期期末試卷
- 江西工商職業技術學院《數據挖掘與人工智能》2023-2024學年第二學期期末試卷
- 上海市上海民辦張江集團校2024-2025學年中考物理試題原創模擬卷(十)含解析
- 天津仁愛學院《報紙采編實戰訓練》2023-2024學年第二學期期末試卷
- 2024-2025年上海中考英語真題及答案解析
- 中國聯通項目管理系統總體介紹
- 新版MACSV系統手冊
- 智慧養老服務平臺建設投標方案(技術方案)
- 2023年貴陽市招考派遣至貴州高級人民法院書記員筆試參考題庫(共500題)答案詳解版
- 國有企業知識產權管理
- 心理健康教育課件《高三學生心理輔導之跨越高原期》
- 電梯維保服務投標方案
- 《傳統紋樣》課程標準
- 人教版八年級生物下冊期中試卷(含答案)
- C語言程序設計說課(共34張PPT)
評論
0/150
提交評論