




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、78基金項目Vol .52,No .4,April ,2008LIBRARYANDINFORMATIONSERVICE錢智勇南通大學圖書館南通226016摘要以基于本體的張謇研究知識庫智能檢索系統開發為例,探討基于本體的專題領域知識庫智能檢索系統的框架結構、工作流程以及功能實現。系統采用語義Web 技術和智能Agent 技術,使用RDF 模型對知識庫的Web 頁面元數據進行描述,然后利用本體建模語言對張謇研究領域知識進行建模,根據所得到的本體對元數據進行基于語義的查詢,為用戶提供智能檢索服務。關鍵詞本體知識檢索智能檢索知識庫分類號G250.6ResearchonIntelligentRetri
2、evalSystemofOntology-basedKnowledgeDatabaseTaking Zhang Jians Research on the Realization of knowledge Database Retrieval System as an ExampleQianZhiyongThe library of the Nantong University, Nantong 226016AbstractThispaperdiscussestheframework,workflowandfunctionrealizationofontology-basedintellige
3、ntknowledgeretrievalsysteminthethematicareabasedonthedevelopmentexampleofZhangJians Researchofontology-basedKnowledgedatabaseretrievalsystem.Adopting semanticWebandintelligentagenttechnologies,thesystemdescribeswebpagemetadataofknowledgedatabasewithRDFmodel,modelsthe knowledgeoftheZhangJians Researc
4、hthematicareainontologymodelinglanguage,andthenoffersintelligentretrievalservicestoinquirethe semanticmetadatabasedontheontology.Keywordsontologyknowledgeretrievalintelligentretrievalknowledgedatabase基于本體的專題知識庫智能檢索系統研究*以張謇研究知識庫檢索系統實現為例*本文系江蘇省教育廳社科基金資助項目“張謇研究本體知識庫組織與實現”(項目編號:05SJB870003研究成果之一。收稿日期:20
5、07-08-27修回日期:2007-10-18本文起止頁碼:78-80,141本文責任編輯:郭屹1引言從本體論的基本概念出發,哲學上把本體論定義為”對世界上客觀事物所進行的系統描述”。將本體論引入信息科學,本體論是對概念化對象的一種表示和描述,在計算機領域是指定義元數據及其相關關系的“規范”1。由于本體具有良好的概念層次結構和邏輯推理的支持,因而在信息檢索,特別是在基于知識的檢索中得到了廣泛的應用。知識檢索也稱語義檢索,是把信息檢索與人工智能技術、自然語言技術相結合的檢索,它從語義理解的角度分析信息對象與檢索者的檢索請求,是一種基于概念及其相關關系的檢索匹配機制2。知識庫是事實、規則和概念的集
6、合,從存儲知識的角度來看,以描述型方法來存儲和管理知識的機構叫做知識庫。張謇是中國近代著名實業家、教育家,他是清末最后一位狀元,曾任民國政府實業總長,是一位探索強國之路的開路先鋒。他倡導實業救國的思想,在經濟、教育、文化、城市建設、社會保障、地方自治等諸多領域創造了十多項全國第一,他創建了中國近代第一城南通(中國人自主規劃建設的第一座近代城市,研究張謇對于今天的城市經濟、教育、文化協調發展,實現科學可持續發展具有重要意義。張謇研究知識庫對張謇研究知識沉淀(包括南通大學檔案館、圖書館和博物館的張謇研究原始資料進行數字化語義處理并在張謇研究領域專家的指導下進行概念分類標注,組織到知識庫中,形成張謇
7、研究領域概念集,組織存儲并實現Web 服務功能3。2基于本體論的張謇研究領域知識庫智能檢索系統功能需求實現對世界各地張謇研究領域用戶的查詢請求分析本地表達化,使得要查詢的概念不存在模糊不清的地方,具體表現在用戶向系統提出查詢請求后,系統能將查詢請求中基金項目圖書情報工作第52卷第4期2008年4月的本體取出來,然后進行基于本體的語義搜索。系統應能對用戶如何更好地利用已建成的張謇研究本體知識庫中的知識給予搜索提示,幫助用戶更好地使用本體進行查詢。系統應能找出查詢本體中隱含的語義,實現智能檢索,即系統能根據用戶的檢索條件,進行智能語義推理,可檢索出與檢索條件具有相同語義信息的知識。3基于本體論的領
8、域知識庫智能檢索系統結構和工作流程3.1基于本體論的領域知識庫智能檢索系統結構基于知識庫的語義Web環境下,知識庫的信息資源已進行了語義標注。在此環境下,本系統應完成的任務是:自動抽取關于領域知識內容描述的元數據,并將這些元數據進行存儲;對用戶提交的關鍵詞進行語義匹配和語義相關性擴展,形成符合特定Ontology語言的查詢語句;通過對數據庫中存儲的領域知識庫元數據信息的查詢,得到高效的基于語義的領域知識檢索結果。上述任務可劃分為元數據收集、數據預處理、元數據存儲、基于Ontology的知識推理和用戶查詢、控制調度等6個主要功能。本文將整個系統框架劃分為6個部分,每個部分的功能由一類Agent實
9、現,這6類Agent通過協同工作,共同完成整個檢索任務。本系統的總體結構如圖1所示4:領域知識內容的元數據(包括知識庫存儲的描述內容信息和帶描述信息的頁面WEB信息進行信息提取和過濾,把收集到的元數據經過預處理Agent進行處理后交由存儲Agent;存儲Agent接收語義元數據,將這些元數據以合適的方式存儲到數據庫中,數據庫既可以是傳統的關系數據庫,也可以是專用的X M L/R D F數據庫;利用描述領域知識的領域本體,由推理Agent對張謇研究用戶提交的查詢關鍵詞進行語義匹配和語義相關性擴展,將得到的基于張謇研究領域本體的查詢要求交由查詢Agent執行;由查詢Agent接受推理Agent產生
10、的針對Ontology的查詢要求,對存儲元數據的數據庫采用基于知識的方式進行查詢,并將滿足用戶條件的結果返回給用戶5。領域用戶的查詢過程如下:提交檢索請求。界面Agent接收用戶提交的檢索請求,主動細化檢索請求,并把細化后的結果交給預處理Agent。規范化檢索信息。預處理Agent接收到檢索請求任務后,首先利用任務中關注領域、關鍵詞、摘要等信息,到所有用戶共有的知識庫中查找利用相同領域,類似關鍵詞作為搜索條件的搜索案例。若在知識庫中沒有檢索到所需案例,預處理Agent提交本體庫,借助于本體知識,從中找出出現該關鍵字的各個領域以及在該領域下的關鍵字的含義。預處理Agent把搜索到的或者是經過本體
11、規范的信息提交給查詢界面,界面與用戶交互,把用戶根據自己意圖選擇的信息再次反饋給預處理Agent,預處理Agent再把信息提交給查詢Agent。為了保持系統的一致性與協調性,實現對知識庫的智能管理、控制和調度,控制調度Agent作為智能檢索系統的“司令部”,將在系統中起核心作用。控制調度Agent的工作過程是:保存各Agent的名稱、通信地址、能力等狀態信息;接受檢索任務,在多Agent之間進行任務分配;協調整個系統的通信;接收檢索結果,將其反饋給預處理Agent;定期派遣信息收集Agent到遠端信息源上收集信息,更新本地信息庫和遠端信息在本地的索引庫。3.3基于本體論的領域知識庫智能檢索系統
12、功能實現系統采用了語義Web技術和智能Agent技術,使用RDF 模型對知識庫的Web頁面元數據進行描述,然后利用Ontol-ogy建模語言對領域知識進行建模,根據所得到的Ontology對元數據進行基于語義的查詢,為用戶提供智能化的檢索服務。系統中除了多個Agent以外,還設置了領域知識庫、領域本體庫、本地信息庫、遠端信息在本地索引庫以及臨時文檔庫來存儲相關信息。領域知識庫除了存儲張謇研究數字化語義Web資源還存儲張謇研究領域用戶ID、mail等個人信息、搜索案例(用戶ID、搜索ID、屬于的領域、關鍵字、返回的數據等、用戶偏好等;領域本體庫存儲張謇研究領域集、張謇研究關鍵字集以及張謇研究本體
13、的相關知識等;本地信息庫和遠端信息在本地的索引庫主要存儲遠端搜索Agent帶回的,并經過信息處理Agent處理過的搜索信息;臨時文檔庫存儲遠端搜索Agent從遠端數據源搜索到的相關信息。3.2基于本體論的領域知識庫智能檢索系統工作流程通過信息搜索Agent,對張謇研究知識庫中描述張謇研究圖1張謇研究領域知識庫智能檢索系統框架體系結構7980基金項目Vol .52,No .4,April ,2008LIBRARYANDINFORMATIONSERVICE文件的鏈接,以供軟件Agent或應用程序讀取。信息收集Agent 按照設定的搜索策略訪問知識庫以及語義萬維網環境下的網頁,它不僅可以自動過濾知識
14、庫網頁內容,采取某種策略來提取其中的元數據描述信息,還可以從一個知識庫頁面跨越到另一個頁面,自動沿著超文本的鏈接,遵循超文本傳輸協議(HTTP在知識庫頁面上進行“爬行”,確認知識庫頁面之間的鏈接是否有效,刪除已經名存實亡的鏈接。RDF數據庫;關系數據庫。對于少量的數據,XML/RDF文件形式的存儲是可行的,但是對于大量的事實數據,考慮到可擴展性、查詢方式、效率等諸多因素,以RDF 數據庫或者關系數據庫來存儲RDF 事實數據是一種比較好的選擇。關系數據庫是目前數據庫應用的主流,用關系數據庫存儲RDF 數據,可以有效地利用現有的數據庫資源。但是由于關系數據庫缺乏所必須的語義要求,所以必須首先把RD
15、F的數據模型轉化為關系模型,這就要求能夠對RDF 數據進行解析,根據RDF 模型的特點設計專門的數據庫模式,實現從RDF模型到數據庫模式的映射。在RDF模型中,聲明是對一個事實的基本描述,也是RDF 模型中的最小有效數據單元,所以存儲聲明的表是數據庫模式中最重要的部分,其結構如表1所示:要有被檢索信息的元數據信息,也要具有對被檢索內容的智能推理能力。系統中推理Agent 的核心是智能推理引擎,它能夠根據已有的特定領域的本體對用戶所輸入的關鍵詞進行基于語義的智能推理。推理包括語義匹配和語義相關性擴展,推理引擎應能夠根據領域本體中對各個概念的定義而推理出這個關鍵詞在查詢中的精確語義,并推理出與此詞
16、語義相關的詞語和概念。推理Agent 通過調用Jena 中的OntologyAPI,根據Ontology 對用戶輸入的關鍵詞進行基于語義的推理。推理分為兩種:關鍵詞的語義匹配和相關性擴展。語義匹配的作用是對用戶所輸入的關鍵詞進行語義的分析,推理Agent根據Ontology 可以判斷此關鍵詞的精確語義,從多個可能的語義選項中選擇出最符合用戶要求的那一種7。針對具有一詞多義的詞條,語義匹配提高了檢索結果的精確性。傳統的收集引擎只是根據單純的關鍵詞匹配來檢索結果,并不能區分同一詞條的不同含義,而在本文所提出的檢索框架中,Ontology 對同一個詞的幾個不同語義都進行了精確的定義,每一個語義都對應
17、于一個獨一無二的URI,因此如果推理Agent 參考了Ontology,就可以根據上下文來選擇出符合用戶要求的語義。相關性擴展的作用在于獲得與該詞相關的其他詞,因為在Ontology 中定義了眾多的與此詞條相關的其它概念,所以根據Ontology 中所定義的知識,還可以獲取更多的與此關鍵詞語義關聯的詞,例如,通過subclass 關系,推理Agent就能夠找到該概念的一個子概念,盡管該子概念不在關鍵詞列表中,推理Agent 根據Ontology也會把它找到并返回給用戶。推理Agent最后會將語義匹配和相關性擴展所得到的結果封裝起來ACLMessage對象的形式交給查詢Agent,由查詢Agen
18、t根據這些推理結果對存儲有描述知識庫Web 數據內容的RDF 數據庫進行查詢。表1存儲三元組的RDFSatemens由于RDF是一種以XML語法為基礎的建模語言,所以從某種意義上可以說RDF數據是一種特殊的XML數據。實際上,XML文檔可以分成兩大類:以數據為中心或者以文檔為中心。以數據為中心的文檔有非常規則的結構,以文檔為中心的文檔具有不規則的結構,而且數據顆粒度也比較大。根據RDF數據模型的特點,RDF數據可以看作以數據為中心的XML文檔。基于RDF數據模型的特點,對于RDF數據的存儲最好由中間件(middleware來實現。中間件所需完成的XML 文檔與數據庫之間的轉換功能是通過文檔與數
19、據庫之間的映射來實現的,實現過程共分為3步:編寫一個映射文件、編寫過濾器和動作文件、編寫Java代碼。(下轉第141頁Colummname Type Comments Subject I d -r e f -Predicate I d -r e f -Object I d -r e f -Object_isliteralSmalllintFlagswhether“ob-ject”isinliteralor resourcet ableModel I d -r e f -i s r e i f i e dsmllintFlagswhetherthis statementisreified141評
20、論論壇圖書情報工作第52卷第4期2008年4月作者簡介劉景宇,女,1978年生,助理館員,發表論文13篇。更豐富、更生動、更有趣,更新更迅速,通過網絡閱讀更便捷等特點,更容易吸引讀者,久而久之,許多人逐漸將它當作了自己專業知識和信息的唯一來源,忽視了那些未在圖書館學個人博客中出現的信息、知識和研究領域。筆者將這種每天將大量時間和精力花費在閱讀博客上,將博客作為自己知識和信息的主要固定來源的現象稱為“博客依賴”。這種“博客依賴”現象在自我約束意識和自我控制能力相對較弱的廣大圖書館學本科生和研究生當中更容易產生。博客作為一種內容和表達都非常具有個性化色彩的網絡交流方式,包含的知識和信息往往是零散的
21、、非正式的、不成熟的。對圖書館學這門學科進行全面了解和深入研究,必須花費大量時間對理論著作和學術論文進行系統全面地閱讀和研究。這種“博客依賴”現象容易造成博客關注者沒有堅實的圖書館學理論知識基礎,對圖書館學的學習、思考和研究往往受到圖書館學個人博客信息熱點的影響和牽制,容易導致自己的學術研究不全面不系統不深入,最終可能影響圖書館學的整體研究水平和學科體系,對學科的深入發展產生不利影響。4結語綜上所述,我國內地圖書館學個人博客對圖書館學的影響有積極的,也有消極的。從總體上看,積極影響是占主要地位的。我們應該認清積極和消極兩方面的各種影響,對積極的要努力弘揚,對消極影響也可以采用一些相應措施來進行
22、克服、消除或淡化。總的來說,我國內地圖書館學個人博客已經成為圖書館學進行學術交流、促進學科發展的一個有利平臺,如果我們發揮好它的作用,將為圖書館學發展帶來新的生機與活力,成為我國圖書館學發展的又一次良機。參考文獻:25,38.30-31.80-84.6何江.Blog與高校本科教學相整合的設計與實踐學位論文.長春:東北師范大學,2006:19-21.7王敬穩,陳春英,曹彩英,等.“博客”現象及其對圖書館的啟示.情報雜志,2003(4:90-91.8老槐.博客中的精美圖書館照片.2006-12-27.http:/oldhuai.5284580.html.參考文獻:1付燕寧,金龍飛,王開鋒,等.基于本體的信息檢索系統的設計與實現.計算機應用研究,2006(11:155-157.2聶卉,龍朝暉.語義推理技術在智能檢索系統中的應用研究.情報學報,2006(5:356-360.3錢智勇.基于本體的專題域知識庫系統設計與實現以張謇研究專題知識庫系統實現為例.情報理論與實踐,2006(4:476-479.4王平,朱艷輝,周詠梅.多Agent 中文Web 信息自動檢索系統研究.計算機工程與應用,2006(S1:88-91.5WilliamsAB.Theroleofmultiagentlearninginontology-basedknowledgemanagement.AAA
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教育小孩拒絕偷竊行為-教室演講
- 哈林花式籃球項目介紹
- 房地產項目投資策劃營銷
- 廈門工學院《Unty游戲開發》2023-2024學年第二學期期末試卷
- 遺傳病防范知識培訓課件
- 成都農業科技職業學院《最優化方法(專業大類)》2023-2024學年第一學期期末試卷
- 2025年河南省許昌市初三下學期段考(第二次月考)化學試題含解析
- 燕山大學《對話經典》2023-2024學年第二學期期末試卷
- 廣東省東莞市智升校2025年初三下學期期初聯考化學試題含解析
- 內科護理慢性阻塞性肺疾病
- 2025年北京市房山區高三一模政治試卷(含答案)
- 2025 年深入貫徹中央八項規定精神學習教育實施方案
- 《Python程序設計》全套教學課件
- 2025年空壓機行業發展戰略研究及投資潛力預測評估報告
- 2024年廣東惠州仲愷高新區招聘中學教師筆試真題
- 馬化騰的創業故事
- 院科兩級人員緊急替代程序與替代方案
- 高中主題班會 心懷感恩志存高遠課件-高一上學期感恩教育主題班會
- 2024年晉城市城區城市建設投資經營有限公司招聘考試真題
- 社工證筆試題庫及答案
- 2025年湖北省初中學業水平考試數學模擬卷(二)(原卷版+解析版)
評論
0/150
提交評論