




下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、本體理念的信息檢索方案查詢(xún)與應(yīng)用初探摘 要:信息檢索是指根據(jù)用戶(hù)的需求,從已有的檢索工具或數(shù)據(jù)庫(kù)中查找所需信息的過(guò)程。本體作為一種客觀(guān)描繪,有著良好的概念層次構(gòu)造,可以利用公理對(duì)概念及概念間關(guān)系進(jìn)展推理,從而明確各種關(guān)系,建立知識(shí)間的概念模型。本體理念的信息檢索可對(duì)信息源進(jìn)展語(yǔ)義標(biāo)引,進(jìn)步查全率和查準(zhǔn)率,幫助用戶(hù)準(zhǔn)確的找到真正需要的信息。本文將從本體的根本概念出發(fā),對(duì)本體理念在信息檢索中的應(yīng)用進(jìn)展初步探析,建立基于本體的信息檢索系統(tǒng),進(jìn)步信息檢索效率。關(guān)鍵詞:本體;信息檢索;信息檢索系統(tǒng)中圖分類(lèi)號(hào):TP393.08隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的不斷進(jìn)步和開(kāi)展,互聯(lián)網(wǎng)進(jìn)入了人們生活的各個(gè)領(lǐng)域,檢索方
2、式也由原來(lái)的脫機(jī)檢索、聯(lián)機(jī)檢索開(kāi)展為今天的網(wǎng)絡(luò)檢索。然而,網(wǎng)絡(luò)檢索給人們帶來(lái)方便的同時(shí),也給信息檢索帶來(lái)了費(fèi)事。信息檢索是指根據(jù)用戶(hù)的需求,從已有的檢索工具或數(shù)據(jù)庫(kù)中查找所需信息的過(guò)程,如何快速、準(zhǔn)確地檢索到用戶(hù)所需要的信息是信息檢索面臨的問(wèn)題。因此,進(jìn)步檢索效率,進(jìn)步查全率、查準(zhǔn)率,討論新的檢索形式是信息檢索開(kāi)展的必然趨勢(shì)。本體理念有著良好的概念層次構(gòu)造,是近幾年學(xué)術(shù)研究的熱點(diǎn),它的應(yīng)用和推廣必然推動(dòng)信息檢索的開(kāi)展。1 本體的根本概念本體作為一種信息表達(dá)形式,有著良好的概念層次構(gòu)造,具有較強(qiáng)的表達(dá)才能。本體對(duì)邏輯推理的支持可以更好地表達(dá)概念之間的關(guān)系,使得信息具有一定的層次構(gòu)造。1.1 本體
3、的概念。本體是指對(duì)客觀(guān)存在物體的一種系統(tǒng)地描繪,它并不是詳細(xì)指某個(gè)人描繪該事物使用的詳細(xì)語(yǔ)言,而是將計(jì)算機(jī)的表達(dá)方式和人類(lèi)的表達(dá)方式統(tǒng)一。Gruber認(rèn)為:本體就是指給出構(gòu)成相關(guān)領(lǐng)域詞匯的根本術(shù)語(yǔ)和關(guān)系,以及利用這些術(shù)語(yǔ)和關(guān)系構(gòu)成的規(guī)定這些詞匯外延的規(guī)那么。Borst Pim那么認(rèn)為:本體是概念模型的標(biāo)準(zhǔn)說(shuō)明。Studer認(rèn)為:本體是指共享概念模型的形式化標(biāo)準(zhǔn)說(shuō)明。第一,概念模型。所謂概念模型,是將客觀(guān)世界中一些現(xiàn)象抽象為形同概念而得到得到的,獨(dú)立于詳細(xì)的環(huán)境。第二,形式化。指本體是計(jì)算機(jī)可讀的。第三,共享。共享指本體是針對(duì)團(tuán)體所達(dá)成的共同認(rèn)可的知識(shí)。1.3 本體的分類(lèi)。本體按照其研究范圍的分
4、類(lèi)標(biāo)準(zhǔn)進(jìn)展分類(lèi),可以分為通用本體和領(lǐng)域本體。通用本體是指研究通用的概念、通用屬性,如空間、時(shí)間等等,并不局限在特定的領(lǐng)域。構(gòu)建通用本體的過(guò)程與構(gòu)造詞典相似,目前常用的通用本體有Wordnet 和 Hownet。領(lǐng)域本體是指描繪詳細(xì)領(lǐng)域知識(shí)的概念和屬性,描繪某個(gè)領(lǐng)域的知識(shí)。目前,領(lǐng)域本體比較匱乏,相對(duì)成熟的是生物學(xué)本體、醫(yī)學(xué)本體。領(lǐng)域本體庫(kù)的構(gòu)建需要領(lǐng)域?qū)<业膮⑴c,并且要與共同到達(dá)的學(xué)術(shù)一致。1.4 本體的構(gòu)建方法。根據(jù)目前認(rèn)可度較高的Gruber提出的本體構(gòu)建規(guī)那么,學(xué)界提出了多種構(gòu)建方法。認(rèn)可度最高的是斯坦福大學(xué)醫(yī)院開(kāi)發(fā)的七步法:確定專(zhuān)業(yè)領(lǐng)域范圍;考察現(xiàn)有本體尋找復(fù)用時(shí)機(jī);列出該領(lǐng)域的術(shù)語(yǔ);
5、對(duì)該領(lǐng)域事務(wù)進(jìn)展分類(lèi);定義類(lèi)的屬性、類(lèi)與類(lèi)之間的關(guān)系;定義屬性的分娩;創(chuàng)立屬于該類(lèi)的實(shí)例。1.5 本體描繪語(yǔ)言。本體描繪語(yǔ)言隨著網(wǎng)絡(luò)開(kāi)展而開(kāi)展,并且具備多種功能使得本體在不同系統(tǒng)之間互操作。本體描繪語(yǔ)言需要提供機(jī)器可讀的形式,可以實(shí)現(xiàn)自然語(yǔ)言與機(jī)器表達(dá)形式的轉(zhuǎn)化。目前,常用的本體描繪語(yǔ)言主要有RDF、OWL,本文介紹RDF模型,以下是對(duì)這種語(yǔ)言的詳細(xì)介紹。RDF包括3種實(shí)體:資源和實(shí)體、屬性、聲明。資源和實(shí)體是對(duì)資源進(jìn)展標(biāo)識(shí);屬性是對(duì)資源的各個(gè)方面進(jìn)展定義,如特征等;聲明是指對(duì)已經(jīng)被命名的屬性且被賦值的特定資源,即RDF聲明。RDF模型的描繪方式通常有以下幾種方式:簡(jiǎn)化三元組方式,用尖括號(hào)將三
6、元組的主語(yǔ)、位于、賓語(yǔ)隔離;RDF模型圖方式,是以圖形的方式將三元組描繪的聲明表現(xiàn)出來(lái),資源、字符串節(jié)點(diǎn)、屬性分別用橢圓、方框、連線(xiàn)來(lái)表示;RDF/XML方式,這種表達(dá)方式是按照RDF/XML語(yǔ)法和編碼規(guī)那么描繪RDF模型,并將這種模型存放在計(jì)算機(jī)中。2 基于本體的信息檢索系統(tǒng)隨著互聯(lián)網(wǎng)技術(shù)的開(kāi)展,傳統(tǒng)的信息檢索已無(wú)法滿(mǎn)足人們的需求。傳統(tǒng)的信息檢索主要采用構(gòu)造化信息表示方式,要求有較高的查準(zhǔn)率。但是,傳統(tǒng)的信息檢索存在一定局限性,如文檔的添加較為復(fù)雜,增加了工作人員的工作量;構(gòu)造化信息表達(dá)形式限制了用戶(hù)的輸入,只能輸入與數(shù)據(jù)庫(kù)一致的信息才能得到檢索結(jié)果,而非構(gòu)造化信息表達(dá)形式在一定程度上放寬了
7、用戶(hù)的輸入限制,采用關(guān)鍵字匹配的方式,但是不能滿(mǎn)足語(yǔ)義檢索的要求,因此,不能進(jìn)步查全率,出現(xiàn)漏檢的情況。基于本體的信息檢索系統(tǒng)可以主動(dòng)理解用戶(hù)要求,通過(guò)邏輯推理后進(jìn)展檢索。同時(shí),本體理念的信息檢索系統(tǒng)可以將計(jì)算機(jī)的表達(dá)方式與人類(lèi)的表達(dá)方式統(tǒng)一,實(shí)現(xiàn)計(jì)算機(jī)與人類(lèi)的同語(yǔ)言交流。基于本體的信息檢索包含以下幾個(gè)模塊:文檔預(yù)處理操作、構(gòu)建索引、擴(kuò)展合并用戶(hù)查詢(xún)?cè)~、構(gòu)造檢索模型、排序算法。文檔預(yù)處理操作是指利用分詞技術(shù)將大段文字分割成詞語(yǔ),經(jīng)過(guò)詞法分析后,刪除沒(méi)有語(yǔ)義的詞匯,減少文檔的冗余。利用倒排文檔可將索引與原文檔相連,檢索詞作為索引大大進(jìn)步了檢索效率。用戶(hù)輸入檢索詞后,系統(tǒng)需要通過(guò)一定的預(yù)處理、或者
8、是通過(guò)查詢(xún)處理算法,擴(kuò)展合并查詢(xún)?cè)~,推理用戶(hù)的檢索需求,從而進(jìn)步查準(zhǔn)率。構(gòu)造檢索模型可以迅速匹配用戶(hù)查詢(xún)的相關(guān)信息,進(jìn)步檢索效率。排序算法是指利用某種算法將與檢索詞相關(guān)性最強(qiáng)的檢索結(jié)果放在前面,讓用戶(hù)先看到想要的結(jié)果。為了進(jìn)步檢索的查全率、查準(zhǔn)率,基于本體的信息檢索系統(tǒng)還可以提供多類(lèi)型的檢索形式,本體檢索作為根底檢索,關(guān)系檢索和屬性檢索為用戶(hù)提供高級(jí)檢索,為用戶(hù)提供知識(shí)間的聯(lián)絡(luò),假設(shè)用戶(hù)需要個(gè)性化效勞,還可以提供回溯檢索。本體理念的信息檢索系統(tǒng)可以將關(guān)鍵詞進(jìn)展概念匹配,用戶(hù)在不具備專(zhuān)業(yè)檢索技能的情況下,也能迅速并準(zhǔn)確的檢索到所需要的的信息,給用戶(hù)帶來(lái)全新的極富人性化的體驗(yàn)。3 完畢語(yǔ)基于本體的信息檢索需要構(gòu)建本體領(lǐng)域知識(shí)庫(kù),以本體的相關(guān)理論為根底。由于理論的復(fù)雜性和技術(shù)難關(guān)等原因,目前國(guó)內(nèi)外還沒(méi)有對(duì)本體信息檢索系統(tǒng)進(jìn)展大規(guī)模應(yīng)用。本體知識(shí)庫(kù)雖然在技術(shù)上較為先進(jìn),但是就目前的開(kāi)展程度來(lái)看,本體信息檢索只能停留在研究的初期,還有許多技術(shù)難關(guān)要攻克。如何構(gòu)建本體知識(shí)庫(kù)、充分利用本體表示形式帶來(lái)的優(yōu)勢(shì)仍有待進(jìn)一步研究,使用本體直接進(jìn)展匹配,將文檔進(jìn)展本體化,實(shí)現(xiàn)文檔的自動(dòng)標(biāo)引,提供以自然語(yǔ)言為主的概念檢索和關(guān)系檢索形式,提供更人性化的效勞。總之,基于本體的信息檢索,可以同時(shí)進(jìn)步查全率和查準(zhǔn)率,進(jìn)步檢索效率。本文的觀(guān)點(diǎn)仍有不成熟之處,希望諸位同仁對(duì)本體信息檢索系統(tǒng)形
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025中國(guó)銀行外匯商業(yè)房抵押貸款合同中國(guó)銀行抵押貸款
- 2025授權(quán)專(zhuān)賣(mài)店特許合同范本
- 2025設(shè)備租賃合同欠款爭(zhēng)議解決
- 2025專(zhuān)利使用許可專(zhuān)用合同范本
- 《2025年度企業(yè)雇傭合同》
- 2025年標(biāo)準(zhǔn)管理資金信托合同模板
- 2025企業(yè)臨時(shí)工勞動(dòng)合同樣本示范
- 2025租賃合同格式
- 2025網(wǎng)絡(luò)安全等級(jí)保護(hù)測(cè)評(píng)服務(wù)合同
- 2025合同違約不及時(shí)履行將產(chǎn)生保函責(zé)任
- 人教版(2024)七年級(jí)下冊(cè)英語(yǔ)期中質(zhì)量檢測(cè)試卷(含答案)
- 針刺傷預(yù)防與處理(中華護(hù)理學(xué)會(huì)團(tuán)體標(biāo)準(zhǔn))
- 2024年度《安全教育家長(zhǎng)會(huì)》課件
- 安全生產(chǎn)法律法規(guī)知識(shí)培訓(xùn)課件
- 地鐵安檢專(zhuān)業(yè)知識(shí)培訓(xùn)課件
- 2024年國(guó)家國(guó)防科技工業(yè)局軍工項(xiàng)目審核中心招聘筆試參考題庫(kù)附帶答案詳解
- 三寶證盟薦亡往生功德文疏
- YY∕T 1849-2022 重組膠原蛋白
- 行政管理工作流程優(yōu)化方案
- 鼓式制動(dòng)器畢業(yè)設(shè)計(jì)
- 醫(yī)院內(nèi)部醫(yī)療廢物收集運(yùn)送流程圖
評(píng)論
0/150
提交評(píng)論