信息檢索第五章_第1頁(yè)
信息檢索第五章_第2頁(yè)
信息檢索第五章_第3頁(yè)
信息檢索第五章_第4頁(yè)
信息檢索第五章_第5頁(yè)
已閱讀5頁(yè),還剩22頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、信息檢索第五章計(jì)算機(jī)信息檢索的含義和類(lèi)計(jì)算機(jī)信息檢索的含義和類(lèi) 型型 計(jì)算機(jī)信息檢索的特點(diǎn)計(jì)算機(jī)信息檢索的特點(diǎn) 計(jì)算機(jī)信息檢索策略計(jì)算機(jī)信息檢索策略 提高計(jì)算機(jī)信息檢索效率的方法提高計(jì)算機(jī)信息檢索效率的方法 計(jì)算機(jī)檢索技術(shù)計(jì)算機(jī)檢索技術(shù) 本章要點(diǎn)本章要點(diǎn) 計(jì)算機(jī)信息檢索是隨著計(jì)算機(jī)的出現(xiàn)而發(fā)展起來(lái)的。計(jì)算機(jī)檢索經(jīng)歷了脫機(jī)檢索、聯(lián)機(jī)檢索、光盤(pán)檢索及網(wǎng)絡(luò)信息檢索等階段。計(jì)算機(jī)檢索以其檢索效率高、檢索效果好而在信息檢索中得到了廣泛的使用。第5章 計(jì)算機(jī)檢索概述5.1.1 5.1.1 計(jì)算機(jī)信息檢索的含義計(jì)算機(jī)信息檢索的含義計(jì)算機(jī)信息檢索指人們根據(jù)特定的信息需求,按照一定的方法,利用計(jì)算機(jī)從相關(guān)的信息

2、檢索系統(tǒng)中識(shí)別并獲取所需的信息。計(jì)算機(jī)信息檢索的過(guò)程包括信息存儲(chǔ)過(guò)程和信息檢索過(guò)程,其本質(zhì)是信息用戶的提問(wèn)標(biāo)識(shí)和信息集合數(shù)據(jù)庫(kù)特征標(biāo)識(shí)匹配的過(guò)程。5.1 5.1 計(jì)算機(jī)信息檢索計(jì)算機(jī)信息檢索的含義和特點(diǎn)的含義和特點(diǎn)第5章 計(jì)算機(jī)檢索概述第5章 計(jì)算機(jī)檢索概述計(jì)算機(jī)信息檢索5.1.2 5.1.2 計(jì)算機(jī)信息檢索發(fā)展簡(jiǎn)史計(jì)算機(jī)信息檢索發(fā)展簡(jiǎn)史計(jì)算機(jī)信息檢索的發(fā)展經(jīng)歷了四個(gè)階段:第5章 計(jì)算機(jī)檢索概述1 1脫機(jī)批處理檢索脫機(jī)批處理檢索2 2聯(lián)機(jī)檢索階段聯(lián)機(jī)檢索階段3 3光盤(pán)檢索階段光盤(pán)檢索階段4 4網(wǎng)絡(luò)化聯(lián)機(jī)檢索階段網(wǎng)絡(luò)化聯(lián)機(jī)檢索階段5.1.3 5.1.3 計(jì)算機(jī)信息檢索的分類(lèi)計(jì)算機(jī)信息檢索的分類(lèi)計(jì)

3、算機(jī)信息檢索包括許多類(lèi)型,依據(jù)不同的劃分標(biāo)準(zhǔn),可以分為不同的類(lèi)型:1. 1. 根據(jù)所檢索數(shù)據(jù)庫(kù)的形式分根據(jù)所檢索數(shù)據(jù)庫(kù)的形式分第5章 計(jì)算機(jī)檢索概述書(shū)目檢索書(shū)目檢索 數(shù)據(jù)檢索數(shù)據(jù)檢索 事實(shí)檢索事實(shí)檢索 全文檢索全文檢索 2. 根據(jù)計(jì)算機(jī)檢索服務(wù)方式分根據(jù)計(jì)算機(jī)檢索服務(wù)方式分 第5章 計(jì)算機(jī)檢索概述日常檢索日常檢索 回溯檢索回溯檢索 定題檢索定題檢索 3. 根據(jù)檢索方式分根據(jù)檢索方式分 網(wǎng)絡(luò)檢索網(wǎng)絡(luò)檢索 光盤(pán)檢索光盤(pán)檢索 聯(lián)機(jī)檢索聯(lián)機(jī)檢索 脫機(jī)檢索脫機(jī)檢索 5.1.4 5.1.4 計(jì)算機(jī)信息檢索的特點(diǎn)計(jì)算機(jī)信息檢索的特點(diǎn) 1. 檢索范圍大。 2. 檢索速度快。 3. 檢索功能強(qiáng),組配靈活。 4.

4、 檢索途徑多。 5. 數(shù)據(jù)更新及時(shí),時(shí)效性強(qiáng)。第5章 計(jì)算機(jī)檢索概述6.2.1 6.2.1 檢索策略的含義和作用檢索策略的含義和作用 所謂檢索策略,即在分析檢索課題內(nèi)容實(shí)質(zhì)基礎(chǔ)上,選擇檢索系統(tǒng)、檢索途徑、確定檢索詞及其相互間的邏輯關(guān)系等的信息檢索方案。信息檢索策略的實(shí)質(zhì)是對(duì)檢索過(guò)程的科學(xué)規(guī)劃。其中關(guān)鍵在于構(gòu)造能夠確切表達(dá)信息需求的檢索式。5.2 5.2 計(jì)算機(jī)計(jì)算機(jī)檢索策略檢索策略第5章 計(jì)算機(jī)檢索概述5.2.2 5.2.2 檢索表達(dá)式檢索表達(dá)式檢索表達(dá)式是檢索策略的具體體現(xiàn),簡(jiǎn)稱檢索式。檢索式一般由檢索詞和各種邏輯運(yùn)算符組成,具體來(lái)說(shuō),它將檢索詞之間的邏輯關(guān)系、位置關(guān)系等用檢索系統(tǒng)規(guī)定的各種

5、算符連接起來(lái),成為計(jì)算機(jī)可以識(shí)別和執(zhí)行的命令形式。檢索式構(gòu)造的優(yōu)劣關(guān)系到檢索策略的成敗。檢索表達(dá)式主要有邏輯表達(dá)式、加權(quán)表達(dá)式和其他表達(dá)式。其中,最為常用的是邏輯表達(dá)式。第5章 計(jì)算機(jī)檢索概述5.2.2.1 邏輯表達(dá)式邏輯表達(dá)式是指利用布爾算符,對(duì)檢索詞的關(guān)系進(jìn)行表達(dá),又稱布爾邏輯表達(dá)式。有邏輯與“AND”、邏輯或“OR”、邏輯非“NOT”。第5章 計(jì)算機(jī)檢索概述 5.2.2.2 位置檢索表達(dá)式位置檢索表達(dá)式,也稱鄰近檢索。通過(guò)位置算符來(lái)表示兩個(gè)檢索詞(或短語(yǔ))之間的距離和位置關(guān)系。不同的檢索系統(tǒng)可能會(huì)采用不同的位置算符,目前應(yīng)用廣泛的主要是: 第5章 計(jì)算機(jī)檢索概述WnWNnN 5.2.2.

6、3 截詞檢索表達(dá)式 截詞檢索表達(dá)式指在檢索式中用專門(mén)截詞符號(hào)表示檢索詞的某一部分允許有一定的詞匯變化 。截詞檢索表達(dá)式在西方語(yǔ)言檢索中應(yīng)用比較廣泛,在中文信息檢索中也有一定的應(yīng)用。 不同檢索系統(tǒng)采用的截詞符不完全相同,一般常采用“?”、“*”等。 第5章 計(jì)算機(jī)檢索概述后截詞,又稱右截詞、前方一致,允許檢索詞尾部有若干變化形式。例如,檢索式comput ?將檢出包含computer、computing、computerized、computerization等詞匯的結(jié)果。中間截詞,允許檢索詞中間有若干變化形式,例如wom*n就可同時(shí)檢索到含有woman和women的結(jié)果。前截詞,又稱左截詞、后

7、方一致,允許檢索詞的前端有若干變化形式,例如檢索*physics就可檢得包含physics、astrophysics、biophysics、chemophysics、geophysics等詞的結(jié)果。第5章 計(jì)算機(jī)檢索概述 5.2.2.4 限制檢索表達(dá)式限制檢索表達(dá)式指用限制符限定檢索詞出現(xiàn)范圍的檢索式。 常用的字段限定代碼有:標(biāo)題(TI,Title)、作者(AU,Author)、主題詞(SU,Subject)、年代(PY,Publication Year)等。 一些網(wǎng)絡(luò)檢索工具也允許用戶采用限制檢索表達(dá)式,可把檢索范圍限制在標(biāo)題、統(tǒng)一資源定位地址(URL)或超鏈等部分。 第5章 計(jì)算機(jī)檢索概述

8、5.2.3 5.2.3 檢索策略的構(gòu)造步驟檢索策略的構(gòu)造步驟信息檢索策略的構(gòu)造步驟如圖:第5章 計(jì)算機(jī)檢索概述5.2.4 5.2.4 檢索策略的反饋與調(diào)節(jié)檢索策略的反饋與調(diào)節(jié)5.2.4.1 5.2.4.1 影響查全率和查準(zhǔn)率的主要因素影響查全率和查準(zhǔn)率的主要因素 1.主題分析是否準(zhǔn)確、全面 2.檢索詞選擇是否準(zhǔn)確 3.檢索詞之間邏輯關(guān)系的配置是否合適 第5章 計(jì)算機(jī)檢索概述 5.2.4.2 5.2.4.2 提高查全率和查準(zhǔn)率的方法提高查全率和查準(zhǔn)率的方法 1.1.提高查全率的方法提高查全率的方法(1) (1) 降低檢索詞的專指度降低檢索詞的專指度 (2) (2) 增加同義詞、近義詞或相增加同義

9、詞、近義詞或相 關(guān)詞的邏輯或運(yùn)算關(guān)詞的邏輯或運(yùn)算(3) (3) 選用截詞檢索選用截詞檢索 (4) (4) 增加和調(diào)整檢索途徑增加和調(diào)整檢索途徑第5章 計(jì)算機(jī)檢索概述2.2.提高查準(zhǔn)率的方法提高查準(zhǔn)率的方法(1) 提高檢索詞的專指度,增加或換用下提高檢索詞的專指度,增加或換用下 位詞和專指性較強(qiáng)的關(guān)鍵詞進(jìn)行檢索位詞和專指性較強(qiáng)的關(guān)鍵詞進(jìn)行檢索 (2) (2) 用用AND連接一些進(jìn)一步限定主題概念的連接一些進(jìn)一步限定主題概念的 相關(guān)檢索項(xiàng),增加相互的制約相關(guān)檢索項(xiàng),增加相互的制約 (3) (3) 用用NOT來(lái)排除一些無(wú)關(guān)的檢索項(xiàng)來(lái)排除一些無(wú)關(guān)的檢索項(xiàng) (4) (4) 采用限定檢索,縮小檢索范圍采用

10、限定檢索,縮小檢索范圍 第5章 計(jì)算機(jī)檢索概述5.3.1 5.3.1 全文檢索技術(shù)全文檢索技術(shù)全文檢索(Full Text Retrieval),就是以各類(lèi)數(shù)據(jù)諸如文字、聲音、圖像等為主要處理對(duì)象,根據(jù)數(shù)據(jù)資料的內(nèi)容,而不是外在特征來(lái)實(shí)現(xiàn)的信息檢索技術(shù)。與其他檢索技術(shù)相比,全文檢索技術(shù)的新穎之處在于,它可以使用原文中任何一個(gè)有實(shí)際意義的詞作為檢索入口,而且得到的檢索結(jié)果是源文獻(xiàn)而不是信息線索。 5.3 5.3 信息檢索技術(shù)信息檢索技術(shù)第5章 計(jì)算機(jī)檢索概述5.3.2 5.3.2 基于內(nèi)容的多媒體檢索技術(shù)基于內(nèi)容的多媒體檢索技術(shù) 基于內(nèi)容的多媒體檢索技術(shù)突破了傳統(tǒng)的基于文本描述和檢索的局限,直接

11、對(duì)圖像、視頻、音頻內(nèi)容進(jìn)行分析,利用媒體對(duì)象的語(yǔ)義、媒體的視覺(jué)和聽(tīng)覺(jué)特征來(lái)進(jìn)行檢索。也就是依據(jù)圖像中的顏色、紋理、形狀,視頻中的鏡頭、場(chǎng)景、鏡頭的運(yùn)動(dòng),聲音中的音調(diào)、響度、音色等內(nèi)容特征建立索引并進(jìn)行檢索?;趦?nèi)容的檢索還融合了模式識(shí)別、計(jì)算機(jī)視覺(jué)、圖像理解等技術(shù),是多種技術(shù)的合成。 根據(jù)所檢索媒體對(duì)象的不同,基于內(nèi)容的多媒體檢索技術(shù)又可分為基于內(nèi)容的圖像檢索技術(shù)、基于內(nèi)容的視頻檢索技術(shù)和基于內(nèi)容的音頻檢索技術(shù)等。 第5章 計(jì)算機(jī)檢索概述 5.3.2.1 5.3.2.1 基于內(nèi)容特征的圖像檢索技術(shù)基于內(nèi)容特征的圖像檢索技術(shù)CBIRCBIR(Content-based Image Retriev

12、alContent-based Image Retrieval) 主要依據(jù)圖像固有的特征來(lái)標(biāo)引和檢索。所謂圖像特征包括:圖像的畫(huà)面內(nèi)容特征;圖像描述對(duì)象特征;圖像的相關(guān)信息及其他物理特征,圖像的移動(dòng)和組合特征等。 目前,比較成功應(yīng)用基于內(nèi)容的圖像檢索技術(shù)的系統(tǒng)有IBM公司的QBIC系統(tǒng)、MIT媒體實(shí)驗(yàn)室的Photobook系統(tǒng)、新加坡國(guó)立大學(xué)的CORE系統(tǒng)、美國(guó)哥倫比亞大學(xué)的VisualSEEK系統(tǒng)等。第5章 計(jì)算機(jī)檢索概述基于內(nèi)容的圖像檢索技術(shù) 第5章 計(jì)算機(jī)檢索概述基于內(nèi)容的圖像檢索方式主要有3種:(1)選擇顏色的比例、輪廓形狀以及紋理圖案的圖樣進(jìn)行查詢。例如用戶可以給出紅、綠、藍(lán)三種顏色

13、的百分比,或從系統(tǒng)所提供的圖例中選擇某個(gè)作為檢索圖樣。(2)草圖查詢。用畫(huà)圖工具生成草圖,從系統(tǒng)中查詢與草圖顏色分布、形狀或紋理相似的結(jié)果。(3)示例查詢。選擇系統(tǒng)中的一幅圖像,要求系統(tǒng)檢索與之類(lèi)似的圖像。用戶一般是通過(guò)瀏覽選擇系統(tǒng)提供的實(shí)例作為查詢條件,然后再通過(guò)不斷修改實(shí)例最終找到匹配目標(biāo)。第5章 計(jì)算機(jī)檢索概述 5.3.2.2 5.3.2.2 基于內(nèi)容的視頻檢索技術(shù)基于內(nèi)容的視頻檢索技術(shù)視頻又稱動(dòng)態(tài)圖像,是一組圖像按時(shí)間順序連續(xù)表現(xiàn),它的表示與圖像序列、時(shí)間關(guān)系有關(guān)。視頻數(shù)據(jù)可用幕、場(chǎng)景、鏡頭、幀等描述。視頻序列主要由鏡頭組成;鏡頭由一系列連續(xù)的幀組成;幀是一幅靜態(tài)的圖像,是組成視頻的最小單位;場(chǎng)景含有多個(gè)鏡頭;幕是由一系列相關(guān)的場(chǎng)景組成,表達(dá)一個(gè)完整的事件。視頻檢索實(shí)際上是對(duì)動(dòng)態(tài)圖像進(jìn)行檢索,視頻檢索的實(shí)質(zhì)就是在大量的視頻數(shù)據(jù)中找到所需要的視

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論