




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
本章主要內(nèi)容12023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章信息檢索基本原理信息檢索系統(tǒng)信息檢索發(fā)展歷史與趨勢(shì)信息檢索學(xué)科研究范圍1.1
信息檢索基本原理22023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章Information
Retrieval
信息檢索將情報(bào)按一定的方式組織和存貯起來(lái),并根據(jù)用戶的需要找出有關(guān)情報(bào)的過(guò)程。(賴)一種延時(shí)性通訊形式,在時(shí)間上從一個(gè)時(shí)刻通往一個(gè)較晚的時(shí)刻,而空間上可能還在同一地點(diǎn)。(Calvin
W, Mooers,
1949)是對(duì)信息條目(Information
Items)進(jìn)行表示、存貯、組織和存取(Access)的過(guò)程。Information
Access
信息存取1.1
信息檢索基本原理32023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章信息檢索的基本目標(biāo):檢索出所有與用戶提問(wèn)相關(guān)的文獻(xiàn),同時(shí)盡可能檢出更少的不相關(guān)文獻(xiàn)。相關(guān)信息的有效檢索涉及兩個(gè)方面用戶任務(wù)文獻(xiàn)的邏輯表示1.1.1
信息檢索中用戶任務(wù)檢索數(shù)據(jù)庫(kù)瀏覽42023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章圖1-1
信息檢索中用戶任務(wù)1.1.1
信息檢索中用戶任務(wù)52023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章檢索retrieval用戶將其信息需求和問(wèn)題翻譯成檢索系統(tǒng)要求的提問(wèn)式(query),系統(tǒng)匹配后,提交相關(guān)文獻(xiàn)。瀏覽browsing使用交互式界面翻閱整個(gè)文獻(xiàn)集合,以找出感興趣的相關(guān)文獻(xiàn)。1.1.1
信息檢索中用戶任務(wù)62023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章傳統(tǒng)檢索系統(tǒng):數(shù)據(jù)檢索或信息檢索超文本系統(tǒng):快速瀏覽電子圖書館與Web搜索引擎系統(tǒng):檢索與瀏覽的結(jié)合。1.1.2
文獻(xiàn)的邏輯表示72023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章全文本——標(biāo)引詞的集合目的:降低文獻(xiàn)表示的復(fù)雜性,和計(jì)算機(jī)處理的難度。2023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章8
圖1-2
文獻(xiàn)的邏
輯表示文結(jié)全本構(gòu)文結(jié)本構(gòu)文獻(xiàn)結(jié)構(gòu)識(shí)別著重空格標(biāo)點(diǎn)等
處理停用詞處理名詞集合詞根處理自動(dòng)或手工標(biāo)引標(biāo)引詞標(biāo)引詞1.1.2
文獻(xiàn)的邏輯表示92023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章傳統(tǒng):一個(gè)集合中的文獻(xiàn)常常通過(guò)標(biāo)引詞或關(guān)鍵詞的集合來(lái)表示。現(xiàn)代:用文獻(xiàn)的所有詞集合以及結(jié)構(gòu)來(lái)表示成為可能,檢索系統(tǒng)采用文獻(xiàn)的全文本(full-text
view)視圖邏輯表示。1.2
信息檢索系統(tǒng)102023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章信息檢索系統(tǒng)是由一定的設(shè)備和信息集合構(gòu)成,面向一定的用戶,具有信息采集、組織、存貯、選擇和傳播等功能的信息服務(wù)設(shè)施。1.2.1
信息檢索處理過(guò)程112023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章定義和建立文本數(shù)據(jù)庫(kù)用戶提問(wèn)操作匹配處理2023/10/212用戶界面文本操作提問(wèn)操作邏輯視圖數(shù)據(jù)庫(kù)管理者模塊標(biāo)引查詢排序檢索得文獻(xiàn)用戶反饋倒排文檔索引排序文獻(xiàn)文本數(shù)據(jù)庫(kù)文本圖1-3
檢索處理過(guò)程信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)
第一章文本1.2.1
信息檢索處理過(guò)程132023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章文本數(shù)據(jù)庫(kù)由數(shù)據(jù)庫(kù)管理者模塊建立確定使用的信息條目范圍文本操作處理定義文本的邏輯視圖,建立索引1.2.1
信息檢索處理過(guò)程142023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章1.2.1
信息檢索處理過(guò)程152023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章1.2.2
信息檢索系統(tǒng)的邏輯構(gòu)成162023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章信息檢索系統(tǒng)的邏輯構(gòu)成主要是指它所包括的功能模塊或子系統(tǒng)及其相互關(guān)系。一個(gè)完整的信息檢索系統(tǒng),通常由以下幾個(gè)功能模塊組成:信息源選擇采集子系統(tǒng)標(biāo)引子系統(tǒng)建庫(kù)子系統(tǒng)詞表管理子系統(tǒng)用戶接口子系統(tǒng)提問(wèn)處理子系統(tǒng)1.2.2
信息檢索系統(tǒng)的邏輯構(gòu)成172023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章信息源選擇采集子系統(tǒng)信息源是檢索系統(tǒng)的信息或數(shù)據(jù)來(lái)源,目前,信息檢索系統(tǒng)中的數(shù)據(jù)主要來(lái)自各種公開(kāi)文獻(xiàn),如一次文獻(xiàn)中的期刊、圖書、研究報(bào)告、會(huì)議論文、專利文獻(xiàn)、政府出版物、學(xué)位論文、二次文獻(xiàn)中的文摘、索引和目錄,三次文獻(xiàn)中的百科全書、專科詞典,名錄、指南、手冊(cè)等,有些系統(tǒng)還收錄各種機(jī)構(gòu)的內(nèi)部資料,如實(shí)驗(yàn)記錄、測(cè)試或觀測(cè)結(jié)果、工程設(shè)計(jì)資料、統(tǒng)計(jì)資料等。本功能模塊任務(wù):根據(jù)系統(tǒng)的經(jīng)營(yíng)方針和服務(wù)對(duì)象的需要,
以快速、經(jīng)濟(jì)的手段,廣泛地、連續(xù)不斷地采集各種信息源,為系統(tǒng)提供充足而適用的數(shù)據(jù)來(lái)源。1.2.2
信息檢索系統(tǒng)的邏輯構(gòu)成182023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章標(biāo)引子系統(tǒng)標(biāo)引,就是根據(jù)一定的規(guī)則和程序,對(duì)文獻(xiàn)內(nèi)容進(jìn)行分析,然后賦予每篇文獻(xiàn)以一定數(shù)量的內(nèi)容標(biāo)識(shí)(分類號(hào)、主題詞、關(guān)鍵詞等),作為存貯與檢索的依據(jù)。標(biāo)引作業(yè)通常與文獻(xiàn)編目和文摘工作一起進(jìn)行,然后把標(biāo)引結(jié)果和其他描述事項(xiàng)填入工作單,交錄入員去錄入計(jì)算機(jī)中。1.2.2
信息檢索系統(tǒng)的邏輯構(gòu)成192023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章建庫(kù)子系統(tǒng)任務(wù)是建立和維護(hù)可直接用于計(jì)算機(jī)檢索的數(shù)據(jù)庫(kù)。作業(yè)內(nèi)容主要包括數(shù)據(jù)錄入、錯(cuò)誤檢查與處理、數(shù)據(jù)格式轉(zhuǎn)換、生成并定期更新各種文檔。1.2.2
信息檢索系統(tǒng)的邏輯構(gòu)成202023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章詞表管理子系統(tǒng)–功能是管理維護(hù)系統(tǒng)中已有的主題詞表,使它與標(biāo)引、建庫(kù)等子系統(tǒng)相連接,支持用戶的各種詞匯查詢操作,從提問(wèn)、對(duì)話或其它文本中采集詞匯、信息,以及輸出各種形式的詞匯數(shù)據(jù)或詞表產(chǎn)品(從個(gè)別詞目、詞間關(guān)系、詞頻數(shù)據(jù)到整部詞表)。1.2.2
信息檢索系統(tǒng)的邏輯構(gòu)成212023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章用戶接口子系統(tǒng)System-userinterface,是面向系統(tǒng)用戶的一種人---機(jī)接口。它承擔(dān)用戶與系統(tǒng)之間的通訊功能,是二者之間實(shí)現(xiàn)通訊不可缺少的連接系統(tǒng)(軟硬件)。用戶模型:是系統(tǒng)建立的用戶認(rèn)知模型,可以用來(lái)增強(qiáng)人、機(jī)接口的人性,使系統(tǒng)能考慮不同用戶的不同需要、技能和經(jīng)驗(yàn)等人類工程學(xué)因素。命令語(yǔ)言:是指系統(tǒng)提供給用戶的檢索命令集合,包括基本命令(如檢索開(kāi)始、結(jié)束、選詞、組配、顯示、打印等)和擴(kuò)充集(如截詞、位置運(yùn)算、限制檢索、暫存檢索策略、套錄下載等)。信息顯示:指系統(tǒng)以屏幕顯示形式提供給用戶的各種信息,如菜單、窗口、幫助信息、錯(cuò)誤信息等。反饋機(jī)制,即系統(tǒng)對(duì)用戶反饋的信息所做出的反應(yīng)或操作。1.2.2
信息檢索系統(tǒng)的邏輯構(gòu)成222023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章提問(wèn)處理子系統(tǒng)負(fù)責(zé)處理用戶輸入的檢索詞或提問(wèn)式,并將它們與數(shù)據(jù)庫(kù)中存貯的數(shù)據(jù)進(jìn)行比較運(yùn)算,然后把運(yùn)算結(jié)果輸出給用戶。該模塊主要由檢索程序構(gòu)成:接收提問(wèn)提問(wèn)校驗(yàn):包括語(yǔ)法檢查、格式檢查和用詞檢查。提問(wèn)加工:指對(duì)源提問(wèn)式進(jìn)行解釋性或編譯性的加工,生成便于機(jī)器處理的目標(biāo)提問(wèn)式。檢索,即從數(shù)據(jù)庫(kù)中讀入一批記錄,與提問(wèn)式進(jìn)行比較,把滿足要求的記錄記入輸出文檔。1.2.3
信息檢索系統(tǒng)的物理構(gòu)成232023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章硬件部分外圍設(shè)備數(shù)據(jù)處理或傳送相關(guān)設(shè)備軟件部分系統(tǒng)軟件應(yīng)用軟件:數(shù)據(jù)庫(kù)管理系統(tǒng),建庫(kù)程序,數(shù)據(jù)輸入輸出程序,自動(dòng)標(biāo)引程序,文件管理程序,詞表管理程序,檢索程序,記帳統(tǒng)計(jì)程序等數(shù)據(jù)庫(kù)磁媒體數(shù)據(jù)庫(kù)光盤數(shù)據(jù)庫(kù)多媒體數(shù)據(jù)庫(kù)1.3
信息檢索簡(jiǎn)史與趨勢(shì)242023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章信息檢索發(fā)展分期信息檢索發(fā)展趨勢(shì)1.3.1
信息檢索發(fā)展分期252023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章50年代:探索與試驗(yàn)時(shí)期60年代:實(shí)用化時(shí)期70年代:聯(lián)機(jī)服務(wù)市場(chǎng)化與網(wǎng)絡(luò)化時(shí)期80年代:最終用戶檢索發(fā)展與多元化時(shí)期90年代:Web搜索引擎發(fā)展時(shí)期21世紀(jì):網(wǎng)絡(luò)化與智能信息檢索時(shí)期1.3.1
信息檢索發(fā)展分期262023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章圖書館中的信息檢索為例第一代:卡片目錄自動(dòng)化系統(tǒng)OPAC online
public
access
catalogue第二代:增加按主題、關(guān)鍵詞、復(fù)雜查詢第三代:圖形界面、數(shù)字化、超文本、開(kāi)放系統(tǒng)框架、基于Web1.3.2
信息檢索發(fā)展趨勢(shì)272023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章Web對(duì)信息檢索系統(tǒng)的巨大影響Low
cost:
是最便宜的存取各類信息源的系統(tǒng),因而吸引更多的用戶;Great
access:數(shù)字通信技術(shù)的進(jìn)步提供了更強(qiáng)的接入能力,無(wú)論是本地還是遠(yuǎn)程;Publishing
freedom:
人類歷史上第一次,能夠自由地發(fā)布和獲取大量信息。1.3.2
信息檢索發(fā)展趨勢(shì)282023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章IR面臨的問(wèn)題和挑戰(zhàn)相關(guān)性信息的獲取;更快速的提問(wèn)響應(yīng);基于用戶行為的新檢索系統(tǒng)開(kāi)發(fā)和設(shè)計(jì);1.4
信息檢索學(xué)科研究范圍292023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章信息檢索的研究范圍包括一切與信息存儲(chǔ)檢索有關(guān)的系統(tǒng)、過(guò)程、理論和方法。一切可供存貯和檢索利用的信息類型,如文獻(xiàn)、數(shù)據(jù)、事實(shí)、知識(shí)、聲音、圖形等;各種細(xì)心你間作系統(tǒng)及
其運(yùn)行過(guò)程,如信息采集、標(biāo)引、組織、存貯、處理、匹配、輸出、傳送等;各種過(guò)程中使用的方法,以及
在信息檢索實(shí)踐和研究的基礎(chǔ)上形成的各種理論和假
設(shè),均包括在這個(gè)范圍內(nèi)。1.4.1
信息檢索的研究對(duì)象302023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章信息檢索理論主要包括檢索語(yǔ)言與標(biāo)引理論,信息檢索的數(shù)學(xué)模型,知識(shí)表示理論,“相關(guān)性”理論以及有關(guān)的哲學(xué)問(wèn)題。信息檢索系統(tǒng)主要研究信息檢索系統(tǒng)的結(jié)構(gòu)、功能、演變,它的設(shè)計(jì)開(kāi)發(fā)技術(shù)、管理維護(hù)技術(shù)和評(píng)價(jià)技術(shù),還研究它與其他信息系統(tǒng)乃至整個(gè)外部世界的關(guān)系。數(shù)據(jù)庫(kù)聯(lián)機(jī)信息檢索與網(wǎng)絡(luò)信息檢索是目前信息檢索的主要方式,最為便利,使用也最廣。涉及到許多計(jì)算機(jī)設(shè)備、軟件技術(shù)、存貯技術(shù)、檢索技術(shù)、系統(tǒng)管理和經(jīng)營(yíng)知識(shí)、市場(chǎng)營(yíng)銷技術(shù)等。檢索策略與方法任務(wù)是利用、研究、評(píng)價(jià)和完善現(xiàn)有的各種檢索策略和方法,研究開(kāi)發(fā)新的更有效的策略和方法。1.4.1
信息檢索的研究對(duì)象312023/10/2信息檢索系統(tǒng)開(kāi)發(fā)與設(shè)計(jì)第一章用戶研究與培訓(xùn)研究用戶的心理、需求類型與特點(diǎn)、用戶查詢信息的行為特征等,然后建立響應(yīng)的用戶模型,作為系統(tǒng)設(shè)計(jì)以及制定系統(tǒng)營(yíng)銷策略的依據(jù)。用戶培訓(xùn)是用戶研究的繼續(xù),是與用戶建立機(jī)密聯(lián)系和發(fā)展新用戶的一種非常有效的措施,需要研究各種方式的效果及強(qiáng)化培訓(xùn)效果的各種手
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年個(gè)體土地承包合同書
- 2025園林綠化采購(gòu)合同模板
- 2025年山西省大同市靈丘縣部分學(xué)校中考第二次模擬生物試卷(含解析)
- 大學(xué)生創(chuàng)新創(chuàng)業(yè)教育任務(wù)創(chuàng)業(yè)融資課件
- 生產(chǎn)代加工原料合同協(xié)議
- 牽制貨品供應(yīng)合同協(xié)議
- 用鐵皮修繕?lè)课莺贤瑓f(xié)議
- 電廠種植樹(shù)木合同協(xié)議
- 電纜敷設(shè)合同協(xié)議書范本
- 甲乙丙合資買房合同協(xié)議
- 奇特的視覺(jué)圖形 課件 -2023--2024學(xué)年浙教版初中美術(shù)八年級(jí)下冊(cè)
- 《公路橋梁施工監(jiān)控技術(shù)規(guī)程》(JTGT3650-01-2022)
- 人教版高中地理必修第二冊(cè)第二章鄉(xiāng)村和城鎮(zhèn)
- 花籃拉桿式懸挑式腳手架施工施工工藝技術(shù)
- 完整版交管12123駕照學(xué)法減分復(fù)習(xí)題庫(kù)及答案1套
- 廣西壯族自治區(qū)貴港市覃塘區(qū)2023-2024學(xué)年七年級(jí)下學(xué)期7月期末歷史試題(無(wú)答案)
- 食堂生物防治制度
- 中國(guó)痔病診療指南(2020版)
- 2024年時(shí)事政治必考試題庫(kù)及參考答案一套
- T/CEC 143-2017 超高性能混凝土電桿完整
- 《陸上風(fēng)電場(chǎng)工程施工安裝技術(shù)規(guī)程》(NB/T 10087-2018 )
評(píng)論
0/150
提交評(píng)論