




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 文獻信息資源是知識的寶庫 文獻檢索是開啟知識寶庫的鑰匙 美國化學文摘封面上醒目的印著: Key To The Worlds Chemical Literature 自稱是“打開世界化學文獻的鑰匙” 形象地說明文獻檢索的“鑰匙”作用 計算機信息檢索基礎 醫學文獻檢索與利用 第三講鄭州大學圖書館王槐深一、計算機信息檢索概述(一)概念 計算機信息檢索,即利用計算機存貯和檢索信息的過程。 信息存貯是將大量的文獻、數值、事實等按一定的格式輸入到計算機中,加工處理成可供檢索的數據庫。 信息檢索是將檢索提問式按一定的要求輸入計算機中,經計算機系統與已存貯在計算機中的數據庫進行匹配運算,然后將符合檢索提問的
2、數據按要求的格式輸出。(二)產生與發展 計算機信息檢索始于1954年,由美國海軍軍械中心(NOTS)圖書館在IBM-701型計算機上建立了世界上第一個計算機檢索系統。我國自1975年開始從國外引進磁帶式數據庫,開展計算機信息檢索服務,次年中國科學院計算機所研制成第一個國產計算機信息檢索系統QJ-111并于1981年投入使用。計算機信息檢索在世界范圍內的發展大致經歷了以下五個階段:脫機檢索階段(19541964年) 由于受計算機技術的限制,存貯在磁帶上的文獻數據,只能按順序查找有關信息,速度很慢,用戶不直接參與檢索,不介入與機器的對話,由專職檢索人員把許多用戶的檢索課題匯總,批處理檢索提問要求,
3、然后將檢索結果提供給用戶。所以稱“脫機檢索”。 優點:批處理可同時進行多項檢索,適用于過期文獻的回溯檢索和新文獻的定題檢索。 缺點:用戶不能參與檢索過程,無法適時地修改檢索策略,使檢準率降低; 用戶不能及時瀏覽結果以及無法快速地獲取結果。聯機檢索階段(19651972年) 隨著計算機處理能力的提高和大容量存貯介質的出現,計算機信息檢索進入聯機檢索階段。在此時期,單臺貯存信息的主機可通過通信線路連接多個計算機檢索終端,利用分時技術,多個計算機用戶終端可以同時與主機“對話”,實現聯機信息檢索。但由于計算機網絡主要是通過電話線路連接,聯機檢索受到地域的限制,主要是一個國家內部的聯機檢索。國際聯機檢索
4、階段(1973年至今): 通信衛星技術的發展與應用,使聯機檢索不再受地區、國界的限制,實現跨國界的遠距離聯機檢索,即國際聯機檢索。用戶可以通過國際聯機檢索終端,與遠隔重洋的聯機檢索系統直接進行人機對話,實時、在線的直接檢索其擁有的各種數據庫,獲取所需的文獻信息。 隨著Internet(國際互聯網)的出現與普及,傳統的相對獨立的聯機檢索系統紛紛作為Internet網絡中的一個節點,只要進入Internet網絡并取得一定權限,就可以隨意地從一個聯機檢索系統方便地連接到另一個聯機檢索系統,在更大的范圍內檢索獲取所需要的信息資源。聯機檢索的優點:檢索速度快,檢索范圍廣,檢索途徑多,檢索精度高,檢索內容
5、新,檢索輔助功能完善。 聯機檢索的缺點: 傳統聯機檢索系統的檢索指令復雜,多由掌握檢索技術、熟悉命令的有經驗的人員來操作,檢索費用較高,普通用戶難以負擔。Internet信息檢索的沖擊: 帶來傳統聯機檢索系統的改革,如今,以Web為界面的聯機檢索系統,秉承了原來檢索系統的優點,又兼具用戶界面友好、操作簡單靈活、鏈接便利等優勢。光盤檢索階段(1985年至今): 1985年CD-ROM檢索系統的研制成功,為信息處理、存貯和檢索展示了新的前景。 光盤檢索的優點: 光盤數據庫存儲容量大,便于長期保存,檢索環境要求低,利用微機就能在本地進行信息檢索,而且不受時間、通信費用、打印篇數的限制,檢索界面友好。
6、光盤檢索的缺點: 由于數據更新只能定期進行,所以檢索時效較差。網絡檢索階段(1990年至今): Internet于20世紀80年代中期誕生于美國,直到90年代初期World Wide Web(WWW)的出現才使其真正風靡起來。由于WWW良好的界面大大簡化了Internet的操作難度,同時微軟“視窗操作系統”的巨大貢獻,使Internet從高不可攀的專業網絡進入千家萬戶。促使人類社會信息的存貯、傳遞、交流和利用產生了革命性的變化。 網絡檢索的特點是:信息檢索范圍廣,信息量大,信息類型多樣,時效性強,但是通過搜索引擎檢索的結果往往是檢準率較低,信息冗余大。 二、計算機信息檢索系統的構成二、計算機信
7、息檢索系統的構成 計算機信息檢索系統通常由計算機硬件、檢索軟件、數據庫和作用于系統的專業人員組成。其中數據庫是計算機信息檢索系統的核心。數據庫的質量直接影響計算機信息檢索系統的功能和效率。對數據庫的了解是掌握計算機信息檢索技術的前提。(一)數據庫的概念與結構 數據庫是指在計算機存貯設備上按一定方式存貯的相互關聯的文獻信息集合,它可以由一個或多個文檔(File)組成。 文獻信息數據庫主要由文檔、記錄、字段三個層次構成。 1、文檔(File) 文檔是數據庫中若干記錄的集合。許多大型數據庫往往包含數以萬計的記錄,為了方便用戶檢索,常被分成若干個文檔。例如:中國生物醫學文獻數據庫(CBMdisc)按收
8、錄文獻的年限將數據庫劃分為若干文檔。截止2003年,CBMdisc共分為6個文檔。2、記錄(Record) 記錄是由若干字段組成的文獻單元,是數據庫中的基本文獻單元。一條記錄在數據庫中記錄著一篇文獻的相關信息。 例如:在書目型數據庫中,一條記錄相當于一條題錄或文摘;在全文型數據庫中,一條記錄相當于一篇完整的文獻;在其他類型數據庫中,一條記錄則代表一個信息單元。記錄越多,數據庫的容量就越大。3、字段(Field) 字段是構成記錄的基本單元,是對文獻某一方面的特征(包括外表特征和內容特征)進行描述的結果。 例如:題名、作者、作者地址、出版年、來源(出處)、主題詞、文摘等字段是書目數據庫中必備字段。
9、為識別每一個字段所表達的文獻特征,通常每個字段都有固定的名稱和縮寫(或稱字段標識符),如,題名字段的標識符為TI,作者字段的標識符為AU等。 字段標識符具有檢索的功能,參與編制檢索式,因此,對它要有所了解和掌握。(二)數據庫的類型 依據數據庫中存貯的信息內容可將其分為以下三種類型:1、文獻型數據庫: 文獻型數據庫是指以各種文獻信息為存貯內容的數據庫。 書目數據庫 全文數據庫 圖像數據庫 多媒體數據庫 文獻型數據庫具有結構復雜、數據量大、制作要求高、使用廣泛等特點,是人們獲取文獻信息的主要信息源。2、數值型數據庫: 數值型數據庫是以數值方式表示的數據為存貯內容的數據庫。包括各種統計數據、科學實驗
10、數據、科學測量數據等。例如,醫學上使用的化學制劑或藥物的各種理化參數、人體生理上的各種數值等均可建立數值型數據庫。 這類數據庫除存貯數值之外,還存貯對應的運算公式和規則, 系統按用戶的要求作某些必要的計算,為用戶提供能夠直接使用的數值型信息。3、事實型數據庫: 事實型數據庫是以事物發展過程中產生的事實性信息為存貯內容的數據庫。如自然資源數據庫、人口數據庫、名人數據庫和機構名錄數據庫等。 這類數據庫除存貯基本事實數據外,也存貯數學運算和邏輯運算規則,能同時提供文本信息和數值數據。用戶只要通過人物、機構或事物名稱及有關事項進行檢索,就可獲得特定的事實或數值信息。三、計算機信息檢索技術三、計算機信息
11、檢索技術 計算機信息檢索技術,是指由計算機將輸入的檢索表達式(用戶檢索提問)與系統中存儲的文獻信息特征標識及其邏輯組配關系進行類比、匹配的運算方式與規則。 常用的文本信息檢索技術有布爾邏輯檢索、位置檢索、截詞檢索、限制檢索等, 1、布爾邏輯檢索技術 是利用布爾邏輯運算符來表達檢索詞之間的邏輯運算關系的檢索方法。常用的有邏輯與(AND)、邏輯或(OR)、邏輯非(NOT)三種類型。 邏輯與:用于表達概念相交關系的一種組配。檢索式寫成A AND B,表示檢索的文獻中必須同時包含檢索詞A和檢索詞B的文獻才是命中文獻。其作用是對檢索詞加以限定,用于縮小檢索范圍,減少命中文獻量,提高查準率。 邏輯或:用于
12、表達概念并列關系的一種組配。檢索式寫成A OR B,表示檢索的文獻中包含檢索詞A或包含檢索詞B,或者同時包含檢索詞A或檢索詞B的文獻為命中文獻。其作用是擴大檢索范圍,增加命中文獻量,提高查全率。邏輯非:用于表達概念排斥關系的一種組配。檢索式寫成A NOT B,表示檢索的文獻中包含檢索詞A同時不包含檢索詞B的文獻為命中文獻。其作用也是縮小檢索范圍,提高查準率。邏輯非運算在實際應用中要慎用,因其將文獻中涉及檢索詞A,同時也涉及檢索詞B的文獻也排斥在外。 邏輯運算符的運算優先級: 為了表達復雜的邏輯關系,在一個檢索式中可同時使用多個邏輯運算符,構成一個復合邏輯檢索式。為了控制最終的檢索結果,規定了邏
13、輯運算符的運算次序,即運算優先級。依次為:括號的運算優級最高(絕大多數檢索系統優先處理括號內的檢索式)、NOT次之、AND再次之、OR最低,即( )NOTANDOR。例如: (心臟瓣膜疾病OR心力衰竭)AND手術并發癥 (2)位置算符檢索 位置算符 是指表示詞與詞之間位置關系的算符,又稱鄰近度算符。常用位置算符有 near、with、(nW)、(W)等 。 作用:是限制詞與詞之間的位置關系,彌補布爾邏輯算符只是定性規定檢索詞的范圍,更加明確檢索詞之間的邏輯關系,縮小檢索范圍,提高檢索的查準率。 A with B , 表示要求檢索詞A和B必須同時出現在同一字段中。 A (nW) B ,表示A和B
14、兩詞相隔n個單詞且前后次序不變;n=0時格式為A(W)B。 例如:例如: A near BA near B ,表示要求檢索詞A和B必須同時出現在同一句子中,并且兩詞出現的前后順序不限。(3)截詞算符 檢索 是指在檢索詞的合適位置進行截斷,保留相同的部分,用相應的截詞算符代替可變化部分進行檢索 。常用的截詞算符(又稱通配符)有“?”和“*”兩種,也有采用其他符號表示的。 作用: 主要是解決一個檢索詞的單復數、詞性的詞尾變化,詞干相同而詞尾不同以及英美詞匯拼寫差異的問題等。 按截斷的字符數量可分為有限截斷和無限截斷兩種: 無限截斷是指檢索詞與被檢索詞實現部分一致,被截斷部分的字符不限。常用“*”表
15、示(*=0-n個字母)。 有限截斷是指檢索詞與被檢索詞只能在指定的位置可以不一致。常用“?”表示(?=0-1個字母)。例如,輸入leukemi?可同時檢出leukemia、leukemic、leukemid等詞的記錄;輸入Wom?n,可同時檢出Woman和women這兩個詞的記錄。 按照截詞的位置: 無限截斷可分為左截斷(后方一致)、右截斷(前方一致)、左右截斷(中間一致)、中間截斷(前后一致)等四種方式。不同的檢索系統有不同的截詞方式,但以右截斷和中間截斷比較常見。 右截斷是指檢索詞與被檢索詞的詞干相同而后綴不同。例如,輸入 c compute*,可同時檢索出compute、computer
16、、computerized、computerization等詞的記錄。 中間截斷是指檢索詞與被檢索詞的詞頭和詞尾相同而中間部分不同。 例如,輸入leuk*ic可同時檢索出leukemic、leukamic、leukemogenic等詞的記錄。 截詞檢索是隱含的布爾“邏輯或”(OR)檢索,其功能是減少檢索詞的輸入量、簡化檢索程序、擴大檢索范圍、防止漏檢、提高查全率。在西方語言信息檢索系統中得到廣泛應用。 (4)限制符檢索 限制符檢索 是將檢索詞或檢索式限制在數據庫記錄中出現的字段位置。又稱為“字段檢索”。 作用:是縮小檢索范圍,提高查準率。 常用限制符有“in”和“=”。例如,gene in T
17、I,表示檢索題名中含有gene一詞的文獻。其中“TI”是題名字段標識符。又如,py=2002,表示檢索2002年發表的文獻。其中“py”是出版年字段標識符。一般情況下,數據庫中記錄的所有字段均可做限定字段檢索。在進行字段限制檢索時,應參閱有關數據庫的使用說明,避免產生誤檢。四、檢索策略的編制與調整四、檢索策略的編制與調整 檢索策略 是指為實現檢索目標而制定的全盤計劃和方案,是對整個檢索過程的謀劃和指導。由于計算機信息檢索是由計算機程序來控制和執行檢索匹配操作,檢索者與具體的檢索過程是分離的,因此,事前制定適宜的檢索策略,是成功檢索的關鍵。 廣義的檢索策略包括信息需求分析、選擇數據庫、確定檢索途
18、徑和標識、編制檢索提問表達式并準備多種檢索方案和步驟等。 狹義的檢索策略主要是確定檢索詞并根據需要用各種運算符一起編制檢索表達式的構思。 檢索策略編制流程圖檢索策略編制流程圖信息需求分析選擇數據庫概念分析換成系統檢索用詞擬定檢索策略檢索檢索結果是否滿意輸出檢索結果Yes No調整檢索策略(一)信息需求分析 信息需求分析是制定檢索策略的依據。信息需 求按范圍和程度的不同,大體可分成三種類型: 普查型:需要全面收集有關某一主題的文獻資料。具有普查、回溯的特點,要求盡可能高的查全率。 攻關型:需要收集有關某一主題的某一特定方面的文獻資料,不強調查得文獻的數量,但需要查得的文獻具有較強的專指性。 探索
19、型:需要了解和掌握某一領域的最新研究動向或研究成果,要求文獻具有新穎性和及時性,而對查全率和查準率的要求不高。 在明確課題對查新、查全和查準要求的同時 ,還要明確對信息形式和內容的需求。 形式需求:包括所需文獻的類型、數量、語種、年限等。 內容需求:包括檢索課題涉及的學科范圍、主題內容和有關主題詞、分類號等,以及它們之間的邏輯關系。 在上述基礎上,確定檢索主題,形成若干能代表信息需求而且具有檢索意義的主題概念。為制定檢索策略做好準備。(二)選擇數據庫 選擇數據庫時要充分考慮其是否與信息需求結合緊密、學科專業是否對口、信息覆蓋面是否廣泛、揭示信息內容是否及時、檢索功能是否完善等方面的問題。 選擇
20、合適的數據庫,除事先對各數據庫的來源、主題內容結構作充分的調查研究外,還需要通過對各數據庫實際檢索結果的對比評價,選擇出對某一課題最為合適的數據庫。(三)編制檢索策略 編制檢索策略包括選擇檢索詞和編制檢索式兩方面的內容。 1、選擇檢索詞:檢索詞是表達信息需求和檢索課題內容的基本單元,也是與系統中有關數據庫進行匹配運算的基本單元。檢索詞選擇得恰當與否,會直接影響著檢索效果。 (1)選擇檢索詞要遵循以下兩個原則: 一是根據檢索課題所涉及的學科專業和技術內容選詞。 二是要使用主題詞表選用規范化的詞匯作為檢索詞。 (2)處理好檢索詞切題性和匹配性的關系: 選擇較上位的概念詞作為檢索詞,有利于提高檢索的
21、匹配性,但卻降低了切題性。相反,選擇較下位的概念詞,會提高切題性,但卻降低了匹配性。因此,要強調哪一方,需要根據信息需求的類型和檢索的具體情況,合理利用主題詞的上、下位的關系,正確選擇檢索詞。 2、編制檢索表達式 檢索表達式是計算機信息檢索的依據。編制檢索表達式主要是使用布爾邏輯算符、位置算符、截詞算符、限制符等,將檢索詞進行組配,確定檢索詞之間的概念關系或位置關系,準確地表達課題需求的內容,以保證和提高檢索的查全率和查準率。 常用的文本信息檢索表達式編制方法有以下三種:(1)概念積木法 概念積木法的含義是:把檢索課題剖析成若干個不同的概念面,先分別對這幾個概念面進行檢索,并在每個概念面中盡可
22、能全和多地列舉相關詞、同義詞、近義詞,并用邏輯或(OR)連接成子檢索式, 然后再用邏輯與(AND)把所有子檢索式連接起來,構成一個總檢索式。 這種方法能提供比較明確的檢索邏輯過程,容易理解和執行,還可部分或全部地用作保留檢索。適用于較復雜的檢索課題。(2)引文珠形增長法 引文珠形增長法的含義是:從已知的關于檢索課題的少數幾個專指詞開始檢索,以便至少檢出一篇命中文獻或一條相關信息,然后瀏覽檢出的文獻或信息條目,從中選出一些新的相關檢索詞,補充到檢索式中去,重新進行檢索,獲得新的命中結果。這樣反復進行,直到找不到其他適合包含于檢索式的附加詞為止,或者已經得到了數量適宜的命中結果。 這種方法具有很強的人機交互性,可以使檢索式以比較生動的方式生成并得到不斷豐富。(3)逐次分餾法(或逐步縮小法) 這種方法的含義是:先確定一個相當大的、范圍較廣的初始檢索概念進行檢索,然后提高檢索的專指度,得到一個較小的命中結果,繼續提高檢索式的專指度,逐步縮小命中結果,直到得到滿意的命中結果。 逐次分餾法的特點是檢索操作比較主動,漏檢較少。(四)實施與調整檢索策略 實施檢索策略:即將編制好的檢索提問
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 新疆現代職業技術學院《漢語國際教育創新創業指導》2023-2024學年第二學期期末試卷
- 濟寧職業技術學院《短片拍攝》2023-2024學年第二學期期末試卷
- 寧夏師范學院《工程制圖與化工CAD》2023-2024學年第二學期期末試卷
- 華東政法大學《外國女性作家作品研究》2023-2024學年第二學期期末試卷
- 遼寧城市建設職業技術學院《英語報刊閱讀》2023-2024學年第二學期期末試卷
- 清遠職業技術學院《設備管理與維修》2023-2024學年第二學期期末試卷
- 廣東省封開縣市級名校2025年初三下學期七校模擬質量檢測試題生物試題含解析
- 江西省南昌市蓮塘一中2025年高三下學期九月月考生物試題含解析
- 徐州醫科大學《村鎮規劃》2023-2024學年第二學期期末試卷
- 2024年四川石化公司秋季高校畢業生招聘55人筆試參考題庫附帶答案詳解
- 2022年中國食品藥品檢定研究院招聘26人筆試歷年典型考題及考點剖析附帶答案詳解
- 人教小學數學六年級下冊整 理和復習《整數》教學課件
- 電動伸縮雨棚合同范本
- 中國信息消費發展態勢報告(2022年)
- G-B-Z 25320.1003-2023 電力系統管理及其信息交換 數據和通信安全 第100-3部分:IEC 62351-3的一致性測試用例和包括TCP-IP協議集的安全通信擴展 (正式版)
- 小學畢業會考數學試卷附參考答案(a卷)
- 急救知識科普完整版課件
- 華為跨部門協同機制建設
- 初中英語跨學科主題學習的探索與實踐
- GDAL源碼剖析與開發指南
- 《化工腐蝕與防護》課程標準(煤化工技術)
評論
0/150
提交評論