計算機信息檢索基礎課件_第1頁
計算機信息檢索基礎課件_第2頁
計算機信息檢索基礎課件_第3頁
計算機信息檢索基礎課件_第4頁
計算機信息檢索基礎課件_第5頁
已閱讀5頁,還剩55頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

文獻信息檢索

InformationRetrieval第二講計算機信息檢索基礎1“信息爆炸”知識的門類和數量迅速倍增知識的載體和傳輸方式日新月異每日新增網頁近百萬張最新統計:全球網站數量愈突破2.5億個

文獻增速70年代每7年翻一番

1999年每1年半翻一番

2010年每10小時翻一番2利用計算機對信息和數據的高速處理能力來實現信息的存儲與檢索。3一、計算機信息檢索原理計算機信息檢索:用戶利用數據庫獲取所需信息的過程。即:計算機將輸入機檢系統的用戶提問標識(檢索詞)與已存貯在系統中數據庫內的文獻特征標識(標引詞)進行匹配比較,凡符合給定的比較原則和邏輯運算條件者即為命中文獻。4計算機信息檢索特點檢索速度快效率高檢索方便實現資源共享檢索內容新數量大手段靈活途徑多樣快速準確地獲得結果5缺點:收費、有時間限制、回溯性差,無法查久遠的或最新的文獻。6二、檢索軟件類型檢索軟件即用戶與系統對話的界面,

可分為以下兩種:指令型通過直接輸入指令進行檢索菜單型通過屏幕菜單引導完成檢索。7指令檢索示例肝腫瘤and(銅or鐵)andpy>=20058菜單檢索示例9三、數據庫數據庫定義數據庫結構數據庫類型101.數據庫定義相互關聯的數據在計算機外存儲器上有序的集合.112、數據庫結構

FrameworkofDatabase數據庫文檔文檔記錄記錄記錄記錄題名字段作者字段刊名字段地址字段題名字段刊名字段地址字段作者字段主題詞字段關鍵詞字段主題詞字段關鍵詞字段12字段名稱及代碼基本字段:

字段名稱段碼文摘(Abstracts)AB題目(TitleWord)TI主題詞(Descriptor)DE標識詞(Identifier)ID輔助字段:

作者(Authors)AU

作者單位(CorporateSource)CS

刊名(JournalName)JN

年代(PublicationYear)PY

133、數據庫類型

typesofdatabases文獻數據庫數值數據庫事實數據庫多媒體數據庫14文獻數據庫書目數據庫全文數據庫15書目數據庫(bibliographicdatabase)存儲二次文獻,其檢索結果是文獻的線索而非原文。如BKSY16全文數據庫(fulltextdatabase)存儲一次文獻提供原始文獻全文

17數值數據庫(numericdatabase)主要存儲用數值表達的量化信息

WHO的世界衛生統計數據18事實數據庫(factdatabase)主要存儲三次文獻(what、where、when、who、why、how)類信息《中國大百科全書》MarriamWebsterDictionary提供的《大不列顛百科全書》免費查詢1920多媒體/超文本數據庫

multimedia/hypertextdatabase同時存儲聲音、圖像、文字等的超文本信息。21檢索者如何讓計算機實現自己的檢索意圖?22四、檢索提問表達式檢索提問表達式=檢索詞+運算符23(一)、檢索詞數碼類

2007(年)

C19H33NO2HCL(分子式)

343.94(分子量)D665.2(分類號)

GNGY(基因代碼)54-16-089(化學物質登記號)

字詞類

獲得性免疫缺陷綜合征

AIDS

劉偉中國行政管理云南大學

3一乙酰基一5一羥甲基24布爾邏輯符字段限定符位置運算符通配符

短語符(二)、運算符25questions鐵(痕量元素);李鐵(人名);鐵道醫學雜志(刊名);上海鐵道醫學院,鐵路醫院(作者地址)……查找作者“黎明”的文章,結果包括了“…黎明”及“黎明…”的文章英語單復數的變異、英美拼法的不同、同義不同性詞(詞干相同后綴不同);音譯外來詞中文取詞的不同26名稱運算符邏輯關系舉例作用邏輯與AND

*限定AANDB縮小邏輯或OR+等同AORB擴大邏輯非NOT-排斥ANOTB縮小布爾邏輯運算符

BooleanOperators27邏輯與ABAANDBA*B縮小檢索范圍,提高專指性。28示例糖尿病與高血壓AB糖尿病高血壓AANDB29邏輯或AORBA+BAB擴大檢索范圍,提高查全率。30示例政治、經濟、宗教與倫理學的關系ACB(AORBORC)ANDD(A+B+C)*DD政治經濟宗教倫理學31邏輯非ABANOTBA-B縮小檢索范圍,提高查準率。32示例非共產主義人生觀B821.2(人生觀、人生哲學中除共產主義人生觀外的那一部份)A:人生觀、人生哲學B:共產主義人生觀AnotBA-B33邏輯運算次序布爾邏輯運算次序

布爾邏輯的運算就象數學中的四則運算的“先乘除后加減”一樣,也有優先級的問題,它的優先級從高到低依次為:非(NOT)→與(AND)→或(OR)當然,括號最優先。因此,括號也稱為優先符。優先符可以改變布爾邏輯的正常運算次序。如:信息+情報

NOT經濟(信息+情報)NOT經濟檢索結果不同。34示例胃炎、胃潰瘍、胃腫瘤與幽門螺桿菌的相關性(不要cagA,vagA)(胃炎or胃潰瘍or胃腫瘤)and(幽門螺桿菌or幽門彎曲桿菌)not(cagAorvagA)35布爾邏輯的運算可以進行同類項的合并。如:A*B+A*C=A*(B+C)然而,在使用布爾邏輯時,必須注意以下幾條交換規則:

A*B=B*AA+B=B+AA-B≠B-A362.截詞檢索以符號取代檢索詞(中、尾)的部分字符,從而檢出相同詞干和相同詞根的詞。截詞包括后截、中截、前截等。用?作為截詞符(有些系統用*),主要包括下列情形:

截詞符?中截一字符,后截斷n個字符如wom?n可以檢索出:woman,women又如computer?——以computer詞干開頭的詞可以檢索出:computer、computers、computing、computerize、computerise注意:截詞是計算機信息檢索的一項重要特性,不同數據庫有不同的截詞符,大多數為“?”。37詞中替代:名稱運算符邏輯關系舉例結果截詞“?”(WildcardSymbol)替代單個字符曲安?德曲安耐德曲安奈德“*”TruncationSymbol替代任意多個字符肝炎*疫苗肝炎滅活疫苗肝炎減毒活疫苗示例138示例2詞尾截斷:

名稱運算符邏輯關系舉例結果截詞符“*”TruncationSymbol替代任意多個字符computer、computers、computing、computerize、computerise

Comput*393、限制檢索

在信息檢索系統中,為了滿足某種檢索條件或達到某種精確程度,通常使用一些縮小或限定檢索結果的方法。針對特定年代、特定類別、特定檢索點等作限制,包括前綴限制符和后綴限制符。后綴限制符例如:

/TI限在題目中查

/AB限在文摘中查

/DE限在敘詞標引中查前綴限制符例如:

AU=限查特定作者

JN=限查特定刊名

LA=限查特定語種

PN=限查特定專利號

PY=限查特定年代40網絡信息檢索中可對文獻信息類型進行限制

如在谷歌和百度搜索引擎中檢索特定的文獻類型:

“報告filetype:pdf”檢索指定網址內的信息:

“報告site:”

以后會看到一些數據庫通常都有年代/類型等的選擇414.短語檢索符(phrase)檢索符“”用于檢索固定短語或專有名詞在短語或專有名詞前后加雙引號,系統將其按詞組對待,不再將其分割按單詞檢索。

42示例“4-methoxy-salicylaldehyde”(4-甲氧基水楊醛)“文科文獻信息檢索”43運算符小結計算機信息檢索技術是用戶信息需求和文獻信息集合之間的匹配比較技術。布爾邏輯檢索、截詞檢索、短語檢索、字段檢索幾乎所有的檢索系統都有布爾邏輯檢索、截詞檢索(模糊檢索)和限制檢索,而不同的檢索系統又會有一些特殊的檢索技術和功能。44五檢索策略什么是檢索策略在分析檢索課題需求的基礎上明確檢索范圍,選擇檢索途徑,確定檢索詞和構建檢索式的邏輯組配方法,通過試檢或反饋進行調整,使檢索結果體現用戶目標的整個計劃過程。45編制檢索策略的過程1、分析課題,明確目的2、選擇檢索系統和數據庫3、確定檢索詞及檢索途徑4、制定提問檢索式5、調整檢索策略461、分析課題,明確目的分析檢索課題的基本方法與技巧:(1)分析檢索課題的內容實質,界定范圍必須準確充分地表達檢索課題所需的實質性內容,如果表示的概念過大,必然造成大量誤檢;而表達的概念過小,則會發生大量漏檢。例如,查找“中國新農村建設”方面的文獻通過分析研究,檢索人員了解到該課題實質上是要查找有關“農村醫療保障制度”的參考文獻,如果按原題檢索,由于概念太大,必然會造成大量誤檢。471、分析課題,明確目的(2)找出隱性的主題概念,并將抽象的主題概念轉化成具體的概念如:“城市生活垃圾的處理”:處理一詞在這包含了具體的處理方式:回收、再生等如:“中國-東盟自由貿易區成員國經濟政策協調研究”協調一詞也可以通過調和協和、妥洽、融合

、調解、協作等來表示,同時還可以利用(文萊、菲律賓、印度尼西亞、馬來西亞、泰國、新加坡、越南、老撾、柬埔寨、緬甸)等相關概念來查找文獻信息,對于英文文獻的查找還要考慮到同義或詞性變化的問題,如:coordinate、coordinated、coordinating、co-ordinated、conpatible、keeping、gowith等481、分析課題,明確目的(3)找出核心概念,排除無關概念和重復概念,簡化邏輯關系以提高檢索效果。如:排除課題中那些檢索意義不大而且比較泛指的概念詞,如“展望”、“發展趨勢”、“現狀”、“近況”、“生產”、“研究”、“應用”、“作用”、“方法”、“影響”、“效率”、“制造”、“結果”等等。例如:“干洗劑的近況及其使用”課題其核心概念是干洗劑491、分析課題,明確目的(4)明確概念之間的邏輯關系分析出單元概念后,還要搞清它們之間的邏輯關系,即不同概念之間是邏輯與的關系,而相同概念之間為邏輯或的關系。例:協作聯盟聯手聯動協同開發orororor502、選擇檢索系統和數據庫應根據課題分析結果、信息需求的各項要求,綜合考慮檢索系統的特點、學科范圍、文獻類型、數據庫的專業范圍、存儲年限、檢索費用、使用方法以及現有的檢索系統和數據庫資源,選用合適的檢索系統和數據庫。513、確定檢索詞及檢索途徑檢索詞是構成檢索式的基本單元,是文獻記錄中的文獻特征標識,可以說反映文獻內容特征的主題詞、自由詞等。也可以是反映文獻外表特征的作者、篇名等。檢索途徑即檢索入口,計算機檢索系統的檢索途徑也可分為反映文獻信息內容特征和反映文獻信息外部特征的兩類檢索途徑。選擇檢索途徑是與確定檢索詞相對應的,確定了檢索詞也就意味著選擇檢索途徑。524、制定提問檢索式檢索式是檢索策略的具體表述,是通過邏輯算符、位置算符、截詞算符等把表達主題概念的各檢索單元組配連接起來既能表達主題內容,又能為機器識別和執行的命令形式,也是決定檢索策略的質量和檢索效果的重要因素。53制定提問檢索式實例檢索“電子商務中的稅法研究”方面的資料檢索詞:電子商務electroniccommerce,e-commerce

稅法、稅收taxlaw檢索表達式:電子商務*(稅法+稅收)(electronicwcommerceORe-commerce)ANDtaxwlaw54制定提問檢索式實例分析檢索“中國城鄉收入差距

”方面的文獻檢索詞:城鄉、城鎮、區域:RuralandUrbanAreas,dualeconomicstructure收入差距:IncomeGap,IncomeInequality,incomedisparity,incomeallocation檢索式:(城鄉+城鎮+區域)*收入差距(“RuralandUrbanAreas”OR“dualeconomicstructure”)AND(incomeGapORincomeInequalityORincomedisparityORincomeallocation)55制定提問檢索式小結在編制中,應注意以下幾點:第一,要仔細斟酌檢索詞。選詞太專指,查全率低;太泛指則不能準確地表達提問的實質,查準率低。第二,根據檢索詞之間的邏輯關系和詞之間關系,用適當的運算符把檢索詞連接組配起來。第三,要了解所查數據庫的索引體系和檢索用詞規則。第四,要符合檢索系統的功能及限制條件的規定。56制定提問檢索式小結第五,要注意概念的分析。(算符使用正確但不能達到應有檢索效果的例子很多。)例如,一個查找歐洲政府行政體制改革的題目,在列出檢索詞時

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論