




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、信息檢索與利用計算機檢索基礎information retrial and utilizationinformation retrial and utilization內容 計算機檢索原理 檢索算符 檢索策略調整 存儲過程一次信息分析信息特征標引信息特征標識輸入輸出檢索過程信息需求分析檢索提問編制 檢索提問標識檢索信 息 檢 索 系 統檢索語言檢索結果圖:計算機信息檢索基本原理圖示 計算機信息檢索是利用一定的檢索算法,借助于特定的檢索工具,并針對用戶的檢索需求,從結構化或非結構化的數據中獲取有用信息的過程。計算機信息檢索原理information retrial and utilization
2、內容 計算機檢索原理 計算機檢索技術 檢索策略調整 information retrial and utilization1. 布爾邏輯檢索 邏輯算符也稱布爾邏輯算符,是利用布爾代數中的邏輯運算符來描述檢索詞之間邏輯運算關系的檢索算符。邏輯算符的作用是把若干個檢索詞或詞組連接起來,構成一個檢索式的基本框架,指定文獻的檢索詞必須出現或不出現的條件。information retrial and utilization1. 布爾邏輯檢索邏輯“與”:AND 、and 、*定義:用于交叉概念或限定關系的組配,即被命中的文獻必須同時含有檢索項A和B。作用:可縮小檢索范圍,提高查準率。示例: “air p
3、ollution” and control,表示兩個概念應同時包含在同一條記錄中。ABA and B;A*Binformation retrial and utilization1. 布爾邏輯檢索邏輯“或”: OR、or、+定義:表示兩個概念的并列,即被命中的文獻含有兩詞之一或同時包含兩詞。作用:可擴大檢索范圍,提高查全率。示例: PVC OR “Polyvinyl chloride”,表示這兩個并列的同義概念分別在一條記錄中出現或同時在一條記錄中出現。ABA or B;A+Binformation retrial and utilization1. 布爾邏輯檢索邏輯“非”: NOT;not;
4、 -定義:表示兩個概念的排除,即被檢索文獻在含有檢索詞A而不含有檢索詞B時才被命中。作用:用于排斥關系的組配,即從原來的檢索范圍排除不需要的概念或影響檢索結果的概念,提高查準率。示例: Energy NOT Nuclear,表示從“Energy”檢索出的記錄總排除含有“Nuclear energy”的記錄。 ABA not B;A-B;檢索要求邏輯檢索 課題 表達式 檢索結果概念相交、限定 AND與* 計算機用于制圖 A BA AND BA * B 縮小檢索范圍提高查準率 概念平行、并列 OR或+ 土地管理與土地利用 A B A OR B A+B擴大檢索范圍提高查全率 某一主題去掉一部分相關主
5、題 NOT非- 除光電測距以外的 A 電磁波測距 BB NOT AB-A提高查準率 布爾邏輯檢索示例information retrial and utilization括號算符括號檢索 用于改變運算的先后次序,括號內的運算優先進行。如:A AND (B OR C) 示例:(ZY:TNF AND (ZY:拮抗劑 OR ZY:抗體) OR (MC:腫瘤壞死因子) AND (MC:拮抗劑 OR MC:抗體) (ZY:TNF AND (ZY:拮抗劑 OR ZY:抗體) OR (MC:腫瘤壞死因子) AND (MC:拮抗劑 OR MC:抗體) information retrial and utili
6、zation2. 位置檢索位置算符定義:表達檢索詞之間位置關系的一種檢索。適用于兩個檢索詞以指定間隔距離或者指定的順序出現的場合。 其表達形式因系統而異。作用:可縮小檢索范圍,提高查準率。information retrial and utilization2. 位置檢索(W) 詞序不許顛倒 兩詞之間不許插詞,只允許出現空格或連字符號示例: solar ( w) energy 檢出 solar energy correlation(w)matrix 檢出correlation matrix 、 correlation-matrixinformation retrial and utilizat
7、ion2. 位置檢索(nW) 詞序不允許顛倒 兩檢索詞之間允許插入n(n=1,2,3) 個詞示例: laser(1W)printer 檢出 “laser printer”、“laser colour printer”、“laser and printer” information retrial and utilization2. 位置檢索 (N) 詞序可以顛倒 兩詞之間不許插詞,只允許出現空格或連字符號示例: waste (N) water 檢出 “waste water” 和“ water waste”information retrial and utilization2. 位置檢索(n
8、N) 詞序可以顛倒 兩檢索詞之間允許插入n(n=1,2,3) 個詞示例: econom?(2N)decline 檢出 economic decline、economy on the decline、decline of the economy2. 位置檢索A(S)B,同句檢索 S是sentence的縮寫。 A、B出現在同一自然句中(子字段),其詞序與詞量不受限制。示例: Channel(S)tunnel,表示channel 和tunnel 出現在同一句子中才符合檢索條件。information retrial and utilizationinformation retrial and uti
9、lization3. 截詞檢索截詞算符定義:指在檢索詞的合適位置進行截斷的符號,常用“?”、“*”、“$”等符號表示。 作用:當某些英語檢索詞詞干相同、詞義相近,但詞尾或詞中間有變化時,可以采用截詞符,減少檢索詞的輸入量,擴大檢索范圍 ,提高檢索效率。information retrial and utilization3. 截詞檢索前截斷:將截詞符放在詞根前邊,后方一致,表示在詞根前方有有限個或無限個字符。 如*magnetic 能夠檢出含有magnetic、cryomagnetic、paramagnetic等詞的記錄。后截斷:將截詞符放在詞根后邊,前方一致,表示在詞根后方有有限個或無限個字
10、符。 如metal*,能夠檢出含有metal、metals、metaled、metalist等詞的記錄。information retrial and utilization3. 截詞檢索中間截斷:將截詞符放在詞的中間,詞的前后方一致。 如wom?n,能夠檢出含有woman、women的記錄。無限截詞:指允許截去的字符數量不限,也稱開放式截斷。 如comput?,能檢索出computer、computing、computers、computable、computions、computerize、computerization有限截詞:允許截去有限個字符。如acid? ,能夠檢出含有acid、a
11、cidic不能檢出acidify的記錄。3. 截詞檢索Tips:詞符要緊接在詞干后面,截詞符和詞干之間不能有空格。 避免將檢索詞的詞干截得過短,一般應在三個字母以上。從希望出現的單詞中取盡可能多的公共字母作為詞干,以提高查準率,比如在對manage,managing,managed,management和manager作截詞運算時,詞干應使用“manag*”,而不應使用“man*”。截詞應該使用得合理。一般不可能出現詞尾變化的單詞,例如management, protection等,其后不必再使用截詞算符。常有的字段: 篇(題)名字段 TI=Title 文摘字段 AB=Abstract 敘詞字
12、段 DE=Descriptor 自由詞字段 ID=Identified 著者字段 AU=Author 著者機構字段 CS=Corporate Source 刊名字段 JN=Journal 出版年字段 PY=publication Year 文獻類型字段 DT=Document Type 語種字段 LA=Language 分類號字段 CC=Classification 4.字段限制檢索4.字段限制檢索使用字段限制檢索符可以限定檢索詞在數據庫中出現的范圍,對命中太多的記錄再行篩選。如檢索式:AU=Gordon? AND PY=199?,表示查找Gordon所寫的、于1990年后發表的所有文獻。題名
13、途徑:題名(書名、刊名、篇名、網站名、網頁名)途徑是一種以信息源題名為檢索標識記錄與排序信息款目,提供按題名查詢特定信息的方法。標識記錄利用書、刊、雜志、文章的名稱查找文獻,是最直接、方便的途徑。 著者途徑:著者途徑以著者姓名作為存儲與檢索標識記錄與排序信息款目,提供按著者姓名查詢信息的方法。以作者或團體的名稱進行查找。著者通常包括個人著者和團體著者,除文獻資源的個人責任者之外,通常還包括報告人、專利權人與團體著者名稱。序號途徑:是以信息或文獻的特定序號排列和檢索信息的途徑。它們是一些文獻類型的特有標識,如專利號、報告號、合同號、標準號、國際標準書號和刊號、注冊號、登記號等。這些號碼特征對于識
14、別特定文獻具有簡短、明確、唯一的特點。 4.字段限制檢索符分類途徑:以學科專業分類代碼(分類號)作為描述與揭示知識的分類標識系統,提供從學科分類角度查找知識的存取途徑。按文獻主題內容所屬的學科進行查找。 主題途徑:以知識概念的主題詞(包括受控詞和自由詞)為揭示與組織信息的詞語標識系統,提供從受控詞或自由詞角度查找信息的存取途徑,這也是從知識的內涵角度展示只是點及其知識網絡的方法。按主題詞的字順排列進行查找(規范化)。 關鍵詞途徑:從文獻中選擇一定的具有實質意義的次進行查找。 其他途徑:如:化學分子式、地名、屬種等途徑。 4.字段限制檢索符information retrial and util
15、ization內容 計算機檢索原理 檢索算符 檢索策略調整 補充知識:關鍵詞的四種變化 上位詞 關鍵詞(等同詞)同類詞 下位詞等同詞:某種明確概念,可以有不同的表達詞。上位詞:指概念上外延更廣的詞。下位詞:指概念上內涵更窄的詞。同類詞:指與關鍵詞具有某種相通屬性的詞。information retrial and utilization檢索詞的選擇與確定 切分。 對課題語句進行切分,以詞為單位劃分單詞或詞組,不可將整個課題照搬。如將句子“微博與大學生信息素養提高之間的關系”進行詞語切分,該句子即可轉換成詞的組合,得到: “微博|與|大學生|信息素養|提高|之間|的|關系”刪除。 對于切分后的詞
16、語進行分析,對不宜做檢索詞的詞進行剔除。這一類詞包括不具備檢索意義的介詞、連詞、副詞等虛詞,以及一般概念性的詞,如研究、狀況、合成、應用、性能、發展、影響等。將上例中不宜做檢索詞的詞刪除,得到: 微博|大學生|信息素養information retrial and utilization檢索詞的選擇與確定 替換。 用更具體、明確的詞替換掉某些容易產生歧義或一詞多義的詞。補充。 對縮略詞組進行還原作為補充,對同義詞、近義詞及相關詞進行補充。限定。 對專指性較差的檢索詞進行限定說明information retrial and utilization 如果需要縮小檢索范圍,提高檢索結果查準率的,調
17、整策略的方法有:減少同義詞或同族相關詞;增加限制概念,用邏輯與(AND)將它們連接起來;使用字段限制,或者限制檢索詞在指定的基本字段出現,或者指定輔助字段,限制結果的文獻類型、語種、出版國家;使用適當的位置算符;使用“非(NOT)”算符,排除無關概念。檢索策略調整 如果需要擴大檢索范圍,提高檢索結果查全率的,調整策略的方法有1)選用了不規范的主題詞或某些產品的俗稱、商品名作為檢索詞。例如,沒有使用學名“馬鈴薯”而使用了俗名“土豆”又如,沒有使用“表面活性濟”而使用了商品名稱“迪恩普”,都會造成漏檢。2)同義詞沒有充分考慮。例如,檢索“物理化學”,沒有考慮到“物理有機化學”,“物化”等同義詞,導
18、致漏檢。檢索策略調整 1.基于同物異名的名稱擴展法(1) 尋找同一事物的學名和俗名、商品名和代號等 如:貿易與商業,便攜式錄音機和walkman, 涉外與對外,刊物與雜志,(2) 尋找同一事物的簡稱、全稱、音譯和意譯等 如:外語與外國語言,world wide web、WWW、互聯網與因特網、科技與科學技術,培養與教育(3) 尋找同一事物名稱的近義詞和反義詞 如:教學與培訓、教育,研究與分析、比較、理論、變化,翻譯與直譯、意譯,美術與藝術,英漢與漢英,否定與肯定(4) 如果是英語,尋找同一事物名詞的單復數、不同詞性、英美語的不同形式。 如:cheque與check,colour和color,stock和share等 檢索策略調整如果需要擴大檢索范圍,提高檢索結果查全率的,調整策略的方法有:檢索策略
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 肝膽胰外科護理查房:MDT模式提升患者就醫體驗
- 初中音樂人音版七年級下冊☆紅河谷教案
- 工人工資培訓
- 七年級地理上冊 3.3 降水和降水的分布教學設計3 (新版)新人教版
- 九年級英語上冊 Unit 4 I used to be afraid of the dark Section A(3a-3c)教學設計(新版)人教新目標版
- 人教版初中歷史與社會七年級上冊 3.2.2 山地之國 教學設計
- 六年級體育上冊 講究儀表美教學設計
- 三年級語文下冊第二單元集體備課教案
- 《百分數的應用(四)》(教學設計)-2024-2025學年北師大版小學數學六年級上冊
- 安徽省銅陵市第十五中學等2023-2024學年八年級下學期期中數學聯考試題
- 2025年科普知識競賽題及答案(共100題)
- 地下混凝土水池蓄水試驗方案20240401
- 頭暈、抑郁與焦慮關系解析與應對策略
- 初中入團考試題型及答案
- 2025年北京衛生職業學院高職單招高職單招英語2016-2024歷年頻考點試題含答案解析
- 2025年河南推拿職業學院單招職業技能考試題庫含答案
- 深基坑工程施工中的自動化設備應用
- 煙草公司辦公樓物業服務方案
- 口腔保健科普講座(幼兒園)課件
- 2024-2025學年全國版圖知識競賽考試題庫資料(含答案)
- (完整)交管12123學法減分試題庫帶參考答案
評論
0/150
提交評論