常見的檢索技術_第1頁
常見的檢索技術_第2頁
常見的檢索技術_第3頁
常見的檢索技術_第4頁
常見的檢索技術_第5頁
已閱讀5頁,還剩5頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、常見檢索技術作者:陳亞萍 學號:1101212925手工檢索(manual retrieval)是一種傳統的檢索方法,即以手工翻檢的方式,利用工具書(包括圖書、期刊、目錄卡片等)來檢索信息的一種檢索手段。與之對應的計算機檢索(computer-based retrieval)簡稱機檢,是指利用計算機通過各種數據庫查找所需文獻信息的方法,檢索過程是由人操縱計算機完成的,其匹配是由計算機進行的。在檢索過程中,人是整個檢索方案的計設者和操縱者。利用機器及計算機,配合以相應的搜索語言和邏輯對相關課題進行檢索是檢索技術的發展趨勢。檢索表達式,又稱檢索式、檢索提問式,是機檢中用來表達檢索提問的一種邏輯運算

2、式。構建檢索表達式需要用到相關邏輯檢索及檢索技術。(一) 常用檢索方法概述1. 布爾邏輯運算檢索是指利用布爾運算符連接各個檢索詞,然后由計算機進行相應邏輯運算,以找出所需信息的方法。它使用面最廣、使用頻率最高。2. 位置運算檢索位置算符檢索是用一些特定的算符(位置算符)來表達檢索詞與檢索詞之間的臨近關系,并且可以不依賴主題詞表而直接使用自由詞進行檢索的技術方法。3. 截詞檢索與詞根檢索截詞檢索是預防漏檢提高查全率的一種常用檢索技術,大多數系統都提供截詞檢索的功能。截詞是指在檢索詞的合適位置進行截斷,然后使用截詞符進行處理,這樣既可節省輸入的字符數目,又可達到較高的查全率。詞根檢索是指輸入某一單

3、詞,系統會自動匹配與該詞具有相同詞根的其他詞。4. 字段檢索限定如主題、關鍵詞等某個字段進行檢索。5. 全文檢索將文件中所有文本與檢索項匹配的文字資料檢索方法。6. 精確檢索指檢索詞與結果完全匹配的檢索技術。與之對應的模糊檢索,則是指檢索詞的基礎上進行相應的擴展。7. 其他檢索技術(禁用詞、嵌套、限制詞、大小寫敏感詞等)(二) 分述1. 布爾邏輯檢索(Boolean retrieval)喬治布爾(George Boole,1815年11月1864年),愛爾蘭數學家,哲學家。1848年,布爾出版了The Mathematical Analysis of Logic,這是他對符號邏輯諸多貢獻中的第

4、一次。1854年,他出版了The Laws of Thought,這是他最著名的著作。在這本書中布爾介紹了現在以他的名字命名的布爾代數。由于其在符號邏輯運算中的特殊貢獻,很多計算機語言中將邏輯運算稱為布爾運算,將其結果稱為布爾值。布爾邏輯在檢索中主要分為與、邏輯或、邏輯非。(1) 邏輯與含義表示檢出同時含有A、B兩個檢索詞的記錄。用法常用于連接不同概念的檢索詞,以表達復雜的主題運算符AND 或*檢索式A AND B 或A*B例如:分別在中英文數據庫中,用題名字段檢索智能機器人控制方面的文獻。示例數據庫:CNKI 檢索式:智能機器人*控制 示例數據庫:ScienceDirect 檢索式:inte

5、lligent robot AND control由結果可見,邏輯與重在“同時”,及檢索字段里出現and/*前后的檢索詞。(2) 邏輯或含義表示檢出含有A詞或者B詞的記錄。用法常用于連接同一概念的不同表達方式,或者相關詞,以防漏檢。運算符OR 或者+檢索式A OR B 或者A+B例如:在中文數據庫中檢索二氧化硫方面的文章數據庫:CNKI 檢索式:二氧化硫OR SO2在英文數據庫中檢索傳感器方面的文章示例數據庫:CSA 檢索式:sensor OR detector由上述檢索結果可見,邏輯或的意義為OR/+前后的檢索詞“出現其一或同時出現”,這樣能夠保證課題的查全率。(3) 邏輯非含義檢出含有A詞

6、,但同時不含有B詞的記錄。用法常用于排除某些概念,以達到精確檢索的目的。運算符NOT 或-檢索式A NOT B 或者A-B例如:在中文數據庫中查非酒精飲料方面的文章示例數據庫:萬方 檢索式:飲料NOT 酒精(4) 注意邏輯運算符在中文數據庫中多使用符號*,+,-,在英文數據庫中使用字母and,or,not,具體如何使用,請參考數據庫的幫助或說明。 邏輯運算順序:如果有括號,先執行括號內的運算;沒有括號時,各系統有不同的規定,檢索時,請參考數據庫的幫助或說明。2. 位置算符檢索用法:用來指定詞與詞的位置關系(1) W/n 算符兩側的兩個檢索詞按此前后銜接的順序排列,詞序不可變,詞與詞之間相互距離

7、不超過n個詞(注意:是單詞,不是字母)。W即with。示例數據庫:World Scientific 檢索式:solar Near/2 energy(2) N/n 算符兩側的檢索詞之間的距離不超過n個詞,詞序可變。N即Near。示例數據庫:World Scientific 檢索式:solar Near/2 energy(3) Same 算符兩側的檢索詞在同一個子字段或同一個自然句中,使用 SAME 運算符(而非 AND 運算符)是縮小檢索范圍的好方法。(4) Paragraph算符兩側的檢索詞在同一個段落中。3. 截詞檢索與詞根檢索(1) 截詞檢索截詞檢索或稱通配符擴展檢索,是預防漏檢提高查全率

8、的一種常用檢索技術,大多數系統都提供截詞檢索的功能。截詞是指在檢索詞的合適位置進行截斷,然后使用截詞符進行處理,這樣既可節省輸入的字符數目,又可達到較高的查全率。用某個符號來代替英文單詞的一部分,通常用于相同詞干或部分拼寫相同的詞,常用的截詞符有* ? 等。?代表任意一個字符,*代表零個或多個字符。截詞檢索可分為:n 有限截詞放在詞中間或末尾,一個符號表示一個字母。例如:示例數據庫:Web of Science (SCI) 輸入wom*n 檢出woman,womenn 無限截詞放在詞的末尾,一個符號表示任意多個字母。例如:示例數據庫:Oxford University Press(OUP)輸入

9、compute? 檢出computer,computers,computed(2) 詞根檢索(stemming)即檢索系統會根據詞根的分析檢索相關詞,例如輸入computer,系統自動檢索包含詞根“computer”的單詞(computer、computing、 computational、computed等等)的全部記錄。示例數據庫:EI 輸入:control 輸出:control,controller,controlling等檢索選項示意圖檢索結果示意圖4. 字段檢索即將搜索詞限定在某個字段進行搜索,字段檢索結合邏輯檢索可以提高結果的精準度。常見字段English搜索結果呈現位置摘要Abs

10、tract論文摘要題名Title書目或論文題目關鍵詞Keyword摘要或關鍵詞主題Subject呈現相關主題的文獻作者Author按作者呈現結果作者機構Affiliation按作者單位呈現結果圖書編號ISBN搜索某圖書期刊編號ISSN搜索某期刊內文獻5. 全文檢索全文檢索(full-text search),是指從各數據中逐字查詢所鍵入的檢索詞,目的是查看所要的詞語是否出現在文本中,但是全文字段并不查詢書名或者其他的字段。使用時,檢索詞越明確越好。6. 精確檢索用法:用來檢索特定的詞組或句子數據可采用如下任意方式來實現精確檢索:(1) 使用特定符號“” (如google, EI)(2) 使用程

11、序控制,如CNKI利用精確匹配和模糊匹配實現。7. 其他檢索技術(1) 禁用詞用法:排除沒有檢索意義的詞。這些詞通常是一些虛詞,如冠詞、連詞、助詞等。檢索時可查看系統的禁用詞表。例如:漢語中“的、地、得、了”等。英語中的a /about /also/ and /any/ as /at/ be /between/ by/both/ for/ some/ so/ not /this/ with等。(2) 嵌套用途:簡化檢索式,提高檢索效率例:在中文數據庫中查本科生或研究生的就業問題(本科生OR 研究生)AND 就業例:在英文數據庫中查有關造紙廢水處理方面的文章(paper making OR pa

12、per pulp)AND wastewater AND (treat OR treatment)(3) 限制詞字段檢索和限制檢索常常結合使用,字段檢索就是限制檢索的一種,因為限制檢索往往是對字段的限制。在搜索引擎中,字段檢索多表現為限制前綴符的形式。如屬于主題字段限制的有:Title,Subject,Keywords等。屬于非主題字段限制的有:Image,Text等。作為一種網絡檢索工具,搜索引擎提供了許多帶有典型網絡檢索特征的字段限制類型,如主機名(host);域名(domain);鏈接(link);URL(site);新聞組(newsgroup)和 E-mail限制等。這些字段限制功能限定了檢索詞在數據庫記錄中出現的區域。如在北大網站上關于籃球賽的信息:(4) 大小寫敏感詞(casesensitive)它主要是針對檢索詞中含有人名、地名等專有名詞的。在區分大小寫的情況下,大寫檢索詞能被當作專有名詞看待(如 Internet專指因特網);小寫檢索詞則被當作普通詞看待(如internet則代表互聯網絡)。而在不區分大小寫的情況下,則無法區分該檢索詞是指專

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論