




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第二講信息檢索原理、語言及方法主要內容1信息檢索基本原理2信息檢索語言3信息檢索技術4檢索詞的確定5信息檢索步驟1信息檢索基本原理
信息檢索基本原理的核心是用戶信息需求與文獻信息集合的比較和選擇,是兩者匹配(match)的過程。
一方面是用戶的信息需求,一方面是組織有序的文獻信息集合,檢索就是從用戶特定的信息需求出發,對特定的信息集合采用一定的方法、技術手段,根據一定的線索與規則從中找出(search,locate,hit)相關的信息。
匹配有其匹配標準,這里涉及到兩者一致性、相關度等問題,按一定的標準篩選出符合要求的信息。復習:信息檢索定義廣義的信息檢索是指將信息按一定的方式組織和存儲起來,并根據信息用戶的需要找出有關信息的過程和技術。全稱為“信息存儲與檢索”。狹義的信息檢索指廣義信息檢索過程的后半部分,即從信息集合中找出所需要的信息的過程,相當于人們通常所說的信息查尋。
信息檢索:是信息用戶的需求和信息集合的比較與選擇,即匹配(match)的過程。用戶根據檢索需求,對一定的信息集合采用一定的技術手段,根據一定的線索與準則找出相關的信息。信息檢索原理圖輸出表述外部特征內容特征
信息檢索的實質是尋求檢索提問與信息特征相匹配的信息。2信息檢索語言2.1檢索語言的概念檢索語言是一種用于描述文獻特征和表達檢索提問的約定語言,它是為溝通文獻標引與檢索提問而專門編制的,也是連接信息存儲和信息檢索兩個過程中標引人員與檢索人員雙方思路的渠道。①在信息存儲過程中,使用檢索語言描述信息的外部特征和內容特征,從而形成文獻標識;②在信息檢索過程中,使用檢索語言描述檢索提問,從而形成提問標識;③當提問標識與文獻標識完全匹配或部分匹配時,需要的信息就被檢索出來了。2.2文獻的特征一篇文章、一本圖書、一份報告等一般都有以下特征:外部特征:題名、作者、作者工作單位,專利和科技報告還有專利號或報告號等,均可以展示特定文獻的外部特征。一般不打開書本或不翻閱文獻的具體內容,僅查找在文獻封面或扉頁位置展示的外部特征,就可以確定一篇文獻。內容特征:假如我們深入到具體的文獻內容當中,則發現還可用另外兩種方法來表現文獻的特征:主題詞與分類。2信息檢索語言語詞規范與否人工語言自然語言標題詞、單元詞、敘詞關鍵詞、自由詞2信息檢索語言2.3檢索語言分類人工語言和自然語言人工語言(artificiallanguage):也稱受控語言,使用經過規范化處理的語詞標識(controlledterm)。人工語言的規范化處理志在解決兩個問題:一是一個概念只用一個詞(或詞組)來表達,這樣就避免了多詞一義的情況;二是一個詞(或詞組)只能表達一個概念,這樣就排除了一詞多義現象。自然語言(naturallanguage):取語言本身的自然形態,不受控,使用非規范詞(uncontrolledterm)或稱自由詞(freeterm)。自然語言極其豐富、復雜和多樣,存在著一詞多義、多詞一義及詞義交叉的現象。常見的有同義詞、近義詞、同型異義詞等。2.3.1分類語言分類語言是指用分類號表達各種概念,并將各種概念以學科性質為主加以劃分和系統排列的檢索語言。按編制方式可分為體系分類語言和組配分類語言,目前信息檢索采用的大多為體系分類語言。《中國圖書館分類法》(中圖法)《中國科學院圖書館圖書分類法》(科圖法)《中國人民大學圖書館圖書分類法》(人大法)《國際十進分類法》UDC《杜威十進分類法》DDC《國際專利分類表》IPC體系分類語言體系分類語言是以科學分類為基礎,運用概念劃分的方法,把具有某種或某些共同屬性的事物集合劃分為一類,用概括該類事物所共有的本質屬性的概念作為類目,并給出相應的標記符號作為分類號。體系分類語言集中體現了學科的系統性,反映事物的從屬、派生關系,從上到下、從總到分,逐級展開,各級類目都一一列舉,具有層壘制結構。我國廣泛使用的《中國圖書館分類法》就是一種典型的體系分類語言,分類表則是這種語言的具體體現。《中國圖書館分類法》簡稱《中圖法》;將學科知識分為5個基本部類,22個大類;分類標識即分類號,由字母和數字組成;采用等級列舉表達從屬關系。《中圖法》簡表A馬、列、毛、鄧理論B哲學、宗教C社會科學總論D政治、法律E軍事F經濟G文化、科學、教育、體育H語言、文字I文學J藝術K歷史、地理N自然科學總論O數理科學和化學P天文學、地球科學Q生物科學R醫藥、衛生S農業科學T工業技術U交通運輸V航空、航天X環境科學、安全科學Z綜合性圖書F經濟F0經濟學F1世界各國經濟概況、經濟史、經濟地理F2經濟計劃與管理F20國民經濟管理F21經濟計劃F22經濟計算、經濟數學方法F23會計F230會計學F231會計簿記方法F232會計設備F233會計工作組織與制度F234各種會計和簿記F234.1社會會計F234.2成本會計F234.3管理會計F234.4財務會計F234.5國際會計…..F3農業經濟F4工業經濟TP自動化技術、計算機技術TP1自動化基礎理論TP3計算技術、計算機技術TP31計算機軟件TP39計算機的應用TP391信息處理(信息加工)TP391.1文字信息處理TP391.12漢字處理系統TP391.13表格處理系統TP391.14文字錄入技術TP391.2翻譯機TP391.3檢索機TP391.4模式識別與裝置TP392各種專用數據庫TP393計算機網絡主題詞語言是以語詞作為概念標識,按字順編排的檢索語言。按主題詞性質不同,分為:(1)標題詞語言(2)單元詞語言(3)敘詞語言(4)關鍵詞語言2.3.2主題詞語言(1)標題詞語言標題詞語言是以標題詞作為文獻內容標識和檢索依據的一種主題語言。它是最早使用的一種主題語言。標題詞,并非僅指文獻“題名”中的詞,而是從文獻的題目、正文或摘要中抽選出來,經過規范化處理,用以描述文獻內容特征的詞和詞組。(2)單元詞語言單元詞語言是采用最小的字面單元——單元詞來標引文獻內容,通過單元詞的組配來檢索文獻的檢索語言。單元詞又稱元詞,是指從文獻中抽取出來的、能表達文獻主題內容的、最基本的不可再分的詞。它一般未經規范化,也無詞表。與標題詞語言相比較,單元詞只是構成標題詞的構件,組配是單元詞語言的突出特點。檢索時,根據檢索課題的內容特征,選取恰當的單元詞進行組配檢索。
(3)敘詞語言敘詞語言是以敘詞作為文獻內容標識和檢索依據的一種主題語言。敘詞又稱描述詞或敘述詞,是指從文獻中抽取出來的,以概念為基礎,經過優化和規范化處理并具有概念組配和詞間語義關系顯示功能,用以表達文獻主題和檢索需求的名詞或術語,可以是單詞,也可以是詞組。敘詞語言——概念組配敘詞在表達復合概念時,需用到概念組配
概念組配與字面組配的區別
例:香蕉蘋果:香蕉-蘋果×香蕉味食品-蘋果√概念組配的類型:概念相交(例:時鐘收音機:時鐘-收音機)概念并列(例:長篇歷史小說:長篇小說-歷史小說)概念限定(例:刀具熱處理:刀具-熱處理)敘詞表敘詞表是準確查選敘詞、提高檢索效率必不可少的檢索工具。按其選詞的學科范圍,可以分為專業性敘詞表和綜合性敘詞表。我國的《漢語主題詞表》就是一部綜合性敘詞表。我國自編的專業性敘詞表很多,諸如《冶金專業敘詞手冊》、《機械工程主題表》等。國外較著名的敘詞表有英國《科學文摘》使用的《INSPECThesaurus》、美國《工程索引》93年后使用的《EiThesaurus》等。敘詞表構成敘詞表由一個主表和幾個副表(或輔助索引)組成。主表是一部敘詞表的主體,包括該敘詞表收錄的全部敘詞和非敘詞。每個敘詞(或非敘詞)有一條款目,敘詞和非敘詞之間、敘詞彼此之間存在著各種詞義關系,也有一套參照系統,并用一套參照符號來顯示這些詞義關系。
敘詞表副表任何一個敘詞表除主表外,還有副表或輔助索引。通常有以下兩種:(1)范疇索引:又稱分類索引。這種索引按照敘詞所屬學科對敘詞進行分類,便于用戶從學科分類角度查找敘詞。(2)詞族索引或詞族表:詞族是一族具有等級關系的敘詞。在族首詞下,按照等級關系把全部同族詞層層展開排列,然后,再按族首詞字順編制成詞族索引或詞族表。在詞族索引中,由族首詞可以找到其層層下屬的全部同族敘詞,然后再從其中選用切題的敘詞進行擴檢或縮檢。敘詞常用參照項及其符號詞義關系
詞類參照符號中文英文簡稱拼音縮寫縮寫原文等同關系敘詞非敘詞用代YDUSEUFUseUsedfor等級關系上位敘詞下位敘詞族首詞屬分族SFZBTNTTTBroadtermNarrowtermTopterm相互關系相關詞參CRTRelatedterm圖書館員 D圖書館工作人員 D圖書館工作者 D圖書館館員 D圖書館管理人員 D圖書館管理員 D圖書館人員 C圖書館工作 C圖書館領導圖書館工作人員Y圖書館員圖書
D多語文圖書D普通圖書D書籍
●
別集
●暢銷書
●叢書
●●地方叢書
●●輯佚叢書
●●自助叢書
●●族姓叢書
●單行本
●電子圖書
●多卷書
●復本書……《漢語主題詞表》示例《冶金專業敘詞表手冊》主表釋例
轉爐煉鋼(此條為敘詞款目)ConvertersteelmakingS轉爐熔煉F氧氣側吹轉爐煉鋼氧氣底吹轉爐煉鋼氧氣頂吹轉爐煉鋼Z熔煉*C氧氣熔煉熔煉能力(此條為非敘詞款目)SmeltingcapacityY生產能力+熔煉C熔化速率(4)關鍵詞語言關鍵詞語言是以關鍵詞作為文獻內容標識和檢索依據的一種主題語言。關鍵詞是直接從文獻的題目、摘要或正文中抽取出來,未經規范化處理的自由詞匯,又稱自由詞,屬自然語言范疇。用詞的自由性是關鍵詞與標題詞、敘詞等人工語言的最大區別之處。關鍵詞大大方便了標引工作,提高了標引速度,降低了標引成本。但是由于它是一種基本上未經過規范化處理的自然語言,因此存在著多義性、同義性、模糊性特性,檢索用詞無法一一對應,故會造成文獻信息的漏檢和誤檢。但是在計算機檢索功能高效運行的條件下,人們對關鍵詞語言的缺點有所“忽視”,反而充分發揮出了它的簡便易用的優點,大量用于網絡環境下的信息檢索,已成為當前互聯網最主要的檢索語言。關鍵詞選取的原理一般來說,一篇文獻都是論及某一方面的特定問題的,也就是說,與論題相關的詞出現的頻率較大。以前的研究表明,無論哪一種類型的文獻,若對文獻中出現的詞進行頻率統計的話,會發現所有的詞可分為三類:i.文獻中出現頻率最高的詞是冠詞、介詞和連詞等,即其本身沒有具體含義的詞,如a、an、the、this、that、or、and、in、on、with等;ii.絕大部分詞在文獻中出現的頻率較低;iii.在文獻中出現的頻率既不高也不低的詞,約3-20個之間,這些詞恰恰是與文獻的主題相關度較大的詞,我們稱之為能表達文獻主題的關鍵詞。3信息檢索技術查全率
查全率即從數據庫內檢出的相關信息量與總相關信息量的比率。
查全率=檢出的相關信息數量/數據庫內的相關信息總量×100%查準率
查準率即從數據庫中檢出的相關信息量與檢出的信息總量的比率。
查準率=檢出的相關信息數量/檢出的信息總量×100%兩個重要的指標常見的信息檢索技術(方法)邏輯算符位置算符禁用詞截詞符“?”基本檢索字段標識符限定檢索邏輯算符邏輯“與”:and;*邏輯“或”:or;+邏輯“非”:not;-邏輯算符1)“與”――邏輯乘用于表達兩個或兩個以上檢索詞之間的相交關系或限定關系運算。邏輯“與”檢索能增強檢索的專指性,使檢索范圍縮小。
用符號“and”或“*”表示,其邏輯表達式為:A*B或AandB(交集)例如:查找有關“英語歌曲在英語教學中的應用”的文獻:
“
英語歌曲*英語教學”或“英語歌曲AND英語教學”
邏輯算符2)“或”――邏輯和用于表達兩個或兩個以上檢索詞之間的并列關系。邏輯“或”檢索擴大了檢索范圍,提高檢索信息的查全率。
用符號“or”或“+”表示其邏輯表達式為:AorB或A+B(并集)如邏輯式“enterpriseORcompany”或者“enterprise+company”
表示文獻中只要含有檢索詞中任何一個或兩個同時存在的文獻為命中文獻.邏輯算符3)“非”――邏輯差用于表達兩個或兩個以上檢索詞之間排除不需要的檢索詞的運算可以縮小檢索范圍,增強檢索的準確性。此運算適于排除那些含有某個指定檢索詞的記錄。用符號“not”或“-”
其邏輯表達式為:AnotB或A-B
如邏輯式“英語語法NOT構詞法”表示檢索除構詞法以外的、有關英語語法方面的文獻邏輯算符邏輯算符的運算次序:在有括號的情況下,先執行括號內的運算;有多層括號時,先執行最內層括號中的運算,逐層向外進行。例如:(A+B)*C-D在沒有括號的情況下,And、Or、Not的運算次序,在不同的系統中有不同的規定。位置算符詞級位置算符包括(W)、(N)算符,表示檢索詞之間的順序關系
(W):W是with的縮寫,表示兩個詞必須緊挨著,且詞序不可顛倒,(W)算符也可用空括號()代替。例:solar()energy
(nw):表示兩個詞之間可插入n個詞,且詞序不可顛倒。例:solar(3w)energy(N):N是near的縮寫,表示兩個詞之間必須緊挨著,但詞序任意。例:fiber(N)optic(nN)表示兩個詞之間最多可插入n個詞,詞序任意。例:fiber(4N)optic位置算符(S):S為subfield或sentence的縮寫,表示兩個詞必須在記錄中的同一個句子或同一個子字段中出現,且詞序可變。子字段含義由數據庫定義。例:color(S)pigment(F):F為field的縮寫,表示兩個詞必須在記錄中的同一個字段中出現,且詞序可變。有了邏輯算符和位置算符,即可編制較為完整的檢索提問。在檢索時應注意:①位置算符優先于邏輯算符②位置算符的執行順序是按語句中位置算符的輸入順序從左至右執行的。如有括號,則優先執行括號內的位置算符。禁用詞在數據庫中,下列九個詞不能作為檢索詞使用,這些詞稱為禁用詞。禁用詞有:AN、AND、BY、FOR、FROM、OF、TO、THE、WITH截詞符截詞檢索:利用檢索詞的詞干或不完整詞形進行查找的過程。可以起到擴大檢索范圍,提高查全率,減少檢索詞的輸入量,節省檢索時間。尤其在英文檢索系統中檢索時,若遇到名詞的單復數形式,詞的不同拼寫法,詞的后綴變化時,均可采用此方法。如:comput*截詞符常用的截詞符有:*,#,?,!,$
★注:不同的數據庫所用的截詞符不一樣,使用前應先查一下各數據庫的幫助加以確認截詞符截詞的方式有多種,可以分為有限截詞、無限截詞有限截詞——一個符號表示一個字母
如:wom?n可檢索出:woman,women(中間截斷)無限截詞——一個符號表示任意多個字母
如:comput*可檢出:Computer,computers,computering截詞符按照截詞的位置,可分為:1)后截斷、前方一致Comput*——computer,computers,computing……2)前截斷、后方一致
*computer——minicomputer,microcomputer,……3)中間截斷、前后一致
Fib*board——fiberboard,fibreboard基本檢索字段標識符字段
后綴代碼Abstract文摘
…/ABDescriptors敘詞
…/DETitle題目
…/TIIdentifiers標引的自由詞
…/IDFullDescriptors完整的敘詞(單元詞)…/DF
限定檢索相同的字段在不同的數據庫,代碼可能不同,檢索時需要參閱數據庫使用指南。
前綴代碼名稱例子AU=Author(作者)AU=MIRO,R?CS=CorporateSourceCS=HARVARDAND(機構名稱)MEDICINECO=CompanyName(公司名稱)CO=FORDMOTOR?JN=JournalName(期刊名稱)JN=ScientiaScincaLA=Language(文種)LA=ENGLISHPY=PublicationYear(出版年代)PY=1999注:使用限定檢索時“=”后不留空格。4檢索詞的確定4.1原則a、反映信息概念的準確性古代語言演變=古代語言+語言演變=古代語言+演變(X)b、反映信息內容的全面性協同設計+協同工作Collaborativedesign+cooperativedesignCollaborativework+cooperativeworkc、注意檢索詞的多樣性軌道鐵軌微型計算機微機電腦4.2方法
a、命名法對于一個事物,人們首先要給他命名。(1)屬性命名法命名的名稱用詞往往取自能描述該事物特征或相關屬性的詞匯,由于事物具有多種特征或多種相關屬性,因此可以產生多種名稱。如:烏賊墨斗魚遮陽傘太陽傘(2)比喻命名法如:計算機:又稱“電腦”;(3)來源命名法根據發現者或發明者命名,“X射線”又稱“倫琴射線”。4檢索詞的確定4.2方法b、定義法是將事物及其名稱同化到已有的概念體系中,它將事物歸入某一類屬并用其他相關詞、限制詞對其加以說明和區別。定義的方法有:(1)抽象化
“調溫設備”可抽象化為“溫度控制設備”;(2)具體化電腦微型計算機(3)反義詞
“污水處理”可稱作“水凈化”,“潔凈環境”也可稱“無塵環境”等;(4)逐字展開如“溫度計”即“溫度測量儀器”;(5)代稱詞如“二次電池”即“蓄電池”。4檢索詞的確定4.2方法c、變體法事物名稱在不同的時間或空間中可能發生變異,通過變體分析找出詞(或詞組)的各種變化形式,從而可以找出較多的同義詞和相關詞。例如:
拼寫變化meter+metre,disk+disc
分離式、合體式database+database
順序式、逆序式抗拉性不銹鋼+不銹鋼抗拉性姓、名順序英文人名檢索時應寫順、逆兩種形式,如:Wan,lin+Lin,Wan+Wan,L.。
全稱、簡稱(或縮寫)北京大學+北大;利廢+廢物利用;
單數、復數變化等。4檢索詞的確定4.3如何從課題名中確定檢索詞
切分將課題語句分割為一個一個的詞。例如“計算機情報檢索方法”可切分為:|計算機|情報|檢索|方法|。
刪除從語句切分出來的詞中刪除那些(1)不具有檢索意義的虛詞(包括介詞、連詞、助詞、副詞等)及其他非關鍵詞;(2)過分寬泛和過分具體的不必要的限定詞,過分寬泛難以觸及問題實質,太狹義具體的限制詞則會掛一漏萬;(3)存在蘊涵關系的可合并詞。“基于Web的數據庫”,經刪除后,Web|數據庫稀土材料的研究現狀及發展趨勢稀土材料稀土材料釹鐵硼的研究釹鐵硼電磁波教學用的多媒體課件電磁波多媒體課件4檢索詞的確定4.3如何從課題名中確定檢索詞替換從課題語句中得來的詞也許偏于模糊、寬泛、狹窄或不可行,不能取得所希望的結果,這時可以引入更明確、更具體、更本質、更可行的概念詞來替換原詞,或作為原詞的同義詞和相關詞一并見面所。空氣中細菌的計算方法空氣污染的計算方法聚類即把切分、刪除、替換后所得出的單元詞按語義概念進行同類合并,將那些可以相互等效、相互替換、相互補充的同(近)義詞、相關詞歸成一組。聚類的實質是進行組面分析,將語句和詞轉換成概念(組面)的集合。補充包括(1)補充來源詞,即找出縮略詞的來源詞組,將兩者一并作為檢索詞;(2)補充同義詞和相關詞(包括上位詞、下位詞和同位詞等)。模擬計算機模擬計算機+模擬系統*計算機liradlirad+laserradar“毫米波”:“millimeterwave”與“millimetrewave”
限定針對一詞多義導致誤檢的問題,需采取限定措施,即增加”限定詞“。具體方法有兩種,一是邏輯乘,一是邏輯非。線路線路*(電子+無線電+)線路線路-(道路+車輛+)4.3如何從課題名中確定檢索詞5
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年鄉村文化旅游產業鏈上下游協同發展報告
- 2025年教育精準扶貧項目實施效果監測與評價報告
- 中國高純四氟化碳項目創業計劃書
- 2025年防爆電氣設備項目合作計劃書
- 廢物利用商業計劃書
- 2025年酶法生產海藻糖項目發展計劃
- 2025年計算機系統服務項目合作計劃書
- 2025年特種功能焊接材料項目合作計劃書
- 股權激勵計劃轉讓及股權質押合同
- 達州通川區“達人英才計劃”引進人才筆試真題2024
- 2025年中國冷庫用叉車數據監測研究報告
- 2025年高考第二次模擬考試物理(浙江卷)(參考答案)-20250416-113627
- 2025年化妝師職業技能考試試題及答案
- GA 1812.1-2024銀行系統反恐怖防范要求第1部分:人民幣發行庫
- 2025中信建投證券股份限公司校園招聘易考易錯模擬試題(共500題)試卷后附參考答案
- 2025年山東省泰安市新泰市中考二模化學試題(原卷版+解析版)
- 2025年雞蛋市場調查報告
- 2025年職業技能競賽(計算機程序員賽項)參考試題(附答案)
- 湖北省武漢市2025屆高中畢業生四月調研考試語文試卷及答案(武漢四調)
- 2025年全國中小學生百科知識競賽題庫及答案(480題)
- 測控技術培訓課件
評論
0/150
提交評論