




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第三講信息檢索技術1本章重點信息的特征與檢索語言和檢索途徑的關系檢索詞的確定方法常用的計算機檢索技術如何分析檢索需求23.1信息特征、檢索語言與檢索途徑
檢索語言是用于描述文獻特征、用于標引和檢索的人工語言。創建檢索語言的目的,是建立溝通標引與檢索的橋梁。檢索語言按不同標識系統組織文獻,以適于不同檢索需求,聚集相同學科門類和主題內容的文獻,從而使雜亂無序的文獻便得有序。33.1.1檢索語言與信息特征
一篇文章、一本書、一份報告等一般都有以下特征:一、外表特征:題目、作者、作者工作單位,專利和科技報告還有專利號或報告號等,這些可以表征一篇特定文獻的特征可以在文獻的封面或扉頁,即不打開書本,或不看文獻的具體內容就可以確定一篇文獻。二、內部特征:假如我們深入到文獻內容中間,則可以發現還可用另外兩種方法來表征它:4a.一般,一篇文獻都是論及某一方面的特定問題的,也就是說,與論題相關的詞出現的頻率較大。以前的研究表明,無論哪一種類型的文獻,若對文獻中出現的詞進行頻率統計的話,會發現所有的詞可分為三類i.文獻中出現頻率最高的詞是冠詞、介詞和連詞等,即其本身沒有具體含義的詞,如a、an、the、this、that、or、and、in、on、with等;ii.絕大部分詞在文獻中出現的頻率較低;iii.在文獻中出現的頻率既不高也不低的詞,在文獻中約3-20個之間,這些詞恰恰是與文獻的主題相關度較大的詞,我們稱之為文獻的主題詞或關鍵詞。5b.另外,一篇文獻還可以按照各種自然科學和社會科學的分類方法進行歸類,如《中圖法》:O數、理、化O1數學O12初等數學O123初等幾何6特征外表特征主題特征內容特征分類特征標識標題、作者、作者工作單位主題詞、關鍵詞文摘、說明、全文分類號對應精確對應模糊對應模糊(精確)對應模糊對應特征對應關系73.1.2檢索語言語言是一種人們用以交流溝通的重要工具。人與計算機對話,需要有計算機語言,人與檢索系統對話來實施檢索,則需要有檢索語言(retrievallanguage)。檢索語言是用于描述檢索系統中信息的內部及外部特征和表達用戶信息提問的一種專門語言,檢索的匹配正是通過語言的比較匹配來實現的。檢索語言也稱索引語言,后者是從檢索系統的標引角度出發的,而前者是從用戶的信息檢索角度出發的。8不同的檢索語言構成不同的標目及其索引系統,提供各種檢索點。
9人工語言(規范語言)和自然語言(非規范語言)artificiallanguage:受信息檢索的控制,使用控制、規范詞(controlledterm)。人工語言的規范處理重在兩個方面:一是使一個概念只用一個詞匯來表達,這樣就避免了多詞一義的情況;二是使一個標引詞只能表達一個概念,這樣就排除了一詞多義現象。naturallanguage
:自然語言是取其自然形態,不受控,使用非規范詞(uncontrolledterm)或稱自由詞(freeterm)。自然語言極其豐富、復雜和多樣,存在著一詞多義、多詞一義及詞義交叉的現象。常見的有同義詞、近義詞、同型異義詞等。10分類語言和主題語言分類語言也屬于主題語言。分類語言是按學科范疇劃分而構成的一種語言體系,它集中反映學科的系統性、反映它們的相關、從屬、派生等關系,從總體到局部分層、分面展開,形成分類體系。由類目號碼及名稱作為檢索語言,構成分類類目表,如前述圖書分類表、專利分類表用的都是分類語言。主題詞語言包括:關鍵詞語言、單元詞語言、標題詞語言、敘詞語言等,它們有不同的主題詞表。主題詞表達概念本身,在主題詞表中通過參照系統來指示詞匯之間的關系。11它是用分類號來表達各種概念,將各種概念按學科性質進行分類和系統排列,包括它等級體系分類語言,又稱等級列舉式分類法或體系分類法。體系分類法主要應用概念劃分與概括的方法,具有列舉式類目、分類符號(標識)、等級制結構、直線性序列等特點。
等級體系分類法的表現形式為分類表分類文獻及其索引系統,是根據一定的觀點,以科學分類為基礎,運用概念劃分和概括的方法,按照知識門類的邏輯次序,從總到分,從簡單到復雜,層層進行概念劃分,則產生許多不同等級的類目。上位類包括下位類的總合,下位類隸屬于其上位類,同級類互不相容,構成一個嚴格有序的層磊式結構系。12國內外常用的分類法有:(1)、人民大學圖書館圖書分類法(人大法)該分類法從1953起陸續在全國各圖書館試用,后經過多次修訂再版,目前仍有許多圖書館采用該分類法。(2)、中國科學院圖書館圖書分類法(科圖法)該分類法目前主要用于中國科學院圖書館及其所屬各科研單位的圖書館(室)的文獻分類。(3)、杜威十進制分類法(DecimalClassification)簡稱為杜威法該分類法是目前世界上使用最廣泛、影響最大的圖書分類法,已用于130多個國家的圖書館,許多分類法均是借鑒于杜威分類法產生的。(4)、美國國會圖書館圖書分類法(LibraryofCongressclassification)簡稱為LC分類法目前美國大多數圖書館采用的分類法。(5)、國際十進分類法(UniversalDecimalClassification)簡稱UDC分類法等。(6)、國際專利分類法(InternationalPatentClassification)簡稱IPC13(1)體系分類語言
《中國圖書館分類法》:分五大部22大類。
A馬克思主義、列寧主義、毛澤東思想、鄧小平理論
B哲學、宗教
C社會科學總論
D-K社會科學各學科
N自然科學總論
O-X自然科學各學科
Z綜合性圖書14其中文學類類目展開情況如下:I文學I2中國文學I24小說I247建國后作品I247.4章回小說I247.5新體長篇、中篇小說I247.7新體短篇小說I247.8故事、微型小說I25報告文學I313日本文學15分類標引方法:崔文風著1.心理與人生-發展心理教子成長2.心理與人生-完善心理事事成功3.心理與人生-調節心理強身治病分類好分別分:
G78、
B848.4R395.6
分類號是依據內容來確定的,而不是名稱16(2)關鍵詞語言:關鍵詞是從文題、文摘或正文中抽出,具有實質意義,能夠代表文獻內容主題的名詞術語。關鍵詞可直接用于文獻標引。(3)主題詞語言:主題詞是表達一定概念主題的規范化的名詞術語。主題標引須有專門的主題詞表。17主題詞表:①字順表computerizedindustrialcontrolUSEindustrialcomputercontrolComputerizedinstrumentationUFcomputerizedinstrumentsNTautomatictestequipmentcomputerizedmonitoringcomputerizedspectroscopycomputerizedtomographyBTcomputerapplicationsTTcomputerapplicationsRTastronomycomputingastrophysicscomputingbiologycomputingchemicalengineeringcomputing18②詞族表computerapplications
.administrativedataprocessing
..distributivedataprocessing
.computerizedsignalprocessing
..computerizedpatternrecognition
..computerizedpictureprocessing
...computer-generatedholography19檢索點(accesspoint)是檢索的出發點,以前常用“檢索途徑”(approach)這一術語。每件文獻均有內部的(信息內容)特征及其相關的外部特征,在檢索系統中檢索點是標目的總稱。從文獻的特征出發,將其特征值與檢索系統中標目數據進行計算比較,通過匹配達到檢索目的。反映文獻信息內容特征:分類檢索和主題檢索;反映文獻外部特征:作者、名稱和號碼檢索等。
3.1.3常用檢索途徑201分類檢索(classification)
分類檢索是從文獻內容所屬的學科類別出發來檢索文獻,它依據的是一個可參照的分類體系(classificationsystem)。
分類體系按文獻內容特征的相互關系加以組織,并以一定的標記(類號)作排序工具,它能反映類目之間的內在聯系,包括從屬、并列、交替、相關等。
21
主題(subject)檢索是從反映文獻內容的有關主題詞出發來檢索文獻,主題是檢索點,它對應文獻主題概念。檢索按主題詞的音或形的字順進行,其方式如查字典、詞典。主題詞有多種類型:有規范詞和自由詞,有單元詞和多元詞,有先組結構和后組結構等。主題詞的合理選擇與使用對檢索結果的優劣直接相關。2主題檢索22
主題詞表的字順表用標識符號將非主題詞指引到其主題詞,如:義務教育用普及教育。對于無法利用字順表確定檢索用主題詞時,可采取如下辦法:A將檢索者自擬的標題倒置,再試查。B利用擬定概念詞的同義詞試查。C利用擬訂概念詞的上位詞試查。D利用詞表范疇表,由上向下逐級試查。(2)調整檢索范圍A利用字順表的相關參照提示,擴大檢索范圍。B利用范疇表(詞表分類表)調整檢索范圍。233作者檢索
作者(author)檢索是從文獻的作者姓名出發來檢索其文獻。“作者”廣義上還應包括:匯編者(compiler)、編者(editor)、主辦者(sponsoringbody)、譯者(translator)等此外,還有代表機構、單位的團體作者(corporateauthor),包括作者所在單位(author'saffiliation)。
244號碼檢索
號碼包括文獻的編號(number)、代碼(code)等,它們是文獻信息的一些特有的外部標識,號碼檢索點以號碼特征來檢索文獻信息。號碼多種多樣,通常用數字、字母或用它們結合的形式或以分段的方式來表示其各部分的含義。比如科技報告有報告號,還有其合同號、撥款號等,比如專利文獻有專利號、入藏號、公司代碼等;比如分類號也是號碼(特殊的號碼檢索),等等。它們各自按號碼順序,或以數序、或以字序、或以混合序列檢索。25附錄:學術論文的基本格式1.題名(Title,Topic)題名即題目或標題,是以最恰當、最簡明的詞語反映論文最重要的特定思想內容的邏輯組合。題名(1)簡潔明了:所謂簡潔,就是指用語要簡明、潔凈、雅致和精當,惜字如金,用最少的文字精當地概括論文內容。有人根據人們對語言的一般記憶特點,提出標題最好控制在12個字以內(題名規范的要求是一般不超過20字,必要時可加副題名)。261.題名(Title,Topic)(2)準確恰當:所謂準確,就是指標題能準確概括論文內容,能恰當地限定論文范圍,能實事求是表達論文中心內容的深度和廣度,達到文題相符。論文標題提倡“宜小不宜大,宜近不宜遠,宜今不宜古,宜實不宜虛”
(3)新穎多樣:標題新穎醒目會直接吸引讀者的閱讀興趣。所以論文標題不僅要準確、精練,而且還要新穎。272.署名
給論文署名不僅是對著者的尊重和應有的榮譽,而且還表示文責自負。按其對研究和論文撰寫的貢獻大小排序,貢獻最大者列為第一著者,次之列為第二著者,余者類推。283.摘要(Abstract)
摘要或提要是對全文的高度濃縮。為了國際交流,一些期刊還要求提供外文摘要。摘要是論文內容不加注釋和評論的簡短陳述,具有獨立性和自含性。其內容包括:研究的對象和主要目的、主要觀點、主要成果及意義等。一般200-300字,外文不超過250個實詞.294.關鍵詞(KeyWord)
關鍵詞是為了配合文獻標引工作而給出的能反映文章最主要內容的單詞或術語,對編制檢索工具和文獻檢索有重要作用。關鍵詞一般3-8個30題名作者作者單位31摘要32關鍵詞33中圖分類號文獻標示碼345.文獻標識碼、中圖分類號凡具有文獻標識碼的文章均應標識分類號。文章分類號采用《中國圖書館分類法》(第四版)進行分類。一般文章標識1個分類號,多個主題的文章可標識2個或3個分類號;主分類號排在第一位,多個分類號之間應以分號分隔。中圖分類號著錄格式為:中圖分類號:TK730.2;O357.535文獻類型及載體類型標識366.正文(Mainbody)
這是學術論文的主體部分,是作者研究成果的具體表述。要求層次清楚,概念準確,判斷真實,推理符合邏輯,要形成一個完整的邏輯系統。內容周詳嚴謹,論證嚴密有力。正文一般由引言、本論和結語三段式組成。(1)引言:屬于論文的引論部分。作者應在這部分簡要交代研究工作的緣起、說明這一論題研究的目的、背景、前人已有的工作和現在研究的理論依據、實踐基礎、預期結果及在相關領域的地位、作用和意義等。
376.正文(Mainbody)(2)本論:是論文的核心部分。作者在這一部分要詳細闡述所研究的新成果,特別要實事求是地清晰闡明自己所提出的新的獨創性見解。(3)結論:是論文最終的、總體的結論,也就是整篇論文經過研究分析和討論而形成的最終觀點,是對正文中各分論點經過辨證分析后綜合而成的總觀點,而不是各分論點的簡單重復和相加。387.附注(Annotation)
論文的引文必須用附注注明出處,便于檢索利用。期刊論文可采用夾注、頁下注(腳注)和篇末注(即整篇論文寫完后對全文的引文統一作注)等方式。39注釋40注釋418.參考文獻(Reference)注意:參考文獻主要來源不應該是網頁在正文之后列出本篇論文在研究和寫作中所參考或引證的主要文獻資料。其著錄依據是:國家標準局制定的《文后參考文獻著錄規則》(GB7714—87)。參考文獻的主要著錄項目有:①主要責任者。多個責任者之間以“,”分隔。②文獻題名及版本③文獻類型及載體類型標識。
42參考文獻439.各類參考文獻著錄格式①專著、論文集、學位論文、報告[序號]主要責任者.文獻題名[文獻類型標識].出版地:出版者,出版年.起止頁碼(任選).[1]劉國鈞,陳紹業,王鳳翥.圖書館目錄[M].北京:高等教育出版社,1957.15-18.449.各類參考文獻著錄格式②期刊論文[序號]主要責任者.文獻題名[J].刊名,年,卷(期):起止頁碼.[3]何齡修.讀顧城《南明史》[J].中國史研究,1998,(3):167-173.[4]金顯賀,王昌長,王忠東,等.一種用于在線檢測局部放電的數字濾波技術[J].清華大學學報(自然科學版),1993,33(4):62-67.459.各類參考文獻著錄格式③論文集的析出文獻[序號]析出文獻主要責任者.析出文獻題名[A].原文獻主要責任者(任選).原文獻題名[C].出版地:出版者,出版年.析出文獻起止頁碼.[5]鐘文發.非線性規劃在可燃毒物配置中的應用[A].趙瑋.運籌學的理論與應用——中國運籌學會第五屆大會論文集[C].西安:西安電子科技大學出版社,1996.468-471.469.各類參考文獻著錄格式④報紙文章[序號]主要責任者.文獻題名[N].報紙名,出版日期(版次).[6]謝希德.創造學習的新思路[N].人民日報,1998-12-25(10).473.2檢索工具、數據庫與檢索系統
檢索工具是人們用來報道、存儲和查找各類信息的工具。傳統的檢索工具是指目錄、索引、文摘等二次文獻,現在的檢索工具不僅包括傳統的二次文獻,還包括基于Internet的網絡信息檢索系統(如數據庫)、網上工具書、搜索引擎等各種信息檢索工具和檢索系統。其中網絡數據庫和搜索引擎是目前最主要的檢索工具。
483.2.1檢索工具每一個檢索工具,都有其特定的文獻信息收錄范圍、檢索途徑與檢索方法。檢索工具的選擇,對檢索詞的確定以及檢索提問式的編制起主導作用。文獻收錄范圍是檢索工具的最基本特點,其出版時間和所概括的內容范圍是否包括檢索課題的內容,以及質量和權威性如何,是在使用檢索工具前必須了解的基礎知識49
傳統檢索工具是以文獻線索為檢索對象。檢索系統存貯的是二次文獻,信息用戶通過檢索獲得的是與檢索課題有關的一系列文獻線索。書目檢索工具是根據這些條目著錄的內容和揭示文獻的深度不同而形成四種檢索工具:目錄檢索工具題錄檢索工具文摘檢索工具索引檢索工具50檢索工具也是隨著信息檢索技術的不斷發展而發展的。隨著時間的推移,有些檢索工具現在不再使用了;而一些知名的檢索工具如工程索引(EI)、科學引文索引(SCI)等,則隨著時代和主流技術的變化,分別提供印刷版(print)、光盤版(CD-ROM)、網絡版(web)、聯機版(online)等多種方式。513.2.2數據庫信息檢索系統中的數據庫,是指由計算機處理的一定數量同類信息的有序集合,既是信息源,又是檢索對象。信息對象為文獻信息的數據庫,則稱為文獻信息數據庫;能夠在互聯網上提供web查尋、檢索的數據庫,則稱為在線數據庫或網絡數據庫。52(1)按收錄文件類型可分為:圖書數據庫、期刊數據庫、會議論文數據庫、學位論文數據庫、專利數據庫、標準數據庫、產品數據庫、報刊數據庫等(2)按收錄的內容劃分為書目數據庫、文摘型數據庫、全文數據庫、數值數據庫、事實數據庫等。(3)按數據庫收錄的學科范圍劃分為:專業性數據庫和綜合性數據庫。532.數據庫的結構數據庫一般由記錄、字段、文檔組成。字段:是對實體的具體屬性進行描述的結果,是比記錄更小的單位,是組成記錄的數據項目。記錄:描述一篇文獻的所有字段(field)組成一條記錄(record)文檔(file):一段時間或某一主題范圍內的記錄集合構成數據庫文檔543.如何了解一個數據庫服務形式涵蓋范圍數據量可使用數據量文獻類型收錄年代文種更新頻率(詳細分析見教材53頁)553.2.3信息檢索系統信息檢索系統是指根據特定的信息需求而建立起來的一種有關信息搜集、加工、存儲和檢索的程序化系統,其主要目的是為人們提供信息服務。計算機信息檢索系統包括計算機、數據庫、管理軟件和通信網絡檢索終端,數據庫是其核心。
56檢索系統一般提供了三種檢索方式,即:①瀏覽式、超文本式、超媒體檢索(browse);②菜單式檢索;③命令式檢索(commandsearch)。57在菜單檢索中一般有基本檢索、高級檢索功能,有的檢索系統還提供專家(專業)檢索。檢索時,需要在顯示頁面上的檢索框中鍵入恰當的檢索詞,每個檢索框對應一個字段。有的字段設有可展開的索引詞典,提供檢索詞的選擇,有的檢索頁面上還可有某些限定項(如年代、文獻類型、學科范圍等)可供選擇。583.2.4常用數據庫與檢索系統1.“三大”檢索工具美國的SCI(科學引文索引)、EI(工程索引)、ISTP(科技會議錄索引)2、.“三大”中文期刊檢索工具其它見教材60-61593.3計算機檢索技術檢索技術,是指利用光盤數據庫、聯機數據庫、網絡數據庫、搜索引擎等進行信息檢索,采用的相關技術,主要包括布爾檢索、截詞檢索、字段檢索、詞位置檢索、加權檢索等603.3.1布爾邏輯檢索
邏輯算符是表達檢索提問的各概念之間的邏輯關系。邏輯算符有三種:AND(與)、OR(或)、NOT(非)。三種算符可同時在一個檢索式中使用,也可單獨使用。使用邏輯算符時應注意的事項:①邏輯算符的優先級為:NOT、AND、OR,可用括號來改變優先順序。②在邏輯組配時,算符的兩側必須各留有一個空格。61邏輯與AND用于交叉概念或限定關系的組配,可以縮小檢索范圍,提高查準率??墒褂谩?”或“&”來表示。其檢索表達式為:“AANDB”或“A*B”,即檢索記錄中必須同時包含A詞與B詞才算命中。例如:“中國*對外貿易”。
62邏輯或OR用于并列概念的組配,可以擴大檢索范圍,提高查全率,可使用“+”或“|”來表示。其檢索表達式為:“AorB”或“A+B”,即檢索記錄中含有A詞或者B詞中的任何一詞即可。例如:“高清晰電視+HDTV”63邏輯非NOT
用于從原來的檢索范圍中排除不需要的概念,或影響檢索結果的概念??墒褂谩?”來表示,其檢索表達式為:“ANOTB”或“A-B”,即檢索記錄中包含A詞但不含有B詞。例如:“能源-太陽能”
643.3.2截詞檢索截詞檢索,是指用給定的詞干做檢索詞,用以檢索出含有該詞干的全部檢索詞的記錄。它可以起到擴大檢索范圍、提高查全率、減少檢索詞的輸入量、節省檢索時間等作用。檢索時,若遇到名詞的單復數形式、詞的不同拼寫法、詞的前綴或后綴變化時均可采用此方法。65又稱通配符,不同的檢索系統中使用的符號不同,通常用“*”、“?”來表示。無限截詞符??Computer可檢出Computer,Microcomputer
有限截詞符.??
PROCESS???可檢出PROCESS,PROCESSES中間屏蔽WOM?N可檢出WOMAN,WOMEN663.3.3字段檢索字段檢索是指將檢索詞限定(
Within
)在某個或某些字段中,用以檢索某個或某些字段含有該檢索詞的記錄。限制檢索字段通常有兩種方式:其一,通過下拉菜單選擇檢索字段。此時,字段名一般用全稱表示,如:題名、摘要、Title、Abstract等。其二,輸入檢索字段符限定檢索字段。
67
字段后綴代碼
Abstract文摘…/ABDescriptors敘詞…/DETitle題目…/TIIdentifiers標引的自由詞…/IDFullDescriptors完整的敘詞(單元詞)…/DF后綴代碼用于指定記錄的基本索引的某個字段進行檢索
68輔助索引用于前綴代碼。相同的字段在不同的數據庫,代碼可能不同,檢索時需要參閱數據庫蘭頁。
前綴代碼名稱例子
AU=Author(作者)?SAU=MIRO,R?CS=CorporateSource(機構名稱)?SCS=HARVARDANDMEDICINECO=CompanyName(公司名稱)?SCO=FORDMOTOR?JN=JournalName(期刊名稱)?SJN=ScientiaScincaLA=Language(文種)?SLA=ENGLISHPY=PublicationYear(出版年代)?SPY=1999
注:使用輔助索引時“=”后不留空格。693.3.4詞位置檢索詞級位置算符包括(W)、(N)算符,表示檢索詞之間的順序關系
(W):W是with的縮寫,表示兩個詞必須緊挨著,且詞序不可顛倒,(W)算符也可用空括號()代替。例:?Ssolar()energy
(nw):表示兩個詞之間可插入n個詞,且詞序不可顛倒。例:?Ssolar(3w)energy(N):N是near的縮寫,表示兩個詞之間必須緊挨著,但詞序任意。例:?Sfiber(N)optic(nN)表示兩個詞之間最多可插入n個詞,詞序任意。例:?Sfiber(4N)optic70
(S):S為subfield或sentence的縮寫,表示兩個詞必須在記錄中的同一個句子或同一個子字段中出現,且詞序可變。子字段含義由數據庫定義。例:?Scolor(S)pigment(F):F為field的縮寫,表示兩個詞必須在記錄中的同一個字段中出現,且詞序可有了邏輯算符和位置算符,即可編制較為完整的檢索提問。在檢索時應注意:①位置算符優先于邏輯算符②位置算符的執行順序是按語句中位置算符的輸入秩序從左至右執行的。如有括號,則優先執行括號內的位置算符。713.3.5加權檢索加權檢索是指根據檢索詞對檢索課題的重要程度,事先指定不同的權值。檢索時,系統先查找這些檢索詞在數據庫記錄中是否存在,再對存在的檢索詞計算它們的權值總和。凡是在用戶指定的臨界值(閾值)之上者作為命中記錄輸出。臨界值可視命中記錄的多少而靈活地調整。臨界值越高,命中記錄越少。搜索引擎通常以“+”、“-”來表示檢索詞一定在檢索結果中出現,或一定不在檢索結果中出現,這相當于加權檢索。723.3.6檢索式檢索式是指,將各檢索單元(其中最多的是表達主題內容的檢索詞)之間的邏輯關系、位置關系等,用檢索系統規定的各種組配符(也稱算符)連接起來,成為計算機可識別和執行的命令形式。檢索式是檢索策略的具體體現,它控制著檢索過程。檢索式是否合理關系到能否檢索到最相關的信息。73禁用詞在數據庫中,下列九個詞不能作為檢索詞使用,這些詞稱為禁用詞。禁用詞有:
AN、AND、BY、FOR、FROM、OF、TO、THE、WITH743.4檢索詞的選取
在檢索過程中,最基本同時也是最有效的檢索技巧,就是選擇合適的檢索詞。確定檢索詞,從廣義的角度來看,不僅是“詞”,還應包括不同檢索途徑的檢索輸入用語。如作者途徑的作者名,作者單位途徑的機構名,分類途徑的分類號753.4.1檢索詞的選取原則a、反映信息概念的準確性古代語言演變=古代語言+語言演變=古代語言+演變(X)b、反映信息內容的全面性協同設計+協同工作Collaborativedesign+cooperativedesignCollaborativework+cooperativeworkc、注意檢索詞的多樣性軌道鐵軌過程和規律微型計算機微機電腦d、簡練性763.4.2檢索詞的選取方法檢索者需要根據檢索需求,形成若干個既能代表信息需求又具有檢索意義的概念。諸如包括所需的概念有幾個,概念的專指度是否合適,哪些是主要的,哪些是次要的,力求使確定的概念能反映檢索的需要。771.主題分析法檢索詞的選取是用戶分析、識別、提煉和歸納信息需求主題的過程。首先將檢索主題分為數個概念,并確定反映主題實質內容的主要概念,去掉無檢索意義的次要概念,然后歸納可代表每個概念的檢索詞,同時尋找檢索詞之同義詞與上下位詞,最后將不同概念檢索詞以布爾邏輯加以連結。78主題詞的四種變化分別是同義詞、上位詞、下位詞、相關詞。同義詞是指意義完全相同的詞,如GIS與地理信息系統;上位詞,指概念上外延更廣的主題詞,如水是海水的上位詞,液體是海水的上位詞,音樂是mp3的上位詞;下位詞,指概念上內涵更窄的主題詞,如尾氣污染、廢氣污染是大氣污染的下位詞;幼兒教育、初等教育、高等教育是教育的下位詞,相關詞是指意義相關的詞,如出口和外貿。792.切分法切分法就是指將用戶的信息需求語句分割為一個一個的詞。例如“計算機情報檢索方法”可切分為:|計算機|情報|檢索|方法|。
刪除從語句切分出來的詞中刪除那些(1)不具有檢索意義的虛詞(包括介詞、連詞、助詞、副詞等)及其他非關鍵詞;(2)過分寬泛和過分具體的不必要的限定詞,過分寬泛難以觸及問題實質,太狹義具體的限制詞則會掛一漏萬;(3)存在蘊涵關系的可合并詞。“基于Web的數據庫”,經刪除后,Web|數據庫稀土材料的研究現狀及發展趨勢稀土材料稀土材料釹鐵硼的研究釹鐵硼電磁波教學用的多媒體課件電磁波多媒體課件80替換從課題語句中得來的詞也許偏于模糊、寬泛、狹窄或不可行,不能取得所希望的結果,這時可以引入更明確、更具體、更本質、更可行的概念詞來替換原詞,或作為原詞的同義詞和相關詞一并見面所。稀土材料的研制釤鈷(用戶實際上是研究釤鈷材料)空氣中細菌的計算方法空氣污染的計算方法聚類即把切分、刪除、替換后所得出的單元詞按語義概念進行同類合并,將那些可以相互等效、相互替換、相互補充的同(近)義詞、相關詞歸成一組。聚類的實質是進行組面分析,將語句和詞轉換成概念(組面)的集合。81補充包括(1)補充來源詞,即找出縮略詞的來源詞組,將兩者一并作為檢索詞;(2)補充同義詞和相關詞(包括上位詞、下位詞和同位詞等)。模擬計算機模擬計算機+模擬系統*計算機liradlirad+laserradar“毫米波”:“millimeterwave”與“millimetrewave”限定針對一詞多義導致誤檢的問題,需采取限定措施,即增加”限定詞“。具體方法有兩種,一是邏輯乘,一是邏輯非。線路線路*(電子+無線電+)線路線路-(道路+車輛+)823.主題詞表法借鑒相關文獻的主題詞(受控詞),使用主題詞進行檢索。主題詞表,又稱敘詞表、檢索表或詞庫。它是文獻與情報檢索中用以標引主題的一種檢索工具,更是一些規范化的、有組織的、體現主題內容的、已定義的名次術語的集合體,通常由主表、類目表、族性表、輪排表、多種語言對照表、特殊詞匯表、語法予以關系表、主題詞字順表及主題詞屬分關系的詞族表等構成。(1)漢語主題詞表(2)工程標題詞表(3)INSPEC敘詞表834.試查相關數據庫進行初步檢索,借鑒相關文獻的用詞為使用戶檢索更加方便快捷,很多數據庫提供了檢索詞的擴展詞、同義詞、修正與提示功能。試查相關數據庫,可以順藤摸瓜地擴展、變更檢索詞。843.4.3檢索詞的選詞要點及技巧1.同義詞的選取,檢索詞的全稱、簡稱、俗稱、英文縮寫及不同拼寫方式,可以統稱為檢索詞的“同義詞”。查全同義詞和近義詞是我們提高查全率的關鍵。
2.隱含概念與隱含詞的選取3.英文檢索詞的選擇4.采用截詞符或截短處理5.如果詞匯涉及面太廣,難以一一枚舉,最好用分類號6.在檢索中逐漸優化檢索詞7.在不同的檢索環境選用不同的檢索詞(具體技巧見教材69-71)85鐵路貨車197726軸承保持架裂損分析及對策研究保持架滾動軸承鐵路車輛斷裂殘余應力動應力Cage,ballbearing,railvehicle,fracture,remainsstress,dynamicstress工程制圖CAI系列課件的研制工程制圖機械制圖畫法幾何計算機輔助教學教學軟件課件成德綿產業帶現代集成制造系統發展戰略和關鍵應用技術研究區域產業帶集成制造電子商務Regional,Intergrate,industuryorenterpriseorcorporationelectroniccommerce,manufacturingorprojectorproduct附錄:檢索詞選取案例86隧道用變基氰凝及聚浮超細復合水泥基灌漿治理滲漏材料
灌漿氰凝聚氨基甲酸酯超細水泥抗滲堵漏groutingLow-polymerpolyurethaneSuperfinecement調度集中仿真系統研究調度集中行車指揮仿真計算機網絡
CentralizedtrafficcontrolTrafficcommandsimulationComputernetwork基于WEB平臺的動態擴展ERP系統研究
企業資源計劃(ERP)供應鏈客戶關系擴展開放結構Interpriseresourceplanning(ERP)SupplychainCustomerrelationOpenarchitecture873.5信息需求分析
只有對信息需求真正了解,才能獲得正確的檢索結果。需求分析是在問題及其最終解決方案之間架設橋梁的第一步。分析清楚需求間的邏輯關系包括因果關系、依賴關系、主次關系等,需求優先級的排列,就能探索出描述這些需求的多種解決方案883.5.1信息需求所涉及的通用問題893.5.2用戶特征所導致信息需求差異
每個人的知識結構、所處環境和面臨的問題都有所不同,由此而產生的信息需求也千差萬別的。即使面對同一課題,不同身份的人需求的內容也不相同。903.5.3不同階段的信息需求差異
在學術研究過程中,研究人員在課題設計、課題實驗(試驗)、成果發表、論文寫作等不同階段的信息需求也會不同913.5.4信息需求類型和文獻類型的對應關系923.6檢索流程
檢索流程是從確立信息需求到信息需求滿足的全過程。對于不同的檢索系統、不同的課題、不同的用戶來說,其具體檢索流程有所不同。通用信息檢索流程一般包括:分析檢索課題、選擇檢索工具、確定檢索策略、調整檢索策略及獲取原始文獻等流程93943.6.1分析檢索課題,進行信息需求分析課題分析確定檢索主題確定檢索的范圍:地理、時間段、文獻類型等預期所需文獻信息數量951、分析課題的主題內容分析課題的主題內容、所屬學科性質,明確研究課題所需的信息內容,從而提出能準確反映課題核心內容的主題概念。2、確定檢索時間范圍根據課題研究的起始年代和研究的高峰期確定檢索的時間范圍。963、確定課題的文獻類型通過對課題進行主題分析后,確定所需信息的文獻類型。如果屬于基礎理論性探討,要側重于查找期刊論文、會議論文。如果是尖端技術,應側重于科技報告。如屬于發明創造,技術革新,則應側重于專利文獻。如為產品定型設計,則需利用標準文獻及產品樣本。明確課題對檢索深度的要求,弄清用戶是需要提供題錄、文摘還是原始文獻。974、分析用戶的檢索評價要求分析用戶對檢索評介指標是查新、查準還是查全。一般來說,若要了解某學科、理論、課題、工藝過程等最新進展和動態,則要檢索最近的文獻信息,強調一個“新”字,若要解決研究中某具體問題,找出技術方案,則要檢索有針對性、能解決實際問題的文獻信息,強調一個“準”字;若要撰寫綜述、述評或專著等,強調一個“全”字。985、分析用戶的檢索是否有特殊要求是否對特定的研究機構感興趣?
是否對特定的作者的研究感興趣?
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論