第三章計算機檢索原理_第1頁
第三章計算機檢索原理_第2頁
第三章計算機檢索原理_第3頁
第三章計算機檢索原理_第4頁
第三章計算機檢索原理_第5頁
已閱讀5頁,還剩41頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第三章計算機檢索原理計算機檢索概述1.計算機檢索的發展2.計算機檢索的原理3.文獻數據庫簡介4.計算機檢索中常用的運算符5.計算機檢索策略的制定及調整1.計算機檢索的發展歷史計算機檢索從產生到現在經歷了4個階段:

(1)20世紀50年代,以批量處理、脫機檢索為特點的第一階段(美國海軍兵器中心NOTS,4000條記錄,“與”,不能人機對話);(2)20世紀60年代末,聯機檢索階段(出現網絡,dialog,人機對話);(3)20世紀70-80年代,聯機檢索與光盤檢索共同發展階段;

前三階段以文獻數據庫檢索為主;(4)20世紀90年代,基于互連網的數據庫檢索和Internet網上信息檢索并重的第四階段。因特網成為重要的電子信息源.2.計算機檢索的原理

計算機檢索的原理就是利用計算機將用戶所提出的檢索標識與檢索系統中的標引標識進行比較,將匹配的文獻視為命中。

檢索標識(檢索式)是檢索者根據對課題的分析,制定出的既能反映課題的要求,又符合計算機檢索要求的檢索語言,其中包括適當的檢索詞,以及合適的邏輯算符和位置算符。例:朱萬成2008年論文,題目是“動態荷載作用下混凝土破裂的數值模擬”。AU=朱萬成andTI=動態荷載作用下混凝土破裂的數值模擬(CNKI)3.文獻數據庫簡介3.1數據庫的定義和類型3.1.1定義:按一定方式存儲的相互關聯的數據集合。它是檢索工具的一種:CNKI/萬方。3.1.2數據庫類型:文獻目錄型數據庫(bibliographicdatabase).也稱為書目數據庫或者目錄數據庫,是二次文獻數據庫,包含文摘數據庫、題錄數據庫、索引數據庫、各國的MARC格式的圖書目錄。如EI,SCIE等。指南數據庫(referencedatabases).也稱指示性數據庫,其內容是關于某些機構、人物、出版物、項目、程序、活動等對象的簡要描述,是指引用戶從其他有關的信息源獲取更詳細的信息的一類數據庫。如中國人物數據庫、Dialog系統中的鄧白氏國際市場情報庫。數值數據庫(numericdatabase).又稱數據型數據庫,此類數據庫存儲的均為數據信息。如中國統計年鑒\Dialog系統中的公司披露數據庫。全文型數據庫(full-textdatabase)。是指儲存的數據是文獻全文或者其主要部分是文獻全文的一種數據庫。如中國期刊全文數據庫,重慶維普期刊全文庫。3.2數據庫的構成

由文檔、記錄、字段構成。(1)文檔(file),若干個邏輯記錄構成的信息集合。文檔是書目數據庫和文獻檢索系統中數據組織的基本形式。根據數據庫的內部結構,一個數據庫至少包含一個順排文檔和一個倒排文檔。順排文檔:是按文獻記錄的輸入順序(即文獻序號)排列的文檔。在順排文檔中,記錄按順序一個接一個地存放,一個存取號對應一條記錄,存取號愈大,對應的記錄就愈新。由于它存貯有記錄的最完整的信息,所以,通常又把它稱之為主文檔(MasterFile)。倒排文檔:把順排文檔中的標引詞抽出,按標引詞的字母順序依次排列而成的文檔。倒排文檔實際上相當于印刷型檢索工具中的輔助索引。(2)記錄(record),記錄是若干個字段組成的文獻單元。是對某一實體屬性進行描述的結果。一個數據庫由若干條記錄構成。在全文數據庫中,一個記錄相當于一篇完整的文獻;在書目數據庫中,一個記錄相當于一條文摘或題錄。(3)字段(field),是文獻著錄的基本單元,用來描述文獻主題內容相關的某種屬性。一個字段有時還可分為幾個子字段(Subfield)。數據庫的字段可分為基本字段和輔助字段:基本字段主要是描述文獻內容特征的字段,如篇名、文摘、敘詞、自由標引詞等字段;輔助字段主要是描述文獻外表特征的字段,如著者、機構名稱、語種、文獻來源等字段。4.計算機檢索中常用的運算符4.1邏輯算符4.1.1邏輯“與”。用“and”或者“*”表示,是用以組配不同的概念邏輯符號,表示“and”連接的兩個詞在一個記錄中必須同時出現。如:LibraryandComputerLibraryComputer4.1.2邏輯“或”。用“or”或“+”表示。是用來組配相同或相近概念的邏輯算符,表示在記錄中出現其一即可作為命中。如:fiberorfibrefiberfibre4.1.3邏輯“非”。在系統中用“not”或者“-”表示,排除某個概念的邏輯算符,如:PatentnotJapan,表示檢中的記錄中包含Patent,不包含Japan。

PatentJapan4.2優先算符

優先算符用()表示,在含有多個運算的檢索式中,可以用()將需要優先運算的部分括上,系統會優先運算()中的部分,然后在按照not,and,or的順序進行運算。如:S

(fiberorfibre)andoptical

4.3截詞符和屏蔽符4.3.1.截詞符:用“?”或者“*”,不同數據庫有不同的規定4.3.2

屏蔽符:“?”作為屏蔽符,加在單詞中間,可以代表1個字符的變化。如:wom?n,表示women和woman。詞中使用幾個屏蔽符,則代表有幾個字符的變化。有的數據庫使用“#”4.4位置算符位置算符是用來規定檢索詞之間的位置關系的算符:4.4.1.(w),(nW),意思是with,表示它連結的兩個詞前后位置確定,中間插詞不能超過0-n個。(w)也寫作(),實際上是(0W),表示連接的兩個詞必須緊密相連,中間不能插詞,但是中間可以加連字符。如:卡車S

motor(W)lorry可以檢出motor-lorry和motorlorry。4.4.2.(N),(nN),意思是near,表示它連結的兩個詞前后次序不限,中間可以插入n個詞。(N)實際上是(0N),表示連結的兩個詞中間不得插入其他詞。如:S

corrosion(N)resist?可以檢索出corrosionresistance;corrosionresistant;resistingcorrosion;

S

protect?(2N)forest可以檢出protectionofforest,forestprotection,protectingtheforest等。

4.4.3

(S),意思是subfield或sentence,它表示連結的兩個檢索詞要在同一個子字段或同一句話中出現。如:

S

computer(s)library要求computer和library在同一個句子中出現

Scs=shenyang(s)university

要求shenyang和university在cs字段中的同一個子字段出現。4.4.4(F),意思是field,表示連結的兩個詞要在同一個字段中出現。如:S

fieldbus(f)multimedia要求fieldbus和multimedia在同一個字段中出現。以上是計算機中常用的位置算符,但并非所有的系統都可用,不同的檢索系統有其自己的規定。5.計算機檢索策略的制定及調整1.概念的選取(1)核心概念的選取:

變溫條件下煤層損傷與瓦斯運移的熱流固耦合模型

a.選取語言最小單位;b.切分詞(拆詞);C.同義詞、近義詞

(2)發掘隱含概念:石質文物的保護—石雕、石刻、石碑…(3)考慮同義詞包括術語和俗稱:保護conservation,preservation,protection

(鋁礦or鋁土礦or鋁礦石or鋁土礦石or一水鋁石型鋁土礦or一水硬鋁石)(4)排除不必要的概念:使用專業數據庫或通用詞(5)使用準確的代碼:標準號、專利號、產品代碼借助工具找出核心概念同義詞的方法在檢索出來的文獻中尋找中文同義詞:百度百科CNKI工具書與知識元搜索讀秀知識搜索英文翻譯:金山詞霸GoogleCNKI翻譯助手百度百科CNKI工具書與知識元搜索CNKI工具書與知識元搜索CNKI工具書與知識元搜索CNKI工具書與知識元搜索讀秀知識搜索讀秀知識搜索CNKI翻譯助手2.數據庫的選擇(1)合適的主題范疇(社科、工程技術、化學、醫學…)(2)合適的數據庫類型、年度范圍(專利、標準、期刊、書…)3.檢索策略的制定及調整(1)擬定檢索式:變溫條件下煤層損傷與瓦斯運移的熱流固耦合模型

(非等溫or變溫)and(煤層or煤巖體)and(損傷or破壞or損壞)and

(瓦斯or煤層氣or煤氣)and(運移or漂移or運動)and熱流固(2)如果檢索結果太少,適當調整策略,以擴大檢索范圍(增加同義詞或隱含概念)a.熱流固有沒有同義詞熱-流-固;b.去掉熱流固;c.and改為or:((煤層or煤巖體)and

(損傷or破壞or損壞)or(瓦斯or煤層氣or煤氣)and

(運移or漂移or運動))d.去掉第一個檢索詞(非等溫or變溫)注意:盡量從概念和邏輯關系上找原因,或者“精確”匹配改為“模糊”匹配(3)如果檢索結果太多,也要適當調整策略,以縮小檢索范圍(增加概念(檢索詞)或用字段、年代等限制)。

(非等溫or變溫)and(煤層

/主題or煤巖體/主題)

and(損傷or破壞or損壞)and(瓦斯or煤層氣)/主題

and(運移or漂移or運動)and熱流固and(耦合模型or數學模型or仿真or數值模擬)要把檢索式變成數據庫認識的檢索式:第一檢索式結果為0增加檢索詞熱-流-固,三個檢索式都是0去掉(變溫+非等溫)條件:2條。或者去掉“熱流固”概念

SU=(非等溫+變溫)and(SU=(煤層+煤巖體)andSU=(損傷+破壞+損壞)orSU=(瓦斯+煤層氣+煤氣)andSU=(運移+漂移+運動))5條同時去掉非等溫和熱流固概念

(SU=(煤層+煤巖體)andSU=(損傷+破壞+損壞)andSU=(瓦斯+煤層氣+煤氣)andSU=(運移+漂移+運動))108條發現一個新詞:煤層變形把“變形”加進去,結果變得非常多,251條

(SU=(煤層+煤巖體)andSU=(損傷+破壞+損壞+變形)andSU=(瓦斯+煤層氣+煤氣)andSU=(運移+漂移+運動))再檢索(變溫+非等溫)*(煤層+煤巖體)*(瓦斯+煤層氣+煤氣):18條,發現有一個新詞:溫度變化把“溫度變化”加進去,有79條記錄,用這種方法再找找有沒有“運移”的同義詞。把“溫度變化”和“變形”同時加進去SU=(非等溫+變溫+溫度

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論