2023年計算機信息檢索02139自考資料_第1頁
2023年計算機信息檢索02139自考資料_第2頁
2023年計算機信息檢索02139自考資料_第3頁
2023年計算機信息檢索02139自考資料_第4頁
2023年計算機信息檢索02139自考資料_第5頁
已閱讀5頁,還剩4頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

信息檢索概述信息檢索:指將信息按一定的方式組織和存儲起來,并根據信息用戶的需要找出有關信息的過程。根據檢索手段的不同,信息檢索可以分為手工檢索、光盤檢索、聯機檢索和網絡檢索。信息檢索的基本原理通過對大量的、分散無序的文獻信息是進行搜集、加工、組織、存儲,建立各種各樣的檢索系統,并通過一定的方法和手段使存儲與檢索這兩個過程所采用的特性標記達成一致,以便有效地獲得和運用信息源。信息檢索語言信息檢索語言是人們在加工、存儲和檢索信息時用來描述信息內容和信息需求的詞匯或符號及其使用規則構成的供標引和檢索的工具。五個信息檢索階段:手工檢索、機械信息檢索、脫機批解決檢索、聯機檢索、網絡信息檢索,后三者統稱為計算機信息檢索。與手工檢索相比,計算機信息檢索的特點表現在:速度快、效率高,僅幾分鐘就可以從成千上萬條記錄中找到所需信息;檢索范圍廣,可以迅速而方便地瀏覽相關學科或主題的所有數據庫中的記錄,在網絡中,幾乎每一臺個人計算機都可以成為信息源;檢索不受時空的限制,只要擁有相應的軟件和硬件設備,就可以在任何地方借助光盤和通信網絡查詢所需信息。信息檢索的模型:就是運用數學的語言和工具,對信息檢索系統中的信息及其解決過程加以翻譯和抽象,表述為某種數學公式,再通過演繹、推斷、解釋和實際校驗,反過來指導信息檢索實踐。信息檢索的三個經典模型是:布爾模型、向量空間模型和概率模型。信息檢索系統是具有信息存儲和信息查詢功能的一類信息服務設施。信息檢索系統是信息檢索所用的硬件資源、系統軟件以及信息資源集合的總和。數據庫由字段、記錄和文檔構成。根據載體的不同,數據庫可分為:聯機數據庫、光盤數據庫和網絡數據庫三種。信息檢索系統評價的核心是檢索性能評價。檢索性能評價:根據一定的評價指標對實行信息檢索活動所取得的成果進行客觀科學評價,以進一步完善檢索工作的過程。評價檢索效果的最重要的指標:查全率和查準率。查全率查全率是指檢出文獻中合乎需要的文獻數量占數據庫中存在的合乎該需要的所有文獻的比例。查準率查準率是指檢出文獻中合乎需要的文獻數量占檢出文獻所有數量的比例。網絡信息檢索的方法與技術布爾邏輯檢索的重要運算符布爾邏輯檢索的重要運算符有:邏輯與(“AND”)、邏輯或(“OR”)、邏輯非(“NOT”)。它們分別代表的含義是:(1)邏輯“與”。表達檢索結果中必須包含所有的檢索詞;(2)邏輯“或”。表達檢索結果中只要包含任何一個檢索詞即可;(3)邏輯非。表達檢索結果中一定不能出現“NOT”后面的檢索詞。鄰近檢索鄰近檢索是用一些特定的算符來表達檢索詞與檢索詞之間的順序和詞間距的檢索。短語檢索:短語用“”表達,檢索出與“”內形式完全相同的短語,以提高檢索的精度和準確度,因而也有人稱之為“精確檢索”截詞檢索是指在檢索標記中保存相同的部分,用相應的截詞符代替可變化部分。檢索中,計算機會將所有具有相同部分標記的記錄所有檢索出來。截詞符一般用“?”或“*”表達,但不同的數據庫中有所差別。常用的截詞檢索方法有前截詞、中間截詞和后截詞。在信息檢索過程中,為了提高查全率或查準率,需要將檢索范圍限制在特定的字段中,即字段限制檢索。模糊檢索:模糊檢索是指使用某一檢索詞進行檢索時,能同時對該詞的同義詞、近義詞、上位詞、下位詞進行檢索,以達成擴大檢索范圍、避免漏檢的目的。信息檢索的重要技術有:(1)全文檢索技術;(2)多媒體信息檢索技術;(3)超文本及超媒體檢索技術;(4)智能信息檢索技術;(5)可視化信息檢索技術;(6)跨語言信息檢索技術;(7)文本聚類技術。(8)智能信息檢索的最大特點是在檢索過程中引入了資源對象的語義解決。檢索策略檢索策略是為實現檢索目的而制訂的全盤計劃或方案,是就一個問題檢索一個或多個數據庫所輸入的所有檢索式的集合。信息檢索的一般環節(重要流程):(1)分析信息需求。即要確切了解所要查詢的目的和規定,擬定檢索問題的關鍵詞、涉及學科、信息類型、查詢方式、查詢范圍、查詢時間等。(2)選擇合適的檢索工具。選擇合適的檢索工具重要從檢索工具的類型、收錄范圍、檢索問題的類型、檢索具體規定等方面綜合考慮。(3)擬定檢索點與關鍵詞。應盡量選專指詞、特定概念或專業術語,避免冷僻詞匯和太泛的詞。(4)對的構造檢索式。運用搜索工具支持的檢索運算、允許使用的檢索標記和各種限定,對的構建檢索式。(5)及時調整檢索策略。當檢索結果為零或檢索結果太少,需要擴大檢索范圍;檢索時假如得到太多的檢索結果,或檢索結果不相關,需要縮小檢索范圍。(6)檢索結果的輸出。搜索引擎搜索引擎是一種基于Web上應用的軟件系統,它以一定的策略在Web上搜索和發現信息,在對信息進行解決和組織后,為用戶提供web信息查詢服務。搜索引擎有三個功能模塊:網頁搜集;預解決;查詢服務。搜索引擎的工作原理:搜索引擎的三個功能模塊形成了搜索引擎工作的三個階段。(1)網頁搜集。系統在一定期間內定向向網站派出“蜘蛛”程序,掃描網站的所有網頁并將相關信息存入數據庫。(2)預解決。重要涉及關鍵詞的提?。环磸途W頁或轉載網頁的消除;鏈接分析;網頁重要限度的計算。(3)查詢服務。搜索引擎接受用戶提交的查詢請求后,按照用戶的規定檢索索引數據庫,找到用戶所需要的資源,并返回給用戶,列表顯示摘要結果。按信息內容的組織方式,搜索引擎可劃分為目錄式搜索引擎和機器人搜索引擎。(1)目錄式搜索引擎。是以人工方式或半自動方式搜集信息,由搜索引擎的編輯員查看信息之后,依據一定的標準對網絡資源進行選擇、評價、人工形成信息摘要,并將信息置于事先擬定的分類框架中而形成的主題目錄。(2)機器人搜索引擎。是由一個被稱作“蜘蛛”的計算機程序依據一定的網絡協議以某種策略自動在互聯網中搜集和發現信息,由索引器為搜集到的信息建立索引,由檢索器根據用戶的查詢輸入檢索索引庫,并將查詢結果返回給用戶。Yahoo是目前最流行的目錄式搜索引擎,提供主題目錄檢索。按專業范疇劃分,可將搜索引擎劃分為綜合性搜索引擎和專業性搜索引擎。綜合性搜索引擎內容涵蓋各個學科和生產生活的各個領域,可檢索圖片、音頻、視頻等多種資源類型,合用對象廣泛。常用的綜合性搜索引擎涉及哪些,專業性搜索引擎涉及哪些按檢索功能劃分,可將搜索引擎劃分為獨立搜索引擎和元搜索引擎。元搜索引擎是多個獨立搜索引擎的集合,通過一個統一的用戶界面,可同時對多個搜索引擎進行檢索操作。調查顯示,截止2023年6月底,中國網民人數已達3.38億。其中約2.35億網民使用過搜索引擎,中國網民用得最多的搜索引擎是百度。在全球范圍內,2023年7月,搜索引擎用戶已達1137億次,其中Google市場份額最高。綜合性搜索引擎的評價指標重要有:(1)收錄范圍。即搜索引擎收錄的范圍是否完備充足。(2)分類。即搜索引擎的分類是否科學合理,分類的廣度與深度是否合適。(3)檢索功能與效果。檢索手段是否完善,檢索效果是否好。(4)對檢索結果的解決。結果的排序方式是否多樣、是否有去重功能、能否按照用戶反饋動態調整和顯示檢索結果。(5)頁面組織。頁面組織是否清楚、類目設立是否合理、界面是否和諧。(6)其他功能與服務。能否滿足用戶多方面的信息需求。國內重要的綜合性信息檢索系統中國知網CNKI的《中國期刊全文數據庫》(CAJ)是目前世界上最大的連續動態更新的中國期刊全文數據庫,收錄了國內1994年至今的8200余種綜合性期刊與專業特色期刊的全文。?中國知網CNKI提供了導航檢索、邏輯式檢索、智能輔助檢索三種類型。中國知網的源數據庫資源重要有:中國學術期刊全文數據庫,中國博士學位論文全文數據庫,中國優秀碩士學術論文全文數據庫,中國重要會議論文全文數據庫,中國重要報紙全文數據庫,中國年鑒網絡出版總庫,中國工具書網絡出版總庫。維普資訊網VIP的前身是科學技術部西南情報中心的情報分析網站,目前已發展成為集外文獻、公司征詢、動態新聞服務、行業信息資源等多種服務為一體的科技文獻知識資源門戶網站。維普資訊網的重要資源有:中國科技期刊數據庫,中文科技期刊引文庫,外文科技期刊數據庫,中國科技經濟新聞數據庫,中國科學指標數據庫。維普資訊網設有專門的“專業檢索首頁”,為中文期刊專業文章提供一站式的檢索服務。檢索方式有快速檢索,傳統檢索,高級檢索,期刊導航。國家科技圖書文獻中心NSTL是經國務院領導批準,于2023年6月12日成立的一個基于網絡環境的科技信息資源服務機構。國際科學引文數據庫(DISC)是國家科技圖書文獻中心(NTSL)于2023年首創的集文獻發現、引文鏈接、原文傳遞為一體的信息服務系統。它提供快速檢索,期刊瀏覽,來源文獻檢索,引文檢索。中國高等教育文獻保障系統CALIS是經國務院批準的我國高等教育“211工程”、“九五”、“十五”總體規劃中三個公共服務體系之一。它的數據資源重要有中文數據資源、外文數據資源兩大類。中國高等教育文獻保障系統(CALIS)中的聯合目錄公共檢索系統(OPAC)選擇多庫分類檢索,OPAC中的數據按照語種劃分,可分為中文、西文、日文、俄文四個數據庫。中國科學院國家科學數字圖書館(CSDL)建設以來非常重視信息服務,其中:論文查收查引檢索及評價服務是根據用戶需要,在國內外權威數據庫中檢索其論文被收錄和被引用的情況,并出具相關檢索證明報告。定題、專題檢索服務是針對用戶事先選定的專題,定期或不定期地進行文獻跟蹤檢索,把通過篩選的最新檢索結果,以書目、索引、全文等方式提供應用戶??萍疾樾路帐歉鶕脩籼峁┑挠嘘P科研資料查證其研究結果是否具有新奇性,并做出結論。在線參考征詢服務是用戶可按專業、機構或所處地理位置選擇專家提問,可在線提交征詢表單。國外重要的綜合性信息檢索系統學術資源整合平臺(WOK)是基于互聯網建立的動態的學術信息資源整合平臺,提供自然科學、工程技術、社會科學、藝術與人文等多個領域中高質量的學術信息。學術資源整合平臺(WOK)支持的運算有布爾邏運算,截詞檢索,短語檢索。在截詞檢索中,通常運用*代表多個字符,運用?代表一個字符。引文檢索是指從被引著者、被引文獻入手檢索文獻的被引用情況。美國Dialog系統是世界上最早和最大的專業情報檢索系統,也是我國科技界廣泛使用的系統。美國Dialog聯機檢索系統支持的運算有布爾邏運算,位置限制檢索,短語檢索和截詞檢索。SDOL采用瀏覽與檢索相結合的方式,重要有期刊論文瀏覽、快速檢索、高級檢索、專家檢索。聯機計算機圖書館中心(或OCLC)創建于1967年,是全球最大的不以贏利為目的、維護和管理電子資源系統并提供計算機圖書館服務的會員制合作和研究組織。PowerSearch2.0檢索平臺支持對Gale的2萬多種出版物的瀏覽,提供5種檢索方式,涉及基本檢索、主題詞瀏覽、出版物瀏覽、高級檢索、異構跨庫檢索。CSAIllumina是一個多學科、多信息類型的信息服務平臺,目前由美國Proquest公司提供服務,具有多語種文字檢索界面。國外專業性書目信息檢索系統SciFinder是美國化學學會的分支機構推出的基于網絡的文獻檢索系統。在SciFinder檢索窗口最上方的主工具欄中列出了3種檢索模式:ExploreReferences,ExploreSubstances,ExploreReactions。在數據庫CASREACT中檢索化學反映及相關信息。檢索化學反映僅有1種檢索途徑。用化學結構式檢索化學反映,可以用反映分類,報道反映信息的文獻來源,文獻出版年和反映步數加以限定,以縮小檢索范圍。在數據庫CASRegistry中檢索化合物及相關信息,系統提供3種檢索途徑:化學結構檢索,分子式檢索,物質檢索.BP主界面上提供6種檢索方式:基本檢索,高級檢索,題錄檢索,檢索工具,字段檢索,多字段檢索。工程索引(EngineeringVillage)系統所提供了5種檢索方式:簡樸檢索,快速檢索,專家檢索,詞表檢索,標簽檢索。PubMed提供概要、簡介、文摘、引文、MEDLINE等5種顯示檢索結果內容的記錄格式。PubMed可以所有或部分保存文獻記錄,既可保存當前頁,又可以保存其中的幾條記錄。保存方式有:網頁格式和純文本方式。荷蘭醫學文摘(ExcerptaMedica,簡稱EM)創刊于1947年美國教育資源信息中心(ERIC)的檢索方法有:初級檢索,高級檢索,ERIC敘詞表檢索。美國教育資源信息中心(簡稱ERIC)涉及兩部分內容:教育資源和當前教育期刊索引。LexisNexis公司的數據庫產品有:律商聯訊、法律數據庫、國會大全、記錄大全、環境大全和學術大全。進入LexisNexis中文網站后,可見4個資源子庫:法律子庫,新聞和商業子庫,公司界信息子庫,在線查詢庫LexisNexis在線服務數據庫主頁的特點是無檢索框。LexisNexis系統默認的是Search方式,這種方式最符合用戶的檢索習慣。Internet上多媒體信息的檢索多媒體信息檢索是指對涉及圖像和音頻、視頻等在內的多媒體信息進行特性元數據提取、索引建庫,同時根據用戶的檢索需求,將用戶的信息需求表達與多媒體索引庫進行相似度匹配運算,辨認和返回用戶所需信息,并通過與用戶之間的反饋,不斷優化、調整顯示結果的過程。目前,主流的多媒體信息檢索方式重要分為基于文本的和基于內容的多媒體信息檢索兩類?,F在,主流搜索引擎都有基于文本的圖像檢索功能,具有基于內容的圖像檢索功能的搜索工具還不多見?;趦热莸膱D像檢索的原理是:一方面根據分析圖像的內容,提取其顏色、形狀、紋理,以及對象空間關系等信息,建立圖像的特性索引庫,而后將用戶的檢索提問與特性索引庫進行匹配計算,返回檢索結果。常見的圖像檢索系統有10個:QBIC,WebSEEK,TinEye,Titomo,VAST,ImageRover,Scour,AmazingPictureMachine,Lycos,ImageSurferQBIC:QBIC是基于內容的圖像檢索系統的簡稱,是IBMAlmaden研究中心開發的第一個商用的基于內容的圖像及視頻檢索系統,重要為IBM的DB2大型數據庫提供圖像檢索,并支持基于Web的圖像檢索服務。它提供了對靜止圖像及視頻信息基于內容的檢索手段,是標準的基于內容特性檢索圖像的工具。WebSEEK的檢索途徑有3種:一是使用關鍵詞進行自由全文檢索,但不支持短語檢索;二是運用不同的類目等級進行主題瀏覽;三是在檢出圖像的基礎上運用其可視屬性進行進一步檢索。視覺語義圖像查詢系統提供4種功能,分別是:(1)文本查詢功能:可以直接在文本檢索框中輸入想要查詢的文本關鍵字;(2)示例查詢功能:在示例圖像框中輸入想要查詢的樣例圖像,或者點擊瀏覽選擇圖片;(3)綜合查詢功能:在示例圖像框中輸入想要查詢的樣例圖像,或者點擊瀏覽選擇,同時在文本檢索框中輸入想要查詢的文本關鍵字;(4)相關反饋:在進行文本查詢后,假如滿意結果中的某張圖片,可以點擊該圖片下面的反饋鏈接,系統將返回與此圖片相似且與文本關鍵字相關的圖片集?;趦热莸囊曨l檢索通常有基于屬性和基于對象兩種方法,可以通過顏色、紋理、形狀、空間聯系、原始語義、客觀屬性、主觀屬性、動作、文本和領域概念來表征視頻信息?;趦热莸囊曨l檢索,其檢索過程分為數據庫建立和視頻檢索兩個階段,前一階段的任務重要是偵測視頻片段邊界、選擇關鍵屬性和提取諸如顏色、紋理、形狀等低檔別的空間特性,后一階段則致力于通過顏色、形狀或顏色與其他類目的組合,來進行用戶需求向量與已有資源向量空間的相似度匹配?,F有的基于內容的視頻信息檢索工具重要有6個:VisualSeek,Informedia-IIDigitalVideoLibrary,GoogleVideoSearch,YahooVideoSearch,OpenV,VideoQ音頻信息的檢索可通過同音比較、聽覺或知覺特性的提取、個人語言的主觀特性描述和擬聲法4種方式來實現。八專題信息的檢索專利包含三層含義,分別是專利權、專利技術和專利說明書。專利權是指國家專利主管機關依據專利法授予申請人的一種實行其發明發明的專有權。我國專利法將專利分為三種,即發明、實用新型和外觀設計。專利信息是指以專利文獻作為重要內容或以專利文獻為依據,經分解、加工、標引、記錄、分析、整合和轉化等信息化手段解決,并通過各種信息化方式傳播而形成的與專利有關的各種信息的總稱。專利信息可分為5種:技術信息、法律信息、經濟信息、著錄信息、戰略信息。專利文獻是包含已經申請或被確認為發現、發明、實用新型和工業品外觀設計的研究、設計、開發和實驗成果的有關資料,以及保護發明人、專利所有人及工業品外觀設計和實用新型注冊證書持有人權利的有關資料的已出版或未出版的文獻(或其摘要)的總稱。專利文獻的類型有一次專利文獻,二次專利文獻,專利分類資料。專利分類是按專利文獻的技術內容或主題進行分類,以便于查找,各國曾有不同的專利文獻分類法。中國專利說明書的編號體系涉及:申請號,專利號,公開號,授權公告號專門檢索專利的搜索引擎有:FreePatentsOnline,IP-Discover,免費專利在線商標是區別商品或服務來源的一種標志,每一個注冊商標都是指定用于某一商品或服務上的。商標信息檢索的途徑有:分類檢索,關鍵詞檢索,圖像檢索商標信息的重要來源有:商標主管部門提供的商標信息,商業性的商標數據庫,專門的商標搜索引擎,某公司的商標數據庫。專門的商標搜索引擎有:Trademarkia,桑尼維爾專利和商標中心,托馬斯網商業性的科技報告數據庫:萬方數據中的科技成果類數據庫,NSTL的國外科技報告數據庫,NTIS美國政府報告數據庫。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論