信息檢索全解搜索引擎_第1頁
信息檢索全解搜索引擎_第2頁
信息檢索全解搜索引擎_第3頁
信息檢索全解搜索引擎_第4頁
信息檢索全解搜索引擎_第5頁
已閱讀5頁,還剩68頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第三章 搜索引擎Outline n搜索引擎概念(定義、工作原理、特征)n搜索引擎的分類n搜索引擎的選擇與評(píng)價(jià)n常用綜合性搜索引擎n常用學(xué)術(shù)搜索引擎n使用搜索引擎要注意的問題n跟蹤搜索引擎的變化1 搜索引擎概述n你最常用的搜索引擎有哪些?n你認(rèn)為搜索引擎是什么?1.1 概念n一種Web上應(yīng)用的軟件系統(tǒng)n以一定的策略在Web上搜集、發(fā)現(xiàn)和組織信息n使用者的角度:提供一個(gè)網(wǎng)頁界面供用戶輸入詞語或者短語,系統(tǒng)將返回一個(gè)可能和用戶輸入內(nèi)容相關(guān)的信息列表Source: 李曉明,閆宏飛,王繼民著.搜索引擎原理、技術(shù)與系統(tǒng).北京:科學(xué)出版社,2005:21.2工作原理1.2 工作原理n網(wǎng)頁采集n網(wǎng)站擁有者主動(dòng)

2、向搜索引擎提交網(wǎng)址n蜘蛛(Spider)掃描網(wǎng)站的所有網(wǎng)頁并將相關(guān)信息存入數(shù)據(jù)庫n預(yù)處理n 關(guān)鍵詞的提取n 重復(fù)網(wǎng)頁或轉(zhuǎn)載網(wǎng)頁的消除n 鏈接分析n 網(wǎng)頁重要程度的計(jì)算n用戶輸入檢索式n 提交檢索要求n搜索引擎提供查詢n接受用戶提交的查詢請求n按照要求檢索索引數(shù)據(jù)庫n返回相關(guān)記錄 以網(wǎng)頁鏈接形式提供 通過鏈接指向用戶所需網(wǎng)頁2 搜索引擎的分類按信息內(nèi)容組織方式劃分按信息內(nèi)容組織方式劃分 nWeb Directoryn人工參與,主題目錄n數(shù)據(jù)有限,專指性強(qiáng)nYahoo!DirectorynOpen Directory nKeyword search enginen無人工控制,由系統(tǒng)完成 n數(shù)據(jù)量大

3、,更新及時(shí)nGoogle n百度 2 搜索引擎的分類按收錄范圍劃分按收錄范圍劃分n綜合性搜索引擎n涵蓋各學(xué)科n涉及生活的各領(lǐng)域nGooglenYahoo!n百度nBingn專業(yè)性搜索引擎n特定的功能n特定的學(xué)科n特定的用戶n特定的信息類型n特定的地域nLawcrawler,SciseeknAskjeeves for kids nIP search2 搜索引擎的分類按功能劃分按功能劃分n獨(dú)立搜索引擎n具有獨(dú)立的數(shù)據(jù)庫nGooglenYahoo!n百度nBingn元搜索引擎n一次檢索多個(gè)數(shù)據(jù)庫n有的提供結(jié)果去重等功能n通常不具有獨(dú)立的數(shù)據(jù)庫n提供多個(gè)搜索引擎的統(tǒng)一檢索界面nMetacrawlern

4、獨(dú)立搜索引擎與元搜索引獨(dú)立搜索引擎與元搜索引擎的集成,如萬維搜索擎的集成,如萬維搜索萬維搜索初級(jí)檢索界面:獨(dú)立搜索引擎支持關(guān)鍵詞檢索萬維搜索高級(jí)檢索界面:元搜索引擎集合了多個(gè)獨(dú)立搜索引擎結(jié)果可以按照多種方式排序3 搜索引擎的選擇與評(píng)價(jià)n提問:百度和Google,你更喜歡哪個(gè)?為什么?n搜索引擎優(yōu)化網(wǎng)站(SEOMOZ)通過SEO領(lǐng)域多位世界級(jí)專家的調(diào)查,發(fā)布兩年一度的搜索引擎排名影響因素調(diào)查結(jié)果。3 搜索引擎的選擇與評(píng)價(jià)nSEOMOZ(2009)的調(diào)查結(jié)果最重要的最重要的5個(gè)影響因素為:個(gè)影響因素為:關(guān)注關(guān)鍵詞錨文本的外部鏈接(73%,非常非常重要)鏈接所在頁面的熱門程度(71%,非常非常重要)

5、鏈接資源的多樣性(67%,非常非常重要)標(biāo)題標(biāo)簽中關(guān)鍵詞的使用(66%,非常重要)鏈接域名的可信度(66%,非常重要)source: /article/search-ranking-factors3 搜索引擎的選擇與評(píng)價(jià)nSEOMOZ(2009)的調(diào)查結(jié)果前前5位的負(fù)面影響因素為:位的負(fù)面影響因素為:惡意隱藏作弊(68%,非常非常重要)從鏈接中介購買鏈接(56%,非常重要)指向搜索引擎作弊的站點(diǎn)或網(wǎng)頁的鏈接(51%,比較重要)基于User Agent的偽裝(51%,比較重要)頻繁的服務(wù)器故障或站點(diǎn)無法訪問(51%,比較重要)source: http:/w

6、/article/search-ranking-factors3 搜索引擎的選擇與評(píng)價(jià)n收錄范圍n分類n檢索功能與效果n檢索結(jié)果的處理方式n頁面組織n其他功能與服務(wù)4 綜合性搜索引擎選介n全球主要搜索引擎份額(2009.7) Google(67.5%)Yahoo!(7.8%)百度(7.0%)4 綜合性搜索引擎選介n國內(nèi)搜索引擎首選份額排名(2009.6) 百度(77.2%)谷歌(12.7%) 搜搜(3.1%)搜狗(2.4%) 雅虎(1.6%)source:CNNIC. 2009年中國搜索引擎用戶行為研究報(bào)告(2009年9月).http:/ 李彥宏和徐勇創(chuàng)立于中關(guān)村李彥

7、宏和徐勇創(chuàng)立于中關(guān)村n全球最大的中文搜索引擎。全球最大的中文搜索引擎。n2005年8月5日,百度在納斯達(dá)克上市百度在納斯達(dá)克上市4.1 百度(http:/)百度的首頁百度的高級(jí)檢索頁面百度提供的眾多產(chǎn)品n 參見百度的幫助中心百度的檢索技巧n百度快照 n拼音提示功能 n支持繁簡中文查詢 n相關(guān)搜索 n支持:-、| 、“”、filetype、inurl 、intitle、allintitle、site等。百度的檢索功能和特點(diǎn)百度的結(jié)果處理n檢索結(jié)果排序規(guī)則n通過超鏈接分析技術(shù)、詞頻統(tǒng)計(jì)和競價(jià)排名相結(jié)合的方式對(duì)網(wǎng)頁進(jìn)行相關(guān)度評(píng)價(jià)。n每一條檢索結(jié)果顯示網(wǎng)頁標(biāo)題、摘要、網(wǎng)址、百度快照等n百度快照和相關(guān)搜

8、索的關(guān)鍵詞檢索提示4.2 Google( )n谷歌:http:/.hk/n1998年9月由斯坦福大學(xué)博士生 Larry Page ,Sergey Brin創(chuàng)立n全球使用最廣泛的搜索引擎n獲得30多項(xiàng)獎(jiǎng)項(xiàng),如Outstanding Search Service,Best News Search Engine,Best Image Search Engine,Best Design,Most Webmaster Friendly Search Enginen提問:你使用過Google哪些功能?谷歌提供了多樣化的服務(wù)和功能Google的檢索技巧n一般不區(qū)分英文大小寫n缺省值 AND(and)n支持s

9、ite、inurl、allinurl、intitle、allintitle、filetype、link、define、 related等nfiletype字段: pdf,doc, ppt, xls, rtf,swf等13種非HTML文件nfiletype:pdf AND “英語四級(jí)模擬試題”谷歌的首頁-簡潔明快谷歌的高級(jí)檢索頁面對(duì)多個(gè)檢索字段進(jìn)行限定Google的結(jié)果處理n排序規(guī)則:按相關(guān)性排序。n相關(guān)性的評(píng)判以網(wǎng)頁評(píng)級(jí)為基礎(chǔ),在全面考察檢索詞的頻率、位置、網(wǎng)頁內(nèi)容(以及該網(wǎng)頁所鏈接的內(nèi)容)的基礎(chǔ)上,評(píng)定該網(wǎng)頁與用戶需求的匹配程度,并確定排序優(yōu)先級(jí)。n將獨(dú)創(chuàng)的網(wǎng)頁評(píng)級(jí)系統(tǒng)(PageRank)作

10、為網(wǎng)絡(luò)搜索的基礎(chǔ)Google的結(jié)果處理n每條檢索結(jié)果顯示標(biāo)題、摘要、網(wǎng)址、網(wǎng)頁大小,有的還提供“cached(網(wǎng)頁快照)”、“similar pages(相關(guān)網(wǎng)頁)”、“note this(標(biāo)記該網(wǎng)頁)”以及網(wǎng)頁翻譯等鏈接n提示可能存在安全風(fēng)險(xiǎn)的網(wǎng)站n自動(dòng)對(duì)關(guān)鍵詞的相關(guān)詞進(jìn)行分析并給出相關(guān)鏈接,提供”百寶箱“功能Google的結(jié)果處理4.3 Yahoo!( http:/ )n雅虎中國:http:/n1994年4月由楊致遠(yuǎn)和David Filo創(chuàng)立n最早的目錄式搜索引擎之一n提供兩種檢索方式n關(guān)鍵詞檢索n分類目錄瀏覽和檢索n分類目錄(http:/ )n分為14個(gè)大類,每個(gè)大類又分小類n檢索結(jié)果處

11、理:按相關(guān)度排序n實(shí)現(xiàn)網(wǎng)頁、圖片、博客、視頻等資源的整合檢索n顯示人物關(guān)系n提問:n還有哪些常用的綜合性搜索引擎?n以”信息檢索“為關(guān)鍵詞,分別使用百度、谷歌、雅虎中國進(jìn)行搜索,并分析其異同點(diǎn)5 中外文學(xué)術(shù)搜索引擎選介n谷歌學(xué)術(shù)搜索n百度國學(xué)搜索nScirus5.1 谷歌學(xué)術(shù)搜索(Google scholar)n網(wǎng)址:http:/n中文網(wǎng)址: http:/ n資源來源:學(xué)術(shù)出版商、專業(yè)學(xué)會(huì)、高等院校、圖書館及其他學(xué)術(shù)機(jī)構(gòu)n文獻(xiàn)類型包括:圖書、同行評(píng)議的期刊論文、學(xué)位論文、論文預(yù)印本、技術(shù)報(bào)告。n信息來源可靠,學(xué)術(shù)性強(qiáng)n特色功能:n顯示被引用信息:揭示文獻(xiàn)之間的引用與被引用關(guān)系n顯示圖書館鏈接,

12、用戶可搜索參加這一計(jì)劃的圖書館館藏資源目錄,查看可供訪問的資源鏈接,國家圖書館等多家圖書館參與了該項(xiàng)計(jì)劃n使用偏好設(shè)置:用戶可以對(duì)界面語言、搜索語言、圖書館鏈接、結(jié)果顯示數(shù)量和方式以及文獻(xiàn)管理軟件等項(xiàng)目進(jìn)行個(gè)性化定制n檢索結(jié)果按照相關(guān)度排序谷歌學(xué)術(shù)搜索的更多功能n 對(duì)結(jié)果中的某一本書:n查看介紹、版權(quán)信息、目次,章的樣例n書內(nèi)信息檢索(Search within this book)n可購買的網(wǎng)上書店鏈接n比較不同網(wǎng)上書店的價(jià)格( 與Froogle等捆綁)谷歌學(xué)術(shù)搜索首頁查看國內(nèi)收藏情況5.2 百度國學(xué)搜索nhttp:/ n2006年1月份開通n免費(fèi)提供中國古代文化典籍在線搜索及閱讀服務(wù)n收錄

13、上起先秦、下至清末兩千多年的以漢字為載體的歷代典籍,內(nèi)容涉及經(jīng)、史、子、集各部。n內(nèi)容進(jìn)行嚴(yán)格校對(duì),對(duì)一些生僻字特別進(jìn)行造字n提供目錄瀏覽和關(guān)鍵詞檢索5.3 Scirusnhttp:/ Science)于2001年4月推出n專為搜索科學(xué)信息而設(shè)計(jì)的n網(wǎng)上最全面、綜合性最強(qiáng)的科技文獻(xiàn)門戶網(wǎng)站之一n信息來源:大學(xué)網(wǎng)站、科學(xué)工作者的個(gè)人站點(diǎn)、學(xué)術(shù)會(huì)議等;n文獻(xiàn)類型:研究報(bào)告、同行評(píng)審期刊論文、專利文獻(xiàn)、預(yù)印本n覆蓋各個(gè)學(xué)科:農(nóng)業(yè)、天文、生物、化學(xué)、計(jì)算機(jī)、經(jīng)濟(jì)、工程、數(shù)學(xué)、醫(yī)學(xué)、社會(huì)學(xué)等n與圖書館合作推出“圖書館鏈接”功能Scirus的檢索功能n布爾邏輯檢索、精確檢索和字段限制檢索n檢索途徑:篇名、

14、作者、期刊名稱等n高級(jí)檢索:可設(shè)置信息發(fā)布時(shí)間、信息類型、文件格式、信息來源、學(xué)科領(lǐng)域等多個(gè)選項(xiàng)n檢索結(jié)果:依據(jù)相關(guān)度排序n相關(guān)度主要與關(guān)鍵詞和鏈接兩個(gè)基本因素相關(guān)n前者主要考慮檢索詞的位置和出現(xiàn)頻率n一個(gè)網(wǎng)頁被其他網(wǎng)頁參考或鏈接得越頻繁,其排序就越靠前n提問:還有哪些學(xué)術(shù)搜索引擎?n如:nSearch4Science http:/ http:/nCNKI知識(shí)搜索http:/ 使用搜索引擎要注意的問題n各個(gè)搜索引擎的功能有別n同一種運(yùn)算在不同搜索引擎中使用的符號(hào)不同n各引擎結(jié)果排名的計(jì)算方法不同n優(yōu)先選用好的搜索引擎n選擇有針對(duì)性的搜索引擎n搜索引擎不是萬能的n競爭激烈 ,要留意變化7 跟蹤搜索引擎的最新動(dòng)態(tài)n討論:通過哪些途徑可以更好地了解搜索引擎發(fā)展的最新動(dòng)態(tài)?n搜索引擎主頁的介紹與幫助頁面n搜索引擎的集合與評(píng)價(jià)站點(diǎn) 中文搜索引擎指南 搜索引擎跟蹤 搜索引擎列表思考題n什么是搜索引擎?請談?wù)勂涔ぷ髟怼搜索

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論