南郵網絡信息資源檢索課內實驗二_第1頁
南郵網絡信息資源檢索課內實驗二_第2頁
南郵網絡信息資源檢索課內實驗二_第3頁
南郵網絡信息資源檢索課內實驗二_第4頁
南郵網絡信息資源檢索課內實驗二_第5頁
已閱讀5頁,還剩2頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 網絡信息資源檢索與利用 課程實驗第 2 次實驗報告實驗內容及基本要求:實驗項目名稱: 網絡搜索引擎的應用實驗類型: 驗證每組人數: 1實驗內容及要求: 1. 請分別針對網絡資源目錄使用的分類方法進行舉例。2. 在google的分類目錄中分別找到一條路徑指向網站:中國日報網及中國新聞漫畫網。3. 在yahoo的分類目錄中找到一條路徑指向網站論文:/Summer98/koumoutsakos.pdf。4. 在新浪網的分類目錄中找到一條路徑指向學校的網站:5. 在sohu的分類目錄中找到一條路徑指向網站:6. 請指出google,yahoo,sina,sohu的分類

2、目錄之間的異同和優劣(500字以內)7. 請了解google和baidu在進行關鍵詞檢索中語法的異同,并舉例說明這兩者在針對某一主題進行檢索時檢索結果的差異以及對檢索意圖理解準確度的差異。8. 搜索并了解主流的rss訂閱軟件,完成用rss在兩個以上網站訂閱兩個以上專題。實驗結果:1. 請分別針對網絡資源目錄使用的分類方法進行舉例。(1) .主題分類法 :如雅虎(2) .學科分類法 :如搜狐的社會科學分類(3) .圖書分類法 :如中國圖書館圖書分類法(4).分面組配法:如圖書館類型2. 在google的分類目錄中分別找到一條路徑指向網站:中國日報網及中國新聞漫畫網。(1).打開265主頁(2)

3、.在分類中找到新聞(3).在新聞中搜索中央媒體(4).搜索中國日報網:中國新聞漫畫網的搜索方法同上:(1).先打開265主頁,搜索分類“動漫”(2).單擊“動漫”,搜索動漫綜合,可以找到中國新聞漫畫網的搜索路徑。3.在yahoo的分類目錄中找到一條路徑指向網站論文:/Summer98/koumoutsakos.pdf。在Yahoo主頁中輸入/Summer98/koumoutsakos.pdf即可4.在新浪網的分類目錄中找到一條路徑指向學校的網站:(1) .打開新浪首頁,在分類中選擇新浪教育(2) .在教育中搜索5. 在sohu的分

4、類目錄中找到一條路徑指向網站:(1) .打開搜狐導航,在分類中選擇游戲(2) 在游戲分類中選擇TOM游戲6. 請指出google,yahoo,sina,sohu的分類目錄之間的異同和優劣(500字以內)(一)Yahoo()Yahoo 是世界上最著名的網絡資源目錄。Yahoo的魅力,就在于它的可瀏覽式等級主題目錄。Yahoo按照主題建立分類索引,提供全面的分類體系結構,并結合高質量的檢索軟件,成為網絡檢索工具的佼佼者和等級式風絡資源目錄的典型代表。Yahoo采用多標準高類、多維展開的方式,能夠為某一信息源在其巨大的分類等級結構中提供不同的路徑分支入口,保證了從不同的路徑,為檢索相同內容的不同用戶

5、提供服務。對于交替類目,Yahoo利用了符號“”來表示,起到了類似于相關參照的作用,能夠指引用戶由某一子類目進入Yahoo的瀏覽性等級結構的其他分支中。(二)Open Directory()Open directory是手工編輯的目錄導航式搜索引擎,它由四萬多名志愿者編輯標引加工數據并組織類目,自稱為世界上最權威的人工編輯的搜索引擎。大多數志愿者都對自己負責的部分相當感興趣,有的就是該領域的專家權威,因此Open directory中有不少分類的內容,特別是一些邊緣學科或冷門學科,要比Yahoo提供的全面得多,有的甚至在Yahoo中根本找不到對應的分類。Open D

6、irectory - 開放目錄專案提供了一種以互聯網自我組織與管理的方式進行發展用來滿足快速增長的網站數量。隨著互聯網的增長,網民數量也隨之增加。這些網民能夠編輯管理一小部分網站,并且提供負責更多的編輯工作,整理清除沒有用的信息內容,只保留最好的內容。Open directory也提供關鍵詞檢索,分為簡單檢索和高級檢索。在簡單檢索中,支持布爾邏輯檢索。在高級檢索中提供了相關的選擇,包括選擇只檢索類目、只檢索站點等。同時它還提供了與其他搜索引擎的鏈接。Open directory是一個非常有前景的網絡資源目錄,它可無限擴展的編輯人員,為其今后的發展注入了極大的活力,它的資源收錄的增長速度,內容的

7、更新頻次,都是其他網絡資源目錄所無法比擬的。同時,它詳盡的類目體系,開放的管理體制,都形成了其獨用的特色,成為用戶獲取網絡信息資源的重要門戶網站。(三)搜狐()搜狐的網絡資源目錄堪稱是我國第一部系統的網站分類法,對其他中主文網絡資源目錄的發展起到了積極的促進作用。搜狐網絡資源目錄的分類體系的編制,基本上堅持了在符合科學性原則的前提下,充分考慮網站資源和用戶的查詢習慣的原則。在搜狐的分類體系結構中包括18個大類,涵蓋了50000多個不同層次的子類目,形成了一個十分龐大的樹狀結構,幾乎涉及所有的行業或者領域。它采用了“縱向成枝、橫向成網”、“主題法與分面組配法結合”的分類方式,根據網站的主題,首先

8、把網站分為18個大類,再按細分主題層層分下去。然后,再根據不同用戶的使用習慣,以及不同的分類標準,把不同類目下“相關”的類目“鏈接”起來,從而形成搜狐的“網狀”分類體系。搜狐的網站分類法以主題分類為主設立了娛樂休閑、工商經濟、電腦網絡、分司企業、教育培訓、文學、藝術、體育健身、新聞媒體、衛生健康、科學技術、生活服務、旅游交通、社會文化、政法軍事、社會科學、個人主頁17個大類,另外結合分面組配的方法設立“國家與地區”類目,把其他17個大類下的所有網站又按所屬地域進行分類,因為大多數網站都具有地域性,也便于用戶直接查找。搜狐的網站資源目錄同樣是按照信息所屬的類別,層層點擊查找信息,所以用目錄時首先

9、要考慮清楚想要查找的信息屬于哪個類別。除此之外,搜狐作為一個綜合性很強的搜索網站,還提供多項的檢索功能。搜狐提供強大的關鍵詞檢索功能,它采用的是百度的搜索引擎技術。7. 請了解google和baidu在進行關鍵詞檢索中語法的異同,并舉例說明這兩者在針對某一主題進行檢索時檢索結果的差異以及對檢索意圖理解準確度的差異。(1).百度搜索引擎的特點1. 基于字詞結合的信息處理方式。巧妙解決了中文信息的理解問題,極大地提高了搜索的準確性和查全率。2. 支持主流的中文編碼標準。包括GBK(漢字內碼擴展規范)、GB2312(簡體)、BIG5(繁體),并且能夠在不同的編碼之間轉換。3. 智能相關度算法。采用了

10、基于內容和基于超鏈分析相結合的方法進行相關度評價,能夠客觀分析網頁所包含的信息,從而最大限度保證了檢索結果相關性。4. 檢索結果能標示豐富的網頁屬性(如標題、網址、時間、大小、編碼、摘要等),并突出用戶的查詢串,便于用戶判斷是否閱讀原文。5. 百度搜索支持二次檢索(又稱漸進檢索或逼進檢索)??稍谏洗螜z索結果中繼續檢索,逐步縮小查找范圍,直至達到最小、最準確的結果集。利于用戶更加方便地在海量信息中找到自己真正感興趣的內容。6. 相關檢索詞智能推薦技術。在用戶第一次檢索后,會提示相關的檢索詞,幫助用戶查找更相關的結果,統計表明可以促進檢索量提升10-20%。7. 運用多線程技術、高效的搜索算法、穩

11、定的UNIX平臺、和本地化的服務器,保證了最快的響應速度。百度搜索引擎在中國境內提供搜索服務,可大大縮短檢索的響應時間(一個檢索的平均響應時間小于0.5秒)8. 可以提供一周、二周、四周等多種服務方式??梢栽?天之內完成網頁的更新,是目前更新時間最快、數據量最大的中文搜索引擎。9. 檢索結果輸出支持內容類聚、網站類聚、內容類聚+網站類聚等多種方式。支持用戶選擇時間范圍,提高用戶檢索效率。10. 智能性、可擴展的搜索技術保證最快最多的收集互聯網信息。擁有目前世界上最大的中文信息庫,為用戶提供最準確、最廣泛、最具時效性的信息提供了堅實基礎。11. 分布式結構、精心設計的優化算法、容錯設計保證系統在

12、大訪問量下的高可用性、高擴展性、高性能和高穩定性。12. 高可配置性使得搜索服務能夠滿足不同用戶的需求。13. 先進的網頁動態摘要顯示技術。14. 獨有百度快照15. 支持多種高級檢索語法,使用戶查詢效率更高、結果更準。已支持“+”(AND)、“-”(NOT)、“|”(OR)、“site:”、“link:”,還將繼續增加其它高效的搜索語法。(2). Google搜索引擎的特點:Google作為全球最大的多語言搜索引擎,在國際上占有的市場越來越大,成為互聯網最具潛力的企業,以下就介紹下GOOGLE搜索引擎的主要特點:一、特有的PR技術,PR 能夠對網頁的重要性做出客觀的評價。PR是GOOGLE評

13、價一個網站質量高低的重要標準,PR分為十個等級,從容不1至10,PR越高代表網站質量和權威性越高,排名也就越靠前。二、更新和收錄快,GOOGLE收錄新站一般在十個工作日左右,是所有搜索引擎收錄最快的,更新也比較穩定,一般一個星期都會有大的更新。三、重視鏈接的文字描述和鏈接的質量,鏈接的文字描述也就是做鏈接用的文字,這個文字對GOOGLE排名起一定作用,因此我們建議如果網站要做某些關鍵詞,在交換鏈接時要用這個關鍵詞做鏈向你網站,鏈接的質量與鏈接網站的權威性和與你站是否相關有關,權威越高側你站獲得的排名越好,四、重視Description描述,多次研究發現,那些在GOOGLE排名好的網站在描述中勻含有關鍵詞,而且有些重復二次,因此可推斷其對描述還是相當重視。五、超文本匹配分析:Google 的搜索引擎同時也分析網頁內容。并不采用單純掃描基于網頁的文本(網站發布商可以通過元標記控制這類文本)的方式,而是分析網頁的全部內容以及字體、分區及每個文字精確位置等因素。同時還會分析相鄰網頁的內容,以確保返回與用戶查詢最相關的結果。8. 搜索并了解主流的rss訂閱軟件,完成用rss在兩個以上網站訂閱兩個以上專題。抓蝦訂閱,雅蛙訂閱,Newsgator訂閱,Bloglines訂閱,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論