




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
InformationRetrieval信息檢索第一章計算機信息檢索概述
計算機檢索是伴隨著計算機科學和情報學的發展而發展的。情報學是一門發展中的交叉學科,吸收融合了其他學科,例如:認知學、計算機科學、統計學、語言學、信息論、控制論、行為科學等。自動采集數據、自動分類整理、自動信息群聚類、自動網頁鏈接、自動全文內容概括、自然語言理解、多媒體信息檢索、概念檢索、數據挖掘、知識發現、信息過濾等已經將情報學推上了數字化、網絡化、智能化的舞臺。1.1信息檢索的起源和發展信息的含義《暮春懷古人》-夢斷美人沉信息,目穿長路依樓臺。《寄遠》-塞外音書無信息,道旁車馬起塵埃。美國數學家克勞德·香農——”信息是用來消除不確定性的東西”控制論的創始人維納——”信息是人們在適應外部世界并使這種適應反作用于外部世界的過程中,同外部世界進行互相交換的內容的名稱。”
1.1信息檢索的起源和發展信息的特征客觀性——信息的存在可以被人感知、獲取、傳遞和利用。時效性——信息會隨事物存在方式和運動狀態的改變而改變。載體性——信息必須依附一定的載體。傳遞性——信息從信息源出發經過載體的傳遞被接收或處理和利用。可塑性——人們可以對信息進行綜合處理、分析和加工。共享性——同一信息可同時或不同時被多用戶使用。1.1信息檢索的起源和發展信息的級別述評綜述詞典年鑒手冊百科全書知識的產生記錄檔案學位論文標準科技報告專利說明書會議論文期刊論文專著一次信息二次信息文摘索引目錄三次信息傳播信息的利用1.1信息檢索的起源和發展信息檢索的概念信息檢索(InformationRetrieval)是指信息用戶為處理解決各種問題而查找、識別、獲取相關的事實、數據、文獻的活動和過程。(信息的存儲和組織、信息的檢索、信息的展示)信息檢索的研究是伴隨著科學技術的發展和信息數量劇增而興起的研究領域。(1)文獻檢索——20世紀中葉以前,信息存儲和傳播主要以紙質介質為載體,信息檢索活動也圍繞著文獻的獲取和控制展開。(2)隨著科技的發展,計算機的應用,信息檢索經歷了從手工檢索到機械檢索再到計算機檢索的過程。1.1信息檢索的起源和發展信息檢索的類型——依據信息存儲和檢索方式和技術來劃分手工檢索——用手工方式來處理和查找文獻,如作者、文摘、索引、目錄、參考文獻、關鍵字等。脫機批處理檢索——是指定期由專職檢索人員把用戶課題匯總,批量處理提問要求并把結果提供給用戶。(50年代中后期)聯機檢索——用戶使用終端設備,通過通信線路與中央計算機連接,直接與計算機對話進行檢索,結果由終端輸出。(70年代)光盤檢索——光盤信息存儲密度高,容量大,讀取速度快。光盤檢索系統費用大大低于聯機檢索。(80年代)網絡化聯機檢索——國際互聯網的出現。(90年代)1.1信息檢索的起源和發展信息檢索的類型——依據檢索內容來劃分文獻信息檢索——凡是利用目錄、文獻或索引等二次信息來查找某一課題、著作等屬于此類。數據信息檢索——利用參考書、數據庫等檢索工具檢索包含在文獻中的數據、參數、公式等稱為數據檢索。事實信息檢索——利用百科全書等檢索工具從事實信息系統中查找特定事實的過程稱為事實信息檢索。1.1信息檢索的起源和發展應用系統1956~1963年美國武裝部隊技術情報局的ASTIA系統;1962年美國航空航天局的NASA系統;1964年美國國家醫學圖書館創建的醫學文獻分析與檢索系統MEDLARS;化學文摘等。70~80年代DIALOG系統、RECON系統等。CyFr系統。CyFr系統是Schank、Kolodner和DeJong于1981年根據概念信息檢索理論建立的系統,用于處理與美國前國務卿范斯(Vance)有關的新聞。Researcher系統。由Lebowitz于1983年在哥倫比亞大學研制,用于閱讀和理解用自然語言形式輸入的專利文獻摘要。目前已建立的基于超文本的信息檢索系統,如AltaVista、WebCrawler、Yahoo!、Lycos、OpenText、Infoseek、Google等著名的網絡檢索系統。1.1信息檢索的起源和發展信息檢索(InformationRetrieval)是針對信息項進行表示、存儲、組織和存取。對信息項的表示和組織應該為用戶提供其感興趣信息的方便存取。數據檢索(DataRetrieval)檢索滿足給定查詢的數據。數據檢索語言目的在于檢索出所有明確滿足給定條件的對象。信息檢索處理的通常是自然語言文本,而人們總不能使自然語言文本很好的結構化,而且自然語言文本有可能會有語義上的歧義。數據檢索系統(如關系型數據庫)處理的是那些已經定義好結構和語義的數據。Selectcount(*)fromtable_1whereage>=30;1.1信息檢索的起源和發展為了有效的滿足用戶信息需求,IR系統必須以某種方式“解釋”集合中信息項的內容,并根據與用戶查詢的相似度對它們進行排序。這種對文獻(信息)內容的“解釋”包括從文獻文本(信息)中提取語法和語義信息并將這些信息用于匹配用戶的信息需求。難點在于:如何提取這些信息,和如何運用它來確定相關性。相關性(Relevance)的概念就成為信息檢索的核心。1.2信息檢索的過程用戶界面文本操作查詢操作檢索排序標引索引數據庫管理模塊文本數據庫文本文本邏輯視圖倒排文檔邏輯視圖用戶反饋查詢檢出文獻排序文獻信息檢索的過程用戶需求1.3信息檢索技術的研究內容1、檢索模型的研究。(不再是僅僅以布爾模型、概率模型為理論基礎,而是逐漸引入遺傳算法、并行算法、粗糙集理論等構建智能檢索模型)2、信息處理技術與組織研究。自動分類(自動歸類、自動聚類、類號自動轉換)自動文摘和查詢的擴展和精化3、信息檢索技術與方法研究。檢索算法的研究全文檢索、超文本檢索、多媒體檢索智能檢索、多語種檢索、分布式檢索4、信息可視化技術。1.4檢索技術的未來以人工智能為代表的信息檢索自動化趨勢。人工參與檢索工具的信息組織是檢索工具的發展趨勢。多媒體信息檢索技術的成熟與發展(圖像:顏色相似性、紋理相似性、形狀相似性、目標和目標關系相似性)。多語種檢索的支持。個人化的檢索工具和專業化的檢索工具。1.4檢索技術的未來1.4檢索技術的未來1.4檢索技術的未來1.4檢索技術的未來1.4檢索技術的未來1.4檢索技術的未來第二章
WEB信息檢索系統
WEB資源現已成為Internet上最主要的信息資源,它影響著人們的學習、工作、生活等方方面面。面對這樣一個巨大的信息寶庫,如何快捷的從中獲取信息,發揮它的最大作用,這是信息工作者和相關領域研究者面臨的重要研究課題。如何把分布在世界各地的、無序的、各式各樣的WEB資源信息有序化,使之便于提取。因此,要求人們必須能對WEB信息進行及時的采集、高效的處理、科學的組織,并提供對其進行快速有效查詢的檢索工具。2.1Web技術發展概述
目前Internet能夠找到的網頁已多達數百億,并且仍以每幾個月翻一番的速度增長。網頁數全國網頁總數157,091,220個其中:靜態網頁數104,593,217個
動態網頁數52,498,003個靜動態網頁數比例1.99:1平均每個網站的網頁數423個網頁字節數全國網頁總字節數2,877,754,095KB每個網頁平均字節數18.319KB平均每個網站的網頁字節數7744.2KB2.1Web技術發展概述
互聯網用戶:21億:全球互聯網用戶總數9.222億:亞洲互聯網用戶數量4.762億:歐洲互聯網用戶數量2.711億:北美互聯網用戶數量2.159億:拉丁美洲和加勒比海地區互聯網用戶數量1.186億:非洲互聯網用戶數量6860萬:中東地區互聯網用戶數量2130萬:大洋洲/澳大利亞互聯網用戶數量45%:25歲以下互聯網用戶的比例4.85億:中國互聯網用戶數量,這超過了世界上其它任何一個國家36.3%:中國互聯網普及率5.91億:全球固定線路寬帶連接數量2.1Web技術發展概述
社交媒體:8億多::截至2011年底,Facebook用戶數量2億:2011年Facebook新增用戶數量3.5億:通過手機登錄Facebook的用戶數量2.25億:Twitter賬戶數量1億:2011年活躍Twitter用戶數量1810萬:LadyGaga的關注者數量,這是Twitter上最受歡迎的用戶2.5億:每天發送的Twitter消息數量(2011年10月)2.1Web技術發展概述
電子郵件:314.6億:全球電子郵件賬戶數量27.6%:微軟Outlook是最流行的電子郵件客戶端19%:經過垃圾郵件過濾之后企業郵箱收件箱收到的垃圾郵件比例112封:平均每位企業客戶每天收發的電子郵件數量71%:全球垃圾郵件的比例(2011年11月)3.6億:Hotmail用戶總數(全球最大的電子郵件服務)44.25美元:2011年每投入1美元的電子郵件營銷預計可獲得的回報40年:自1971年首封電子郵件發出之后的時間0.39%:惡意電子郵件比例(2011年11月)網站:5.55億:網站數量(2011年12月)3億:2011年新增網站數量2.1Web技術發展概述
不同地區的互聯網用戶比例,2011年3月亞洲:44%歐洲:23%北美:13%拉丁美洲和加勒比海地區:10%非洲:6%中東:3%大洋洲/澳大利亞:1%2.1Web技術發展概述
不同地區的互聯網普及率,2011年3月非洲:11%亞洲:24%中東:31.7%拉丁美洲和加勒比海地區:36.2%歐洲:58.3%大洋洲/澳大利亞:60.1%北美:78.3%2.1Web技術發展概述
全球桌面瀏覽器市場份額,2011年12月IE:39%Chrome:28%火狐:25%Safari:6%2.1Web技術發展概述
非結構化——由腳本語言構成。
動態性——Internet每個月變化的信息量占總信息量的40%。復雜性——Internet是完全開放的,數以億計的網絡使用者都可能成為信息提供者,形成一個無序而復雜的信息源。WEB信息的基本特點2.1Web技術發展概述
Htm/36.80%html16.35%shtml5.36%/3.99%asp2.93%php1.08%txt0.34%nsf0.17%xml0.15%jsp0.11%cgi0.08%pl0.03%其它32.61%2.1Web技術發展概述
Web信息的表現方式和查詢方式
通過統一資源定位器能夠獲取WEB信息,但其前提是知道存放信息的服務器的具體地址,而在龐雜的網絡中尋找IP地址的開銷太大了。借助于Internet特有的信息檢索工具。隨著Web逐漸成為Internet信息組織與利用的主流形式,針對Web資源的搜索引擎工具成為主要的檢索工具。2.1Web技術發展概述
網絡信息檢索工具發展概述
目前在Internet上運行的網絡檢索工具可分為三大類:交互式信息提供服務(InteractiveInformationDeliveryServices);名錄服務(DirectoryServices);索引服務(IndexingServices)。2.2Web信息檢索工具
網絡信息檢索工具發展概述
2.2Web信息檢索工具
目前在互聯網運行的交互式信息服務軟件主要基于WWW和Gopher,名錄服務軟件主要基于WHOIS、NETFIND和X.500,索引服務軟件主要基于Archie、Veronica、Jughead和WAIS。交互式信息檢索工具一般為用戶提供友好的交互操作界面,并具備交互瀏覽信息的功能,信息在網絡上的存放方式以及如何取得信息,對使用者都是透明的。菜單式查詢系統Gopher是Internet上較早出現的一種交互信息查詢工具。WWW系統是近年來發展的最重要的一種交互信息查詢工具,也是迄今用戶最多和使用最為方便的工具。2.2Web信息檢索工具
菜單式查詢系統(Gopher)
Gopher是一種按“菜單”形式組織的分布式文檔查詢系統,1991年在美國Minnesota大學發展起來。開始用于校園網,后來推廣到Internet。Gopher為用戶查詢信息提供一個多級的菜單界面,只需按照菜單指示的路徑就能獲取想要的信息,使用非常方便。發一封E-mail信件給某一最靠近你的Gophermail服務器,服務器響應你的信件,郵寄給你一封包含它的主菜單或某一gopher服務器的主菜單;你處理該信件,把需要的菜單項打上標志,然后返回給Gopher服務器。2.2Web信息檢索工具
廣域信息服務系統(WAIS)
WAIS(WideAreaInformationSystem)以各種文本數據文件為檢索對象(信息源),融匯了Archie、newsgroup等的信文件在內的各類信息。目前,Internet上已建立了幾千個提供檢索服務的WAIS服務器,成為整個Internet網絡文本式信息資源的檢索工具。用WAIS檢索信息可分兩步進行:第一步,先從信息源(文件題目)列表選擇檢索對象;第二步,在選定范圍內通過文件的關鍵詞查找文件。2.2Web信息檢索工具
網絡文件搜索系統(Archie)
Archie可以使用戶能夠查詢信息資源的存放地址,以便能夠從特定場所的服務器中獲取各種感興趣的或者有用的信息。Archie服務器其實是一個存放了所有匿名FTP服務器地址和相關信息的數據庫,它能幫助你找到有關FTP的地址或文件的信息,因而使用電子郵件來查詢地址是十分方便的。
archie@
archie@
archie@
archie@archie.doc.ic.ac.uk
archie@archie.au
archie@archie.funet.fi
archie@archie.luth.se2.2Web信息檢索工具
搜索引擎系統(SEARCHENGINE)搜索引擎起源于傳統的信息全文檢索理論,即計算機程序通過掃描每一篇文章中的每一個詞,建立以詞為單位的倒排文件,檢索程序根據檢索詞在每一篇文章中出現的頻率和每一個檢索詞在一篇文章中出現的概率,對包含這些檢索詞的文章進行排序,最后輸出排序的結果。互聯網搜索引擎除了需要有全文檢索系統之外,還有“蜘蛛”(SPIDER)系統,即能夠從互聯網上自動收集網頁的數據搜集系統。2.2Web信息檢索工具
2.3Web搜索引擎的類型和特點
搜索引擎系統(SEARCHENGINE)從最初的主題指南發展到獨立型搜索引擎、混合式搜索引擎、元搜索引擎乃至分布式搜索引擎,折射出搜索引擎功能不斷改進、性能日趨完善、更趨向智能化的檢索特征。2.3Web搜索引擎的類型和特點
1、主題指南(目錄式搜索引擎)目錄式搜索引擎是搜索引擎的最初表現形式。是人工式或半自動式建立的、結構化的互聯網網址主題類目和子類目,按照字母、時間、地點、主題等順序進行排列,使用戶通過瀏覽網絡站點列表,檢索有關信息。主題指南由人工編制和維護,因此在信息的收集、編排、HTML編碼以及信息注解等方面花費大量的人力和時間。它強調的是瀏覽功能,優點是采用人工干預提高了主題指南返回結果的相關性;缺點是很難檢索到較深的信息,難于控制主題等級類目的質量,信息更新速度相對較慢,收錄信息數量相對不足。2.3Web搜索引擎的類型和特點
1、主題指南(目錄式搜索引擎)用戶進行籠統或較籠統的主題瀏覽和檢索。當用戶尚未形成很精確的檢索概念時,采用主題指南作為檢索起始點非常有效。除綜合性主題指南之外,為了適應網上各種類型信息的發展變化,又出現了某些專業的主題指南,它由某一領域的專家編制和維護,在信息準確性和易于理解方面比綜合性主題指南要好。2.3Web搜索引擎的類型和特點
2、機器人搜索引擎由一個稱為蜘蛛、機器人、爬行者或蠕蟲的程序以某種策略自動的在互聯網中搜集和發現信息,由索引器為搜到的信息建立索引,由檢索器根據用戶的查詢輸入索引庫,并將查詢結果返回用戶。WEB信息資源信息采集模塊信息標引模塊索引數據庫信息檢索模塊用戶系統2.3Web搜索引擎的類型和特點
2、機器人搜索引擎在WEB搜索引擎中,信息采集Robot的效率會直接影響搜索引擎的更新周期和數據的及時性。信息采集Robot是一種軟件程序,它從一個或一組URL出發,訪問該URL并進行索引,同時紀錄該URL所指向的HTML文件中的URL。
為了使標引關鍵詞和摘要更好的反映網頁內容,保障用戶檢索的查準率,Html語言提供了Metakeyword標記和Metadescription標記來幫助網頁編制者們專門提供關鍵詞和整個站點的描述摘要。2.3Web搜索引擎的類型和特點
2、機器人搜索引擎
Robot在信息采集的過程中,具體包括3個模塊:文件訪問模塊、路徑選擇模塊、訪問控制模塊。文檔訪問模塊訪問控制模塊路徑選擇模塊2.3Web搜索引擎的類型和特點
3、混合式搜索引擎隨著搜索引擎技術的不斷發展,機器人搜索引擎多與主題指南合二為一,演化為兼具有分類瀏覽和關鍵詞檢索功能的混合式搜索引擎。混合式搜索引擎是目前占據搜索引擎主導地位的一種搜索引擎,具有分類瀏覽和關鍵詞檢索功能。2.3Web搜索引擎的類型和特點
4、元搜索引擎元搜索引擎(又稱集成搜索引擎,MegaSearchEngine,MultipleSearchEnginge)是一種集成化搜索引擎,它是多個獨立型搜索引擎的集合體。與獨立搜索引擎的區別在于,元搜索引擎沒有自己獨立的數據庫,通過一個統一的用戶界面幫助用戶在多個搜索引擎中選擇和利用合適的甚至是同時利用多個搜索引擎實現檢索操作。2.3Web搜索引擎的類型和特點
5、分布式搜索引擎分布式搜索引擎是基于搜索機器人的搜索引擎。其基本思想是:根據地域、主題、IP地址或其他的劃分標準,將全網劃分成若干自治域,在每個自治區內分設檢索服務器。由于分布式搜索引擎將索引數據庫劃分到幾個分散的數據庫中,每個數據庫變小了,但所有搜索引擎覆蓋的范圍則變大了,且很少有信息重復。而作為分布式系統特性之一的可擴充性也是分布式搜索引擎的優點之一。第三章
常用中英文搜索引擎及檢索策略
第三章
常用中英文搜索引擎及檢索策略
2011年,谷歌仍然盤踞核心搜索引擎榜首,占到總搜索量的65.9%,占據了近2/3的市場份額。但2011年最引人注意的還是微軟必應。12月份,必應首次趕超雅虎,位居榜單第二的位置。2011年,必應持續穩定發展。截至年底,必應所占市場份額達到15.1%,與去年同期相比,增長了3.1%。12月,雅虎以14.5%的搜索量位列第三。AskNetwork及美國在線(AOL)分列第四、第五,搜索量所占份額分別為2.9%和1.6%。第三章
常用中英文搜索引擎及檢索策略
根據艾瑞咨詢統計數據顯示,2012年第二季度中國搜索引擎市場規模68.7億元。從市場競爭格局來看,2012年第二季度百度在中國搜索引擎市場中的絕對優勢地位得到進一步增強,市場份額由77.6%擴張到79.4%;搜狗保持增長態勢,由從2.6%上升到2.9%;谷歌中國市場持續被壓縮,由17.9%降至16.2%;此外,搜搜占比由1.5%微降至1.4%,其它企業占比下降至0.2%。3.1常用中文搜索引擎1.搜狐
搜狐(http:///)提供分類目錄網站檢索,搜集范圍以中國為主,收錄較豐富,還加入了部分英文網站,分類較科學,類目縝密。它也是第一個針對國內中文網頁的搜索引擎,此外它還包括新聞信息、多媒體文件下載、網上調查、免費電子郵件等其他服務。搜狐的分類庫組織的更象一個精心組織的導航庫,對于一個想在網上瀏覽的新手來手有一定參考價值。
第三章
常用中英文搜索引擎及檢索策略
第三章
常用中英文搜索引擎及檢索策略
第三章
常用中英文搜索引擎及檢索策略
3.1常用中文搜索引擎2.新浪新浪(http:///)提供分類目錄、網站檢索以及全文檢索,搜集范圍遍及全球中文網站,收錄非常豐富;分類規范,層次合理;全文檢索為AltaVista、IPO提供支持;但復雜條件查詢較弱;可提供熱門關鍵詞查詢等新方式。第三章
常用中英文搜索引擎及檢索策略
第三章
常用中英文搜索引擎及檢索策略
第三章
常用中英文搜索引擎及檢索策略
3.1常用中文搜索引擎3.網易網易(/)提供較豐富的分類目錄、網站檢索及FTP檢索,范圍以中國為主收錄富,目錄較嚴密;提供新聞等其他服務,網易主站另有“網站導航”欄目,分類列舉推薦網站。它的搜索引擎也是頗有特色,它先將用戶的檢索式在自己的分類庫中進行查詢,如果沒有檢索出結果,系統將自動將提問式轉向全文數據庫進行檢索。如果在分類庫中檢索出結果,用戶對檢索結果不滿意,可以直接按檢索結果頁面底部的全文檢索按鈕,繼續在全文庫中進行檢索,這對于一個非專業用戶來說是非常實用的一種檢索策略。第三章
常用中英文搜索引擎及檢索策略
第三章
常用中英文搜索引擎及檢索策略
3.1常用中文搜索引擎4.百度百度(http:///),2000年1月創立于北京中關村,是全球最大的中文搜索引擎。擁有目前世界上最大的中文信息庫--超過10億的中文網頁數據庫,這些網頁的數量每天正以千萬級的速度在增長。百度采用了基于內容和基于超鏈分析相結合的方法進行相關度評價,能夠客觀分析網頁所包含的信息,從而最大限度保證了檢索結果相關性。百度搜索支持二次檢索(又稱漸進檢索或逼進檢索)也是其相當重要的特點。可在上次檢索結果中繼續檢索,逐步縮小查找范圍,直至達到最小、最準確的結果集。利于用戶更加方便地在海量信息中找到自己真正感興趣的內容。第三章
常用中英文搜索引擎及檢索策略
3.1常用中文搜索引擎5.雅虎中國雅虎(http:///),1994年4月,斯坦福大學兩位博士生楊致遠和DavidFilo共同創辦了雅虎,通過著名的雅虎目錄為用戶提供導航服務。雅虎目錄有近100萬個分類頁面,14個國家和地區當地語言的專門目錄,包括英語、漢語、丹麥語、法語、德語、日語、韓文、西班牙語等。從1996年到2004年,雅虎先后選用AltaVista、Inktomi等第三方的搜索引擎作為自己網頁搜索的后臺服務提供商。雅虎先后收購了Inktomi和Overture等著名的搜索引擎公司,重新整合打造出YST搜索技術平臺。2004年3月,雅虎開始推出獨立的搜索服務,迅速成長為全球第二大搜索引擎。涵蓋全球120多億網頁(其中雅虎中國為12億)的強大數據庫,擁有數十項技術專利、精準運算能力,支持38種語言,近10,000臺服務器。3.1常用中文搜索引擎6.谷歌(中國)谷歌(/),創建于1998年9月,創始人為LarryPage和SergeyBrin。Google是萬維網上最大的搜索引擎,用戶能夠訪問一個包含超過80億個網址的索引。Google不僅能搜索出包含所有關鍵詞的結果,并且還對網頁關鍵詞的接近度進行分析。與大多數其它搜索引擎的又一區別是:Google按照關鍵詞的接近度確定搜索結果的先后次序,優先考慮關鍵詞較為接近的結果,這樣可以為您節省時間,而無須在無關的結果中徘徊。Google最擅長于為常見查詢找出最準確的搜索結果。3.1常用中文搜索引擎6.谷歌(中國)谷歌的特殊功能:Google已經可以支持13種非HTML文件的搜索。除了PDF文檔,Google現在還可以搜索MicrosoftOffice(doc,ppt,xls,rtf)、ShockwaveFlash(swf)、PostScript(ps)和其它類型文檔。Google在訪問網站時,會將看過的網頁復制一份網頁快照,以備在找不到原來的網頁時使用。單擊“類似網頁”時,Google偵察兵便開始尋找與這一網頁相關的網頁。3.1常用中文搜索引擎6.谷歌(中國)谷歌的特殊功能:按鏈接搜索:查詢link:顯示所有指向該網址的網頁。例如,“link:”將找出所有指向Google主頁的網頁。不能將link:搜索與普通關鍵詞搜索結合使用。指定網域:“site:”。要在某個特定的域或站點中進行搜索,可以在Google搜索框中輸入“site:”。例如:新聞site:Google的錯別字改正軟件系統會對輸入的關鍵詞進行自動掃描,檢查有沒有錯別字。中英文字典、天氣查詢、股票查詢、郵編區號、手機電話號碼歸屬地等。第三章
常用中英文搜索引擎及檢索策略
第三章
常用中英文搜索引擎及檢索策略
第三章
常用中英文搜索引擎及檢索策略
搜搜是騰訊旗下的搜索網站,是騰訊主要的業務單元之一。網站于2006年3月正式發布并開始運營。搜搜目前已成為中國網民首選的三大搜索引擎之一,主要為網民提供實用便捷的搜索服務,同時承擔騰訊全部搜索業務,是騰訊整體在線生活戰略中重要的組成部分之一。搜搜目前主要包括網頁搜索、綜合搜索、圖片搜索、音樂搜索、論壇搜索、搜吧等16項產品。用戶既可以使用網頁、音樂、圖片等搜索功能尋找海量的內容信息,也可以通過搜吧、論壇等產品表達和交流思想。搜搜旗下的問問產品將為用戶提供更廣闊的信息及知識分享平臺。2009年9月3日,搜搜搜索結果頁面已經去掉“以下結果由Google提供”字樣,很可能表明,搜搜已改用自主研發的搜索引擎技術。而之前,一直是由Google提供技術支持。
3.2常用英文搜索引擎1.AltaVista(http:///)
AltaVista是屬于全文搜索引擎。提供常規搜索、高級搜索和主題搜索,主題包括圖象(Images)、MP3/Audio&Video等。允許以25種不同的語言進行搜索,并提供英、法、德、意、葡萄牙、西班牙語雙向翻譯。
AltaVista是搜索引擎的元老,誕生于DEC研發中心。它也是Yahoo!最早的搜索引擎技術的提供者。
AltaVista在更新頻率上不是很快,其中文搜索的技術已經有兩三年沒有改進過,檢索內容更新頻率大約是一個月一次。音頻、視頻與圖像占用空間很大,要做好這方面的服務,需要占用相當大的存儲空間,而AltaVista在這方面做得相當不錯,可以說處于世界領先的地位。3.2常用英文搜索引擎3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎3.2常用英文搜索引擎2.Excite
Excite數據庫中存有2.5億張網頁及媒體文件,并且檢索Usenet新聞。此外還提供總數達15萬種的主題分類查詢(實際上是定制的關鍵詞搜索)。提供常規及高級搜索。操作界面提供了11種語言供選擇,此外還可以在國別列表中選定某個國家或地區,以及限定域名后綴(如“cn”等)進行一定區域范圍的搜索。Excite提供了很好的概念延伸查詢,能列出比輸入的關鍵詞更具體的相關領域供用戶選擇查詢。
Excite是斯坦福大學的六位計算機系的本科生創辦的。一開始提出的概念搜索(ConceptSearch),即用同義詞推斷來增加搜索的結果很快就宣告失敗。因為互聯網的信息不是太少了而是太多了,搜索的目的是在茫茫的信息海洋中找到所需要的精確的信息。1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎3.2常用英文搜索引擎3.Infoseek
()(http:///)
Infoseek不是以數據庫大而見長的,而是以檢索的相關程度高而知名。Infoseek購買了馬薩諸塞大學的搜索軟件產品,而馬薩諸塞大學的信息檢索是全美高校數一數二的,所以Infoseek一開始的起點就很高。但他們很快就發現,互聯網數據量太大了,當初設計的規模太小,只好重新編寫程序。于是Infoseek請了一位華人工程師WilliamChang設計了第一代Infoseek搜索引擎Ultraseek,其特點也是速度快,同時檢索結果的相關程度也很高。
1999年,Infoseek被Disney所購買,發展方向與定位都做了調整。Disney將其做為入門網站Go.COM的搜索引擎,在技術上的革新比較少,處于維持現狀的水平,主要是做娛樂方面的索引。1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎3.2常用英文搜索引擎4.Inktomi()
Inktomi是加州大學伯克利分校EricBrewer的教授最先開始研究的,這位教授是并行處理研究的專家。EricBrewer希望用這個搜索引擎產品來證明他的并行算法是十分出色的,后來他將自己的技術賣給了Hotbot,作為后臺技術的提供商。EricBrewer完成Inktomi的時候,這個市場競爭已經相當激烈,再想做門戶已經不可能了。所以他決定只做背后技術的提供商,而這卻正中Yahoo!的下懷,Yahoo!以前使用的是Altavista的技術,但Altavista本身也是門戶,與Yahoo!處于競爭關系,而Inktomi與Yahoo!沒有利益沖突關系,便很快成了其后臺技術的提供商。3.2常用英文搜索引擎5.LookSmart也是主要的目錄索引之一,向包括MSN、AltaVista、Excite等在內的其他搜索引擎提供搜索內容。與ODP一樣,其注冊網站在合作伙伴搜索結果中排位往往也靠前。LookSmart在網站結構和內容上與其他目錄索引大同小異,其目錄中的網站排列也是根據字母順序。它使用Inktomi的數據庫提供二級網頁搜索。1.谷歌3.2常用英文搜索引擎6.LYCOS(http:///)搜索引擎中的元老,是最早提供信息搜索服務的網站之一。Lycos整合了搜索數據庫、在線服務和其他互聯網工具,提供網站評論、圖象及包括MP3在內的壓縮音頻文件下載鏈接等等。提供常規及高級搜索。高級搜索提供多種選擇定制搜索條件,并允許針對網頁標題、地址進行檢索。具有多語言搜索功能,共有25種語言供選擇。3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎7.HOTBOTHotBot在頁面上提供了直觀的圖形化檢索菜單功能,用戶可以通過簡單的下拉菜單創建復雜的布爾查詢,或者按日期、地理區域和媒體類型進行限制性搜索。在結果顯示時,HotBot會列出標題、摘要、相應的打分、文件大小、日期和網址,但是其結果顯示不能任意進行前后跳轉,這對于用戶評估大的檢索結果集是相當的不方便。3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎8.SearchAllinOne
MetaSearch
All-in-One方式是指元搜索引擎界面以任意順序或分類羅列多個搜索引擎,而元搜索引擎本身主要提供各類搜索引擎的介紹信息和物理連接機制。僅僅提供一個簡單的界面來幫助用戶選擇和使用各種搜索引擎;對各獨立搜索引擎檢索界面的復制可能是部分的或全部的;直接利用所選搜索引擎的顯示格式呈送給用戶。3.2常用英文搜索引擎8.3.2常用英文搜索引擎在我辦公室速度太慢8.3.2常用英文搜索引擎8.3.2常用英文搜索引擎8.3.2常用英文搜索引擎不支持中文8.3.2常用英文搜索引擎8.3.2常用英文搜索引擎速度比較快8.3.2常用英文搜索引擎8.3.2常用英文搜索引擎3.3搜索引擎的檢索策略1.選擇適當的查詢詞
A表述準確——許多搜索引擎會嚴格按照您提交的查詢詞去搜索,因此,查詢詞表述準確是獲得良好搜索結果的必要前提。
例如,要查找2004年國內十大新聞,查詢詞可以是“2004年國內十大新聞”;但如果把查詢詞換成“2004年國內十大事件”,搜索結果就沒有能滿足需求的了。例如,要查找林心如的寫真圖片,用“林心如寫真”,但如果寫錯了字,變成“林心茹寫真”,搜索結果質量就差得遠了。例如,想查找去長城旅游的信息,“長城一日游”就是比“旅游”更好的關鍵詞。3.3搜索引擎的檢索策略1.選擇適當的查詢詞
B查詢詞的主題關聯與簡練——目前的搜索引擎并不能很好的處理自然語言。因此,在提交搜索請求時,您最好把自己的想法,提煉成簡單的,而且與希望找到的信息內容主題關聯的查詢詞。
例如,某三年級小學生,想查一些關于時間的名人名言,他的查詢詞是“小學三年級關于時間的名人名言”。“小學三年級”和主題無關,會使得搜索引擎丟掉不含“小學三年級”的信息;“關于”也是一個與名人名言沒有關系的詞;“時間的名人名言”,其中的“的”也不是一個必要的詞,會對搜索結果產生干擾;“名人名言”,名言通常就是名人留下來的,在名言前加上名人,是一種不必要的重復。3.3搜索引擎的檢索策略1.選擇適當的查詢詞——避免使用無意義的虛詞:
去掉關鍵詞中的疑問詞、連詞、嘆詞、助詞、語氣詞等無意義的虛詞,有助于提高檢索質量。比如“怎么樣給金魚換水”的檢索質量就不如“金魚換水”。使用多個關鍵詞組合:
當您發現搜索結果中存在很多無關信息的時候,您可以嘗試增加關鍵詞來過濾掉無關的結果。比如位于深圳的你搜索“同城快遞
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 育嬰師職業道德規范與責任意識試題及答案
- 深入剖析健康管理師考試的教材與教學內容試題及答案
- 育嬰師在疾病防控中的角色試題及答案
- 精細化母豬護理考核的試題及答案
- 激光焊接技術應用實例試題及答案
- 管理師考試重要考點回顧與練習試題及答案
- 電大藝術欣賞試題及答案
- 新啟示下的衛生管理證書考試要素試題及答案
- 藥物質量控制體系建設試題及答案
- 網絡規劃設計師的課程設計理念試題及答案
- 《電氣控制系統設計與裝調》課件 項目11 M7130平面磨床電氣控制線路的檢修
- Profinet(S523-FANUC)發那科通訊設置
- 湖北理工學院《Python編程》2023-2024學年期末試卷
- 人工智能概論課件完整版
- 比較文學課件:流傳學
- 2024-2030年中國游戲主機行業競爭格局及消費趨勢預測報告
- 六年級語文閱讀教學計劃
- 國開2024年秋《經濟法學》計分作業1-4答案形考任務
- 四川省成都市2024年小升初英語試卷(含答案)
- 河南省信陽市潢川縣2023-2024學年四下數學期末學業質量監測試題含解析
- 中國高血壓防治指南(2024版)
評論
0/150
提交評論