


下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
中文搜索引擎數據庫容量、響應速率和技術的比較研究
1廣域網檢索技術的發展現狀根據相關數據,2010年底,中國互聯網用戶達到4.57億,排名世界第一。互聯網已成為人們獲取信息的最重要方式。但因特網上的信息浩如煙海,快速有效地查詢信息是一項艱巨的任務,這個需求直接導致了廣域網信息檢索技術的快速發展,各類搜索引擎層出不窮。如何選擇最符合需要的搜索引擎,通過其在因特網上找到我們所需要的信息,也是一個需要研究和解決的課題。基于這個目的,本文對目前因特網上市場占有率達前三甲的中文搜索引擎即百度、谷歌、搜狗作一個粗淺的比較,以期拋磚引玉,使現有的中文搜索引擎發展得更快更好。2大搜索引擎的特點比較搜索引擎優劣的指標有許多,這里我們暫且將搜索引擎的數據庫容量、響應速率和核心技術作為比較指標,來研究一下三大搜索引擎各自的特點和特色。2.1志的第一要素網上信息量呈幾何級數增長,為提高查全率,各搜索引擎都在努力擴大自己的數據庫。作為搜索引擎,必須要有相當多的庫容量才具有一定的代表性和實用性。可以說搜索引擎可搜索的數據庫容量大小是搜索引擎質量標志的第一要素。雖然各搜索引擎對自己的數據庫容量的具體數據是保密的,但我們還是可以用一些特殊的方法來對其數據庫容量的大小進行一番比較。發端于2011年6月的“郭美美紅十字會事件”在8月初達到了高潮,吸引著廣大網民的眼球。因圖片消耗數據庫資源較多,同時相關數據庫的積累還不龐大,所以可以用人工的方法來比較求證一下搜索引擎數據庫容量的大小。筆者在8月5日用“王軍中紅博愛”作為關鍵詞在三大搜索引擎上作圖片搜索,結果谷歌顯示了相關圖片51700張,百度顯示了相關圖片656張,搜狗顯示了相關圖片260張。相關數據佐證了谷歌的數據庫容量是最大的,百度的其次,搜狗的數據庫容量則是最小的。2.2“現有網絡地臺”的信息分析所謂響應速率是指用戶從檢索詞的輸入到搜索引擎顯示相關頁面所用的時間及頁面首頁所顯示的相關信息的數量。繆荃孫被稱為中國近代圖書館之父。筆者分別在谷歌、百度、搜狗中輸入關鍵詞“中國近代圖書館之父”,結果谷歌出現了2190000條相關結果,用時0.19秒,首頁出現了6條“繆荃孫”字樣的相關網頁信息;在百度出現了2060000條相關結果,用時數不祥,首頁出現了4條“繆荃孫”字樣的相關網頁信息;在搜狗出現了62492條相關結果,用時0.075秒,首頁出現了7條“繆荃孫”字樣的相關信息。由于電腦網絡硬件設備的更新換代,一般用戶單次檢索所花費的搜索時間都在1秒之內,但還是搜狗所用的時間最短,同時搜狗頁面首頁所顯示的相關信息的數量也是最多。這可能與搜狗數據庫容量較小,同時人工智能的算法參與較多有關。2.3超鏈分析技術核心技術是搜索引擎可持續發展的生命線,是區別于其它搜索引擎從而獲得持續競爭優勢的能力。從硬件到軟件,各搜索引擎的核心技術不一而足,但最關鍵的還是網頁搜索方面的核心技術。百度的核心技術是超鏈分析。超鏈分析技術是新一代搜索引擎的關鍵技術,百度總裁李彥宏就是超鏈分析專利的唯一持有人。超鏈分析就是通過分析鏈接網站的多少來評價被鏈接的網站質量,這保證了用戶在百度搜索時,越受用戶歡迎的內容排名越靠前。谷歌搜索技術所依托的軟件可以同時進行一系列的運算,且只需片刻即可完成所有運算。谷歌使用PageRank技術檢查整個網絡鏈接結構,并確定哪些網頁重要性最高,然后進行超文本匹配分析,以確定哪些網頁與正在執行的特定搜索相關。在綜合考慮整體重要性以及與特定查詢的相關性之后,谷歌可以將最相關最可靠的搜索結果放在首位。PageRank技術使用網上反饋的綜合信息來確定某個網頁的重要性。搜索結果沒有人工干預或操縱,這也是為什么谷歌會成為一個廣受用戶信賴、不受付費排名影響且公正客觀的信息來源之重要原因。搜狗在產品研發的過程中追求技術創新。搜狗以一種人工智能的新算法,分析和理解用戶可能的查詢意圖,對不同的搜索結果進行分類,對相同的搜索結果進行聚類,在用戶查詢和搜索引擎返回結果的人機交互過程中,引導用戶快速準確定位自己所關注的內容。互聯網搜索服務市場潛力巨大,但企業以液壓手段為視角根據艾瑞公司最新研究數據顯示,目前三大中文搜索引擎網頁搜索請求量中,百度占有73.2%的市場份額,谷歌占有20.7%,而搜狗僅占有3.5%的市場份額。Google是中國搜索引擎市場的開拓者。憑借著Google的技術優勢和品牌優勢,谷歌在中國網民中擁有了很高知名度。但由于谷歌和中國政府有關部門對搜索引擎在網頁搜索、新聞搜索、圖片搜索等方面關于審查過濾概念的不同意見,2010年3月23日,谷歌將其搜索引擎的服務器搬到了香港。中國大陸用戶用谷歌搜索引擎進行搜索時經常會出現訪問速度變慢或暫時無法訪問的情況,這也導致了谷歌在中國市場占有率的下降。百度恰如其分地抓住了中國互聯網搜索服務市場的高增長周期,并針對中國市場特點進行了產品與服務創新,如“百度知道”“百度百科”等后續產品的開發使人們在網絡資料的獲取上增強了對百度的依賴度,從而取得中文搜索領域內占據主導地位的市場份額。當然,由于百度一度追求的競價排名,也使它的品牌聲譽有所下降。搜狗之所以能在搜索引擎市場上占有一定的市場份額,主要歸功于搜狐號稱是中國最大的門戶網站所帶來的大量的訪問量,以及通過技術研發使其檢索頁面顯示出的簡潔與快捷。但要在搜索引擎市場上保持或占據更多的市場份額,搜狗還有更艱巨的路要走。互聯網的高速發展,使得網上可以搜尋的網頁變得愈來愈多,而網頁內容的質量亦變得良莠不齊。人們在網上查詢自己所需的信息資料也會變得越來越費時。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論