


下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
基于Ajax構建搜索引擎的設計和實現
主要完成的功能有:用爬蟲抓取網頁;獲取有效信息放入數據庫;通過Lucene建立引;對簡單關鍵字進行搜索;使用Ajax的局部刷新頁面展示結果。論文詳細說明了系統開發的背景,開發環境,系統的需求分析,以及功能的設計與實現。同時講述了搜索引擎的原理,系統功能,并探討使用Ajax與服務器進行數據異步交互,從而改善現有的Web應用模式。關鍵詞:L;異步更新;Ajax;搜索引擎引言1.1課題背景Lucene是一個基于Java的全文信息檢索工具包,它為應用程序提供索引和搜索功能。Lucene目前是ApacheJakarta家族中的一個開源項目。也是目前最為流行的基于Java開源全文檢索工具包。Lucene是Java世界中常用的索引API,使用它提供的方法可以為文本資料創建索引,并提供檢索。L它只在命名方面采納了.Net的建議,主要目標傾向于和JavaLucene兼容:一個是索引格式兼容,達到可以共同工作的目的;一個是命名接近(只相差很少,比如大小寫等),目的是可以方便開發者使用JavaLucene相關的代碼和資料。1.2國內外研究現狀國內外對搜索引擎研究比較著名的便是Google了。無論搜索技術本身還是搜索范圍與深度,Google搜索總是所有搜索引擎的目標。Google專業領域搜索方面做的成效是有目共睹的。Google在低層次的智能搜索方面已經開始研究很多年了,實際的成果就是翻譯方面。利用搜索技術,加上經驗主義發展出來的Google翻譯機器人,在外語翻譯方面已經比傳統的翻譯好很多了。但是翻譯僅僅是學術方面的應用,更重要的是Google建立起來的海量搜索歷史記錄。如果把這些海量搜索歷史記錄當作是詞典的話,那么如果與搜索技術的結合發展成為低層次的只能搜索,那么應用就將大大加強與廣泛。國內,對搜索引擎的專注和對中文的理解能力也是中國本土搜索引擎行業獨特的競爭力。國內比較著名的比如百度,更專注對中文的處理。中文的意思多種多樣,是很難用程序處理的。目前國內外都在做中文引擎,門戶網站、非門戶網站也都在進軍搜索業,成立搜索門戶。為了滿足用戶更深層次的需求,國內的搜索引擎也在不斷的完善自己。如何將人類的知識和智能加入到檢索中,如何使搜索引擎的質量產生一個質的飛躍,也是國內搜索引擎努力的方向。中國網民對智能化搜索需求也是顯而易見的。這也意味著搜索不再是簡單的技術或者是網絡導航而已,而是會成為普通人生活中必備的工具之一。1.3本課題研究的意義隨著計算機技術和互聯網技術的飛速發展,網絡上的信息量急劇增長,要在浩如煙海的網絡世界中尋找需要的信息,作為現代信息獲取技術的主要應用,那么搜索引擎是必不可少的。通過L,可以很方便的構建起搜索引擎,本畢業設計除了考查使學生綜合運用以前所學知識的能力,同時也使學生了解當今搜索及編程的一些新技術,并模擬簡單的搜索引擎開發。1.4本課題的研究方法在本系統的開發過程中,首先分析了搜索引擎的相關功能,寫出需求分析;其次,綜合運用以前所學的相關知識(數據庫,C#等),選擇所熟悉的開發工具進行開發(本系統選擇了MicrosoftVisualStudio.NET2003作為開發平臺,開發語言選擇了C#;數據庫采用MicrosoftSQLServer2000)。由于Lucene不是完整的搜索引擎程序,只為搜索引擎應用提供了工具包,在A平臺中,可使用L這個對Lucene兼容的庫。使用L協助完成搜索引擎相關的網頁爬蟲與抓取,為文檔建立索引,關鍵詞搜索的功能,通過Ajax優化系統,完成頁面的局部刷新功能,給用戶好的體驗。2.1全文搜索引擎2.1.1搜索引擎的分類獲得網站網頁資料,能夠建立數據庫并提供查詢的系統,我們都可以把它叫做搜索引擎。真正意義上的搜索引擎,通常指的是收集了因特網上幾千萬到幾十億個網頁并對網頁中的每一個詞(即關鍵詞)進行索引,建立索引數據庫的全文搜索引擎。當用戶查找某個關鍵詞的時候,所有在頁面內容中包含了該關鍵詞的網頁都將作為搜索結果被搜出來。在經過復雜的算法進行排序后,這些結果將按照與搜索關鍵詞的相關度排列。按照工作原理的不同,可以把它們分為兩個基本類別:全文搜索和分類目錄。全文搜索引擎通過從互聯網上提取的各個網站的信息(以網頁文字為主)而建立的數據庫中,檢索與用戶查詢條件匹配的相關記錄,然后按一定的排列順序將結果返回給用戶。從搜索來源的角度,全文搜索引擎又可細分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,并自建網頁數據庫,搜索結果直接從自身的數據庫中調用;另一種則是租用其他引擎的數據庫,并按自定的格式排列搜索結果。分類目錄則是通過人工的方式收集整理網站資料形成數據庫的,比如雅虎中國以及國內的搜狐、新浪、網易分類目錄。另外,在網上的一些導航站點,也可以歸屬為原始的分類目錄。2.1.2搜索引擎的工作原理搜索引擎的原理,可以看作三步:從互聯網上抓取網頁,建立索引數據庫,在索引數據庫中搜索。全文搜索引擎的“網絡蜘蛛”能夠掃描一定地址范圍內的網站,并沿著網絡上的鏈接從一個網頁到另一個網頁,從一個網站到另一個網站采集網頁資料。它為保證采集的資料最新,還會回訪已抓取過的網頁。網絡機器人或網絡蜘蛛采集的網頁,還要有其它程序進行分析,根據一定的相關度算法進行大量的計算建立網頁索引,才能添加到索引數據庫中。我們平時看到的全文搜索引擎,實際上只是一個搜索引擎系統的檢索界面,當你輸入關鍵詞進行查詢時,搜索引擎會從龐大的數據庫中找到符合該關鍵詞的所有相關網頁的索引,并按一定規則呈現給我們。不同的搜索引擎,網頁索引數據庫不同,搜索結果也就不盡相同。利用能夠從互聯網上自動收集網頁的Spider程序,自動訪問互聯網,并沿著網頁中的所有URL爬到其它網頁,重復這過程,并把爬過的所有網頁收集回來。然后建立索引數據庫,由分析索引程序對收集回來的網頁進行分析,提取相關網頁信息(包括網頁所在URL、編碼類型、頁面內容包含的關鍵詞、關鍵詞位置、生成時間、大小、與其它網頁的鏈接關系等),然后用這些相關信息建立網頁索引數據庫。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 篷布行業人才培養規劃考核試卷
- 海洋油氣開采海域使用權管理考核試卷
- 礦山開采對生物多樣性影響考核試卷
- 起點初三語文作文
- 液壓系統在金屬加工中的應用考核試卷
- 球類制造技術與材料創新考核試卷
- 禮儀用品行業發展趨勢預測考核試卷
- 蘭州資源環境職業技術大學《藥物合成原理》2023-2024學年第二學期期末試卷
- 江蘇省大豐市劉莊鎮三圩初級中學2024-2025學年初三下學期5月學情調研考試化學試題試卷含解析
- 遼寧商貿職業學院《程序可信分析與構造》2023-2024學年第二學期期末試卷
- 2024年財務會計制度模版(4篇)
- 2025年河北省職業院校技能大賽建筑工程識圖(高職組)賽項參考試題庫(含答案)
- 辦公用品、易耗品供貨服務方案
- 專升本英語連詞
- 2024心理健康服務規范
- 《高績效團隊》課件
- 2024年廣東省汕頭市龍湖區中考語文一模試卷
- 中輻放射性藥物貯存及銷售項目環評資料環境影響
- (人教2024版)數學五年級上冊第6單元《多邊形的面積》大單元教學課件
- 行政事業單位內部控制制度之合同管理制度
- 大學生心理健康與發展學習通超星期末考試答案章節答案2024年
評論
0/150
提交評論