信息檢索系統設計方案及對策_第1頁
信息檢索系統設計方案及對策_第2頁
信息檢索系統設計方案及對策_第3頁
信息檢索系統設計方案及對策_第4頁
信息檢索系統設計方案及對策_第5頁
已閱讀5頁,還剩1頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、. z.H*-2055信息檢索系統方案目錄TOC o 1-3 h z uHYPERLINK l _Toc281562493一工程意義 PAGEREF _Toc281562493 h 2HYPERLINK l _Toc281562494二系統設計 PAGEREF _Toc281562494 h 3HYPERLINK l _Toc2815624952.1 技術原理 PAGEREF _Toc281562495 h 3HYPERLINK l _Toc2815624962.2 系統構架 PAGEREF _Toc281562496 h 5HYPERLINK l _Toc281562497三系統功能 PAG

2、EREF _Toc281562497 h 6HYPERLINK l _Toc2815624983.1 信息采集 PAGEREF _Toc281562498 h 6HYPERLINK l _Toc2815624993.2 中文自然語言處理 PAGEREF _Toc281562499 h 6HYPERLINK l _Toc2815625003.3 全文檢索功能 PAGEREF _Toc281562500 h 7HYPERLINK l _Toc2815625013.4格式文件檢索 PAGEREF _Toc281562501 h 8HYPERLINK l _Toc2815625023.5性能指標 PA

3、GEREF _Toc281562502 h 8一 工程意義隨著互聯網的快速開展,每天有數千萬條信息生成,包括文字信息、圖片信息、視頻信息、語音信息等,通過百度、谷歌等大型商業搜索引擎可以找到自己想要的信息,但是也存在很多弊端。百度、谷歌等大型商業搜索引擎的搜索原理是基于網絡爬蟲Spider在世界各地百萬臺效勞器上爬取網頁數據,然后存儲到數據庫之后展現給查詢用戶,隨著數量以及網絡上信息更新的快速化,這些網絡爬蟲不能保證把所有的信息都抓到,尤其是特殊行業的行業信息,即便是抓到了也不一定能夠在眾多數據中展現出來。所以,對于一個部門來講,有必要存在一款互聯網信息檢索系統來檢索*一個行業的信息,每天自動

4、在各大行業、政府等數據庫中檢索最新信息,通過自建的網絡爬蟲進展目標數據的抓取、存貯、歸類、展現。通過自己的信息檢索系統,可以讓自己部門每天輕松地獲得世界各地、各個部門都發生了什么,有哪些新的政策,方便管理層在最新的信息數據下快速做出正確的決定。據統計,部網上的信息每年以200%的速度增長,其中發布到互聯網上的信息只占到信息量的1%-2%,而98%以上的信息是發布在部網上的。部網上的信息既有網頁形式的,也包含其他Word、PDF、*ML等多種格式的數據。因此,面對部網中海量異構的信息資源,如何幫助用戶快速找到他們所需要的信息是一個主要的技術挑戰。搜索引擎能幫助用戶方便、快捷、平安地獲取部網上的信

5、息,在滿足高效的同時,更重要的是保證了較高的查全率和查準率,能提供智能化的概念擴展搜索,極大的提高工作效率。部網搜索引擎將組織中分散管理的信息整合在一起,在組織層面上實現新的增值與共享,從而有效實現組織容利用的最優目標。搜索引擎的目標是實現部網全文檢索。系統可對實施了部資源進展爬行,無論部網上的數據源在何地、以何種形式存在,都能夠對其快速地訪問,通過準確的分詞建立索引,從而實現高質量的搜索查詢。搜索引擎的主要目標包括:1較高的查準率。搜索系統支持按詞索引、按字索引,同時實現中文自動分詞。2較高的查全率。搜索系統可搜索各類異構的信息資源,包括傳統的網頁信息、Word、PDF、*ML等不同格式的文

6、檔以及各類主流數據庫的表中記錄。3智能化的檢索結果排序。平安搜索系統應采用相關度分析技術,將用戶需要的信息排在結果列表的前面,屏蔽無用和錯誤的信息。二 系統設計2.1 技術原理H*-2055互聯網信息檢索系統以下簡稱H*-2055是針對特殊行業、政府部門、決策部門設計的一款高效率互聯網信息檢索系統,采用國際一流程序算法設計,系統構架與谷歌和百度的搜索引擎擁有共同的技術特點,能夠保證系統對實時信息的快速采集、歸類、展現。在當今信息爆炸的時代,每個單位或個人都在為信息的快速增長做出了各種奉獻。信息的種類也在不斷的擴展,越來越多的非構造化信息不斷出現,包括企業的各種報表、帳單、電子文檔、的各種元素、

7、圖片、 、掃描影像,以及大量的多媒體的音頻、視頻信息等等。所有的存儲數據中,有85%采用的是非構造化格式的,非構造化信息每三個月增長一倍。由于信息格式的差異很大,所以根本無法整合為統一的接口供政府工作人員或廣闊群眾方便使用。全文檢索是計算機程序通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現的次數和位置,當用戶查詢時根據建立的索引查找,類似于通過字典的檢索字表查字的過程。全文檢索系統是按照全文檢索理論建立起來的用于提供全文檢索效勞的軟件系統。全文檢索系統的核心則具有建立索引、處理查詢返回結果集、增加索引、優化索引構造等功能。H*-2055全文檢索系統的主要目標是實現文本索

8、引的快速構建(Inde* Construction),動態文檔集的索引維護(Inde* Maintenance),短語查詢(Phrase Query),Top-K查詢的快速處理(Top-k Query Process)以及各種檢索模型IR Model等。高性能和靈活的架構也使H*-2055全文檢索系統可以應用在外網檢索、專業系統資料檢索、行業專業數據庫檢索。圖1. H*-2055系統原理 H*-2055可以實現對部網絡和外部網絡的信息抓取、歸類、展現。對于外部網絡,H*-2055采用網絡爬蟲定時對各大行業、政府部門進展數據爬取,通過對海量數據的挖掘可以建立龐大的外網數據庫,通過一流的數據整理算

9、法,簡單、快捷、方便的展示給使用者。 H*-2055也可以對部網絡進展數據的挖掘、分析、整理、展現。H*-2055通過基于局域網的網絡爬蟲算法,可以對政府、行業部、單位部效勞器資源等數據源進展數據的抓取,包括部網絡的新政策、新聞通知、日常文檔、文件資料等。H*-2055搜索引擎的系統體系架構如下列圖:圖2 圖2 H*-2055內部網絡搜索系構造圖索引模塊索引庫爬行器搜索結果排序數據源注冊、資源描述、策略描述用戶提交搜索、平安過濾數據庫爬行控制內部數據庫Web頁面數據庫表數據庫數據源2電子文檔文件系統數據源3電子系統數據源n。搜索請求返回結果內部網用戶內部數據源11爬行器:爬行器根據資源描述信息

10、對部網中各種異構的資源信息進展爬行,獲取所有能夠獲得的資源信息,資源信息的格式應包括:Web網頁、Word、PDF、E*cel、PPT等格式的辦公文檔、各類主流數據庫的表中記錄。2索引器:通過中文分詞技術,對爬行到的資源信息進展解析,建立索引文件。3搜索:用戶提交其搜索條件,搜索條件經過特定處理后,在索引文件中檢索出所有滿足搜索條件的資源。2.2 系統構架全文檢索系統統一搜索平臺的總體架構采用三層數據層、應用層和表現層可擴展的設計,使整個系統不受硬件平臺的限制,具有良好的擴展性和可管理性。三 系統功能3.1 信息采集1、采用多線程并發搜索技術。2、提供多種采集圍控制方式,包括在指定,在指定域,

11、以及在指定IP地址圍等方式。3、可以設置多種采集控制方式,包括采集的網頁大小、超時限制等。4、提供高效更新功能,對于已經采集過的,更新時只采集發生變化和新參加的資源。5、可以靈活設定采集結果的存儲方式,具有開放性。3.2 中文自然語言處理1、嵌自動分詞系統,有效提高了分詞準確性。2、在應用層上,提供自動分類和摘要功能;3、支持按詞索引、按字索引、按關鍵詞索引,適應不同應用環境的需求;4、嵌相似性檢索技術,提供文章的相似性檢索和聚類功能。3.3 全文檢索功能1、支持Web Browser/Web Server檢索方式;2、智能中文分詞:采用先進的自動分詞系統,根據大量的語料統計和分析,建立了上萬

12、條的歧義排除規則,因此檢索華人不會把僅僅包含中華人民國的文章檢索出來。支持構造化數據和非構造化數據的混合檢索;允許使用文中的任意字、詞、句和片段進展檢索;全方位檢索手段:與、或、非、異或;對數值、日期等特征字段可以進展比較和圍檢索;支持任意一致的通配符檢索(模糊檢索);支持多的全文檢索具備中文自動分詞系統,能有效提高分詞準確性10、采用智能中文分詞技術,建立高效索引庫11、支持實時索引1分鐘12、支持增量式實時索引13、多線程設計,支持大量并發用戶訪問,每秒并發到達50個以上14、支持在結果中查詢15、支持GBK、BIG5、UTF8、GB18030等編碼,采用UTF8編碼方式實現多語言和多文種容的檢索及展現。16、支持中文、英文和中英文混合檢索17、多樣化排序,包括按抓取時間排序、按相關性排序18、多種條件組合檢索:包括標題、正文以及日期圍檢索19、支持關鍵詞邏輯表達式組合檢索20、檢索結果支持基于查詢關鍵詞的動態摘要21、支持檢索關鍵詞的高亮顯示22、將所檢索到的信息可按設定的模版顯示23、檢索結果模板自定義如:如文章標題、文章欄目、簡介、作者、點擊率、時間以及文章類別等支持根據自動分類的類目進展檢索采用KNN、SVM為根底的相關性算法3.4格式文件檢索支持MS OFFIC

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論