




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、HX-2055信息檢索系統方案目錄一項目意義2二系統設計32.1 技術原理32.2 系統構架5三系統功能63.1 信息采集63.2 中文自然語言處理63.3 全文檢索功能73.4 格式文件檢索83.5 性能指標8一項目意義隨著互聯網的快速發展,每天有數千萬條信息生成,包括文字信息、圖片信息、視頻信息、語音信息等,通過百度、谷歌等大型商業搜索引擎可以找到自己想要的信息,但是也存在很多弊端。百度、谷歌等大型商業搜索引擎的搜索原理是基于網絡爬蟲(Spider)在世界各地百萬臺服務器上爬取網頁數據,然后存儲到數據庫之后展現給查詢用戶,隨著網站數量以及網絡上信息更新的快速化,這些網絡爬蟲不能保證把所有的
2、信息都抓到,尤其是特殊行業的行業信息,即便是抓到了也不一定能夠在眾多數據中展現出來。所以,對于一個部門來講,有必要存在一款互聯網信息檢索系統來檢索某一個行業的信息,每天自動在各大行業網站、政府網站等數據庫中檢索最新信息,通過自建的網絡爬蟲進行目標數據的抓取、存貯、歸類、展現。通過自己的信息檢索系統,可以讓自己部門每天輕松地獲得世界各地、各個部門都發生了什么,有哪些新的政策,方便管理層在最新的信息數據下快速做出正確的決定。據統計,內部網上的信息每年以200%勺速度增長,其中發布到互聯網上的信息只占到信息量的1%-2%而98%Z上的信息是發布在內部網上的。內部網上的信息既有網頁形式的,也包含其他W
3、ordPDFXML等多種格式的數據。因此,面對內部網中海量異構的信息資源,如何幫助用戶快速找到他們所需要的信息是一個主要的技術挑戰。搜索引擎能幫助用戶方便、快捷、安全地獲取內部網上的信息,在滿足高效的同時,更重要的是保證了較高的查全率和查準率,能提供智能化的概念擴展搜索,極大的提高工作效率。內部網搜索引擎將組織中分散管理的信息整合在一起,在組織層面上實現新的增值與共享,從而有效實現組織內容利用的最優目標。搜索引擎的目標是實現內部網全文檢索。系統可對實施了內部網站資源進行爬行,無論內部網上的數據源在何地、以何種形式存在,都能夠對其快速地訪問,通過準確的分詞建立索引,從而實現高質量的搜索查詢。搜索
4、引擎的主要目標包括:(1)較高的查準率。搜索系統支持按詞索引、按字索引,同時實現中文自動分詞。(2)較高的查全率。搜索系統可搜索各類異構的信息資源,包括傳統的網頁信息、WordPDFXML等不同格式的文檔以及各類主流數據庫的表中記錄。(3)智能化的檢索結果排序。安全搜索系統應采用相關度分析技術,將用戶需要的信息排在結果列表的前面,屏蔽無用和錯誤的信息。二系統設計2.1技術原理HX-2055互聯網信息檢索系統(以下簡稱HX-2055)是針對特殊行業、政府部門、決策部門設計的一款高效率互聯網信息檢索系統,采用國際一流程序算法設計,系統構架與谷歌和百度的搜索引擎擁有共同的技術特點,能夠保證系統對實時
5、信息的快速采集、歸類、展現。在當今信息爆炸的時代,每個單位或個人都在為信息的快速增長做出了各種貢獻。信息的種類也在不斷的擴展,越來越多的非結構化信息不斷出現,包括企業的各種報表、帳單、電子文檔、網站的各種元素、圖片、傳真、掃描影像,以及大量的多媒體的音頻、視頻信息等等。所有的存儲數據中,有85嗾用的是非結構化格式的,非結構化信息每三個月增長一倍。由于信息格式的差異很大,所以基本無法整合為統一的接口供政府工作人員或廣大群眾方便使用。全文檢索是計算機程序通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現的次數和位置,當用戶查詢時根據建立的索引查找,類似于通過字典的檢索字表查字的
6、過程。全文檢索系統是按照全文檢索理論建立起來的用于提供全文檢索服務的軟件系統。全文檢索系統的核心則具有建立索引、處理查詢返回結果集、增加索引、優化索引結構等功能。HX-2055全文檢索系統的主要目標是實現文本索引的快速構建(IndexConstruction),動態文檔集的索引維護(IndexMaintenance),短語查詢(PhraseQuery),Top-K查詢的快速處理(Top-kQueryProcess)以及各種檢索模型(IRModel)等。高性能和靈活的架構也使HX-2055全文檢索系統可以應用在內外網檢索、專業系統資料檢索、行業來集了系統Q層適配器乂專業數據庫檢索。HTML,AS
7、P,FXILn5XIS,PPT.PDhOCtWPSJiML.ZIKRAR.MP3索引子系統I信息索弓1增星索叫差異索引名字段索引本料分訶漏網識別容器送配關小詞分析門動壓縮檢索子系統值息也索布京杳詢坦露查詢Cache揖詢河和自潮11動摘要字段X值同義拴索自動相關度圖1.HX-2055系統原理HX-2055可以實現對內部網絡和外部網絡的信息抓取、歸類、展現。對于外部網絡,HX-2055采用網絡爬蟲定時對各大行業網站、政府部門網站進行數據爬取,通過對海量數據的挖掘可以建立龐大的外網數據庫,通過一流的數據整理算法,簡單、快捷、方便的展示給使用者。HX-2055也可以對內部網絡進行數據的挖掘、分析、整理
8、、展現。HX-2055通過基于局域網的網絡爬蟲算法,可以對政府、行業內部網站、單位內部服務器資源等數據源進行數據的抓取,包括內部網絡的新政策、新聞通知、日常文檔、文件資料等。HX-2055搜索引擎的系統體系架構如圖所示搜索請求用戶提交搜索、安全過濾返回結果搜索結果排序內部網站數據源1郵件系統數據源n文件系統數據源3數據庫數據源2圖2HX-2055內部網絡搜索系結構圖索引模塊引擎實現了下列主要功能:(1)爬行器:爬行器根據資源描述信息對內部網中各種異構的資源信息進行爬行,獲取所有能夠獲得的資源信息,資源信息的格式應包括:Web網頁、WordPDFExcel、PPT等格式的辦公文檔、各類主流數據庫
9、的表中記錄。(2)索引器:通過中文分詞技術,對爬行到的資源信息進行解析,建立索引文件。(3)搜索:用戶提交其搜索條件,搜索條件經過特定處理后,在索引文件中檢索出所有滿足搜索條件的資源。2.2系統構架全文檢索系統統一搜索平臺的總體架構采用三層(數據層、應用層和表現層)可擴展的設計,使整個系統不受硬件平臺的限制,具有良好的擴展性和可管理性。垂直攫索系統軟件違制架構E衰視層_信息檢索服務檢索J-1弒應用層中間件Weblogic«WebspheraToncatS三系統功能3.1信息采集1、采用多線程并發搜索技術。2、提供多種采集范圍控制方式,包括在指定網站內,在指定域內,以及在指定IP地址范
10、圍等方式。3、可以設置多種網站采集控制方式,包括采集的網頁大小、超時限制等。4、提供高效更新功能,對于已經采集過的網站,更新時只采集發生變化和新加入的資源。5、可以靈活設定采集結果的存儲方式,具有開放性。3.2中文自然語言處理1、內嵌自動分詞系統,有效提高了分詞準確性。2、在應用層上,提供自動分類和摘要功能;3、支持按詞索引、按字索引、按關鍵詞索引,適應不同應用環境的需求;4、內嵌相似性檢索技術,提供文章的相似性檢索和聚類功能。3.3全文檢索功能1、支持WebBrowser/WebServe檢索方式;2、智能中文分詞:采用先進的自動分詞系統,根據大量的語料統計和分析,建立了上萬條的歧義排除規則
11、,因此檢索華人”不會把僅僅包含中華人民共和國”的文章檢索出來。3、支持結構化數據和非結構化數據的混合檢索;4、允許使用文中的任意字、詞、句和片段進行檢索;5、全方位檢索手段:與、或、非、異或;6、對數值、日期等特征字段可以進行比較和范圍檢索;7、支持任意一致的通配符檢索(模糊檢索);8、支持多網站的全文檢索9、具備中文自動分詞系統,能有效提高分詞準確性10、采用智能中文分詞技術,建立高效索引庫11、支持實時索引(1分鐘內)12、支持增量式實時索引13、多線程設計,支持大量并發用戶訪問,每秒并發達到50個以上14、支持在結果中查詢15、支持GBK、BIG5、UTF8、GB18030等編碼,采用UTF8編碼方式實現多語言和多文種內容的檢索及展現。16、支持中文、英文和中英文混合檢索17、多樣化排序,包括按抓取時間排序、按相關性排序18、多種條件組合檢索:包括標題、正文以及日期范圍檢索19、支持關鍵詞邏輯表達式組合檢索20、檢索結果支持基于查詢關鍵詞的動態摘要21、支持檢索關鍵詞的高亮顯示22、將所檢索到的信息可按設定的模版顯示23、檢索結果模板自定義如:如文章標題、文章欄目、簡介、作者、點擊率、時間以及文章類別等24、支持根據自動分類的類目進行檢索25、采用KNN、SVM為基礎的相關性算法3.4 格式文件檢索支持MSOFFICE,PDF,HTML,可以對.pdf;.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 合川區初中“七校聯盟”2025年春期半期質量檢測七年級 英語試題
- 投資基金合同履約金的管理
- 《Python程序設計基礎》課件 第7、8章 面向對象編程;文件與異常
- 《Python程序設計基礎》課件 第5-8章 函數與模塊-文件與異常
- 鐵路工程安全技術石家莊鐵路35課件
- 《GB 18399-2001棉花加工機械安全要求》(2025版)深度解析
- ARM Cortex-M3嵌入式開發及應用教與學 課件 第12、13章 信號量與互斥信號量;消息郵箱與消息隊列
- 大學生職業規劃大賽《英語專業》生涯發展展示
- 簡單版度個人耕地承包協議
- 農產品購銷合作協議
- 2025年中考數學一輪復習 -第六章 圓-第二節 與圓有關的位置關系
- 大學物理(一)知到智慧樹章節測試課后答案2024年秋湖南大學
- 中建質量樣板策劃實施方案
- 《數字中國建設整體布局規劃》解讀報告
- 《石油化工金屬管道布置設計規范》SHT3012-2011
- 2024年大學物理磁場教案設計示范
- 國開汽車學院《項目管理》形考作業1-4答案
- 多功能會議室建設方案
- 鋼樓梯工程施工組織設計方案
- 項目2 2.1 植物的細胞(1)(課件)-《植物生產與環境》(高教版第4版)同步課堂
- 年生產泡沫箱項目可行性研究報告寫作模板-拿地申報
評論
0/150
提交評論