




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1.1.1全文檢索系統結構根據全文檢索技術和實現方法,結合需求,檢索系統由以下三個部分組成:TRS全文數據庫系統(TRSDatabaseServer)TRS全文檢索網關(TRSGateway)TRS信息發布應用服務器系統(TRSWAS)TRS全文數據庫系統(TRSDatabaseServe解用TRS具有國際領先水平的信息檢索和中文自然語言處理研究成果,具有傲視群雄的檢索效果和查詢性能,核心功能是對結構化和非結構化信息提供全文檢索功能。主要特點包括:異構海量數據統一管理,非結構化和結構化數據聯合檢索NativeXML內核, 實現全息檢索智能輔助檢索, 支持知識挖掘精確計算,檢索速度和準確性共達最
2、優動態索引實時更新,面向事務處理支持Unicode編碼,提供多語種查詢引擎多級機制保障,信息采集和檢索高度安全集群檢索,保證高可靠性,隨需輕松擴展規模TRS全文數據庫系統(TRSDatabaseServe阻過TRS全文檢索網關,可以實現對關系數據庫中文本對象字段的全文檢索。TRS內容分發服務器系統提供將數據庫中的信息動態發布到Web服務器上,以為平臺用戶檢索使用。全文檢索系統架構圖如下所示:全文檢索系統架構圖1.1.2全文檢索網關TRS全文檢索系統采用開放的三層體系架構設計,整個系統基于主流的操作系統。數據層主要為關系型數據庫和TRS全文數據庫,關系型數據庫主要進行存儲和管理,而全文數據庫實現
3、檢索, 利用TRSGateway可以將關系型數據庫的數據在TRS全文數據庫中建立全文索引,以實現結構化和非結構化數據的全文檢索。TRS全文數據庫是TRS公司自主研發的具有知識產權的產品,為了能夠更好的提供全文檢索和智能檢索等應用功能,它其中包括多種詞典支持:分詞詞典、主題詞典、停用詞典等。應用層主要依據TRS全文數據庫提供的全文檢索功能實現平臺所需的檢索需求,并為表現層提供檢索服務。這層可以根據具體需求利用TRS提供的豐富開發接口實現全文檢索應用。表現層主要為平臺管理人員和最終用戶提供數據庫檢索和網頁檢索等。北京市技術標準在線服務平臺的大部分業務應用都是基于關系數據庫,關系數據庫(RDBMS擅
4、長于結構化數據的事務處理和關系運算,但是對長文本以及非結構化大對象文本缺乏有效的檢索手段,而TRS全文數據庫對非結構化文本對象具有出色的管理和檢索功能。為了實現對關系數據庫中信息的高效全面檢索,針對這部分數據,需要將其進行統一采集和統一的檢索服務。這種方式的采集不需人工干預,完全采用自動化采集方式。為了真正、全面的實現結構化和非結構化信息的全文檢索,在全文檢索設計中,采用TRS全文檢索網關(TRSGateway)實現關系型數據庫數據全文檢索功能。TRS全文檢索網關(TRSGateway)是由北京拓爾思信息技術有限公司和五大關系型數據庫廠商Oracle、Sybase、舊M、Informix、Mi
5、crosoft鼎力合作,共同推出的實現TRS數據與主流關系型數據庫SQLServer、OracleSybase、DB2Informix數據之間進行數據遷移的工具。該工具實現了RDBMSTTRSr文數據庫之間數據共享,使用戶在享有RDBMSS越的數據處理功能的同時,擁有TRS優秀的全文檢索功能。關系數據Web用戶DBCfA口口接口應用服務器,如:TRSWASMicrosoftIISIBMWebsphereBEAWebLoigcOracleiAS等檢索遺輯TRSRDBMSGateway關系數據庫TRSADOTRSJmvabeans接口全文索引系統特點:TRSGateway采用可視化的管理與配置工具
6、使系統簡單易用,輕松實現信息管理。 用戶只需要按步跟隨“任務創建向導”的提示就可以創建更新任務,智能化定時運行工具,全面實現工作的無人監管:可設置的定時執行任務:對創建好的任務,用戶可以設置其自動定時執行。如:用戶可以設置一個增量更新任務每隔30分鐘執行一次,意即每隔30分鐘將用戶對RDBMS據庫表中數據的修改向TRS文數據庫中進行一次索引的更新。高度自動化的定時執行功能使用戶不必手動進行數據索引的更新操作,只需啟動TRS*Agent即可自動定時執行。實時查看和修改任務的各種屬性:對任何一個創建好的任務,用戶可以查看應用向導配置連接關系數據庫及TRSa據庫1盤對圣話與日棄對量字片的澗異啰翌思審
7、牒據皤系震耳理己,匹配采用施國的邠苴,如果兩字段不匹則J光標源數據庫宇段目標豹據庫宇段rnJir字段名_J類型出5IUIU字段名J類全11Siid1T2瞿3u_3.niam.v盯ch”4lT353au_fndfriA例&14HphoqiaickurI:T5-5叱事 WWVATcjlAT4lS3TJau_idBI7*T2au2lnwaCK1U1S3T3au-fnamACJUJL飄14phsuftCK1UI箭T5w&ir.備*CKlUiSBcityw列ISCityCHAASTTTtataCKAA宛TOzipCHU制T9cotntractHUHBERTIQrowiJCKU115Tci
8、tAfT0旦日sip5T95mibi11Jd_LL1按目標皿11上一番里”下一步也)”取消I應用向導配置源表和目標表以及字段對應關系關系數據庫與TRS全文數據庫之間的數據更新方式支持:完全更新執行任務時,先將指定的目標數據庫表中的內容清空,然后將源數據庫表中所有符合條件的數據遷移到目標數據庫中。適用第一次遷移數據。數據追加執行任務時,直接將源數據庫表中所有符合條件的數據遷移到目標數據庫中,并不將目標數據庫表中的內容清空。適用一段時間向目標數據庫追加一批數據時。增量更新執行任務時,將所有源數據庫表中符合條件的更新了的數據(指進行了刪除、添加或修改的數據)遷移到目標數據庫中。可以通過設定定時方式由
9、系統自動執行,適用每天有數據更新情況。上 f 年)|下一步如I|HliH砧勖送揮振作對期雷嬲廠視圉速擇期微格庫:新建也反I修好Nurxicl遇置規圉主表二ICLLxLrilavitLan工其屬性,并可修改屬性。器度裾市話適*有*圉設對靚果整如siJtsiJtl l對主,作的報應駕對作如S S舉血的蓑遽庫和和B11313需r可至定庫尸1.1.3TRSWebApplicationServer(TRSWAS)主要由管理控制臺及應用端兩部分組成,它主要有以下特點:完全基于 WebWeb 的管理方式管理控制臺完全基于 Web 方式,使管理更加的靈活,真正實現了遠程管理。應用端部分同樣是完全基于 Web
10、方式實現。這種架構可以靈活的滿足用戶的需求,特別是 ASP 供應商。跨平臺的支持由于 TRSWAS4.0 完全采用了基于 Java 的技術實現,也就完全繼承了 Java 跨平臺的特性,一套代碼可以在多個平臺上運行,省除了跨操作系統平臺可能帶來的代碼移植問題。靈活性及安全性的提高TRSWAS4.0 的開發是完全基于 TRSTagLib 基礎上的。在開發的過程中,遵循了業務邏輯與顯示風格控制分開顯示的原則(CVM 方式),將所有的業務邏輯封裝在 Servlet 中,完成請求的處理后,將請求轉發到包含了 TRSTagLib 的 JSP 模板頁面中,由此頁面完成最終內容的格式化顯示。這種開發方式最大的
11、優點就是靈活性。在頁面表現方面,最終頁面的表現控制由 TRSTagLib 完成,表現為在 JSP 頁面中插入 TRS 置標,修改起來十分的方便,并且業務代碼不包含在其中,只需要美工人員就可以很好的完成,大大的減少了維護工作量;而當業務邏輯發生改變時,只需要對涉及到的 Servlet 進行邏輯代碼的修改,完全屏蔽了顯示層,工作量也大幅度的減少,保證了項目快速靈活的實施。支持對 TRSTRS 數據庫記錄的增、刪、改操作TRSWAS4.0 實現了在 Web 上對 TRS 數據庫中記錄信息的增、刪、改功能。目前修改 TRS 數據庫記錄只適用于非二進制字段,增加及刪除則沒有這方面的限制。支持記錄間相關性
12、的連接,實現相關新聞的功能TRSWAS4.0 實現了相關新聞的功能,通過相關字段,實現了在細覽記錄時獲得與此記錄相關聯的記錄,并顯示這些關聯記錄的連接。支持對記錄被閱讀次數的記錄,實現熱門新聞的功能實現了對記錄閱讀次數的記錄功能,當記錄被細覽一次時,自動將其的閱讀次數字段加1,通過對閱讀次數字段的排序,可以實現當前最熱門記錄的功能。提供 TRSTagLibTRSTagLib 二次開發接口,保證項目快速靈活的實現提供一套 TRSTagLib 置標,以此為開發接口,可以很迅速靈活的開發其他應用程序,在開發過程中,顯示部分由嵌入了 TRSTagLib 的 JSP 模板文件來完成,而業務邏輯部分可以單
13、獨進行開發,這樣既減少了開發的復雜程度,保證任務的順利完成,又同時確保了客戶各種靈活性的需求得到了保證,最終的開發及維護工作量都將得到很好的控制。1.1.4TRS 全文檢索系統特點TRS全文檢索以TRS全文數據庫系統(TRSDatabaseServer)為核心, 提供功能全面、智能、高性能的全文檢索服務保證。在當今信息爆炸時代,正確的決策依賴于及時、準確和有效的信息,TRS全文數據庫系統突破了傳統全文檢索和網頁搜索引擎的種種局限,是真正基于知識的智能內容檢索系統。TRSr文數據庫系統主要特點如下:大型數據的存儲和管理功能支持中文(簡、繁體)、英文和中英文混合數據;支持多種索引策略,包括按詞、按
14、字、按用戶自定義關鍵詞等索引策略,能夠根據文檔對象的結構屬性建立不同的索引結構以實現面向不同結構文檔的檢索要求;同時支持結構化數據和非結構化數據,支持多種數據類型(如日期、字符串、短語、文檔和二進制多媒體類型);支持常用格式文件的入庫和檢索,如TEXTHTMLRTFMSOffice、PDFS2/PS2/PSMARCISO2709等);支持多媒體數據的管理;支持多種形式的數據存放方式,如集中存放、分散存放或URL方式存放,并且數據還可以存放在其他數據庫或應用系統中;高效的數據和索引壓縮,實現了低空間膨脹率(-0.21.0);支持字段的唯一(Unique)特性;支持數據庫紀錄的增刪改操作;不同操作
15、系統平臺之間,庫結構自由拷貝,方便管理員操作;管理員可設置“定時優化”的時間,降低系統管理的成本;修改記錄時,保存記錄號的移動軌跡,能夠使用移動前的記錄號讀取記錄,確保數據維護的正確和安全;可以方便地對各種詞典進行管理和維護;在32位系統中使用64位文件系統以支持超大規模的數據庫;方便的數據備份和恢復功能;多種格式的數據導出功能,可以導出XMLTR彌數據類型文件。體系結構分布式體系結構,可以建立多個TRSDatabaseServer的集群結構,并在應用層實現透明訪問;支持數據庫一對多的單向鏡像;多線程設計,支持SM林系結構,支持大量并發用戶訪問;支持三層結構(DataServer、Applic
16、ationServer和Webserver)應用,每一層均可擴展。跨平臺支持支持多種硬件平臺:如大型機/小型機/服務器/PC機;支持多種操作系統:如64位和32位的Unix、Linux、WindowsNT/2000;客戶機可以運行在Windows9X、WindowsNTWindows2000、主流WebU覽器上;應用層接口和系統支持EJB,采用Java技術開發,同一套代碼可以運行在異構的設備和操作系統環境中。對標準化和開放性的支持同時支持Client/Server結構和WebBrowser/WebServer結構;支持ANSI主題詞典結構標準;支持ISO2709XML據格式的輸入、輸出;支持A
17、pacheServerNetscapeEnterpriseServer和MicrosoftIIS等主流Web服務器;支持J2EE/EJB,Web應用服務器支持主流中間件產品,如IBMWebsphereBEAWeblogic、OracleApplicationServer、Tomcat等;支持NetscapeNavigator和MicrosoftInternetExplorer等主流瀏覽器;支持和主流的五大關系型數據庫管理系統無縫集成,提供分布式和跨平臺的靈活配置方案,支持對關系型數據庫的文本數據和大對象類型數據的檢索能力;支持多語種:簡體(GBKGB2312GB18030繁體(BIG5)、西文
18、(ASCII)、國際統一碼(Unicode);實時性支持系統能支持對數據的增量更新,支持實時的數據添加、修改和刪除。中文自然語言處理內嵌漢語自動分詞系統,并統計建立了大量歧義排除規則,有效提高了分詞準確性。支持按詞索引、按字索引、按關鍵詞索引,適應不同應用環境的需求;全文檢索功能同時支持Client/Server和WebBrowser/WebServer兩種檢索方式;支持中英文混合檢索;允許使用文中的任意字、詞、句和片段進行檢索;全方位檢索手段:提供了多達48種檢索運算符。包括外部特征與正文內容的各種邏輯組合檢索(與、或、非、異或)、位置檢索(同段、同旬、相差幾個字以及前后次序有關等) 、二次
19、檢索、漸進檢索、歷史檢索、詞根檢索、大小寫敏感檢索、概念檢索、對檢索結果按與檢索表達式的相關性和重要性程度排序等,支持分類查詢,針對不同的欄目和子欄目,允許用戶在指定的欄目下查詢,以便獲得更準確的檢索結果;對數值、日期等特征字段可以進行比較和范圍檢索;支持任意一致的通配符檢索(模糊檢索);基于成本優化的查詢算法(索引分區技術、多線程并行運算技術、Bigram技術等),使得G級數據庫查詢速度達到亞秒級;完善的Cache技術(包括檢索詞、短語、表達式的一級、二級緩存技術),從而支持更多的并發用戶訪問,并大大提高綜合查詢速度;支持跨庫和跨服務器的檢索;LIFO:后進先出的快速排序;支持對檢索結果的各
20、種排序;可以對檢索結果進行瀏覽、存貯、打印、報表輸出以及電子郵件發送等操作,瀏覽時具有命中點定位和高亮度顯示功能;可以限制每個用戶一次存取檢索結果的信息量;智能檢索功能TRS獨創的智能檢索技術,在查全和查準方面比一般檢索系統高得多。TRS智能檢索技術包括智能中文分詞、廣義同義詞檢索、主題詞典控制檢索、禁用詞典、英文詞根檢索等。智能中文分詞:TRS采用先進的自動分詞系統,根據大量的語料統計和分析,建立了上萬條的歧義排除規則,因此檢索“華人”不會把僅僅包含“中華人民共和國”的文章檢索出來。廣義同義t檢索:TRS蟲創的廣義同義詞檢索技術能夠大大提高檢索系統的查全率,比如檢索“中央電視臺,TRS能夠自動把包含“中央電視臺、“央視”、“CCTV等文章全部檢索出來,檢索“電腦”會把包含“計算機”Computer”的文章全部檢索出來。在TRS系統中同義詞庫是用戶自己可以維護的。主題詞典控制:TRS支持ANSI標準和漢語主題詞表標準,比如在主題詞典中,有一個主題詞為“民間
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年項目管理職責分擔試題及答案
- 項目管理目標達成能力試題及答案
- 2024項目管理專業資格考試試題及答案
- 2025年證券從業資格證考試新環境適應策略試題及答案
- 2024年項目管理資格認證試題及答案
- 2025年特許金融分析師考試輔導素材試題及答案
- 港區保潔服務方案范本
- 項目管理中的戰略思維轉換試題及答案
- 福建事業單位考試流程管理試題及答案
- 注冊會計師考試語言表達與溝通技巧試題及答案
- C語言期末考試試題南昌航空大學
- 取消訂單協議模板(5篇)
- 東風天錦5180勾臂式垃圾車的改裝設計
- 浦發銀行個人信用報告異議申請表
- 高考試卷命題設計的技巧 課件24張
- 施工進度計劃網絡圖-練習題知識講解
- 防孤島測試報告
- 按摩常用英語
- 食品公司規章制度
- midas NFX使用指南(八)
- 成都高新區小學數學五年級下冊半期考試數學試卷
評論
0/150
提交評論