1.1autonomy產品架構和整體介紹_第1頁
1.1autonomy產品架構和整體介紹_第2頁
1.1autonomy產品架構和整體介紹_第3頁
1.1autonomy產品架構和整體介紹_第4頁
1.1autonomy產品架構和整體介紹_第5頁
已閱讀5頁,還剩16頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、Autonomy 產品架構和整體介紹DesignedBy:Autonomy-China P(篇幅和時間的限制,未能將AutonomyIDOL全部功能、參數及原理做最為詳盡的闡述,請參考 8.相關文獲取最詳盡的說明信息)分,查看相關文檔,目錄一、HP Autonomy 公司介紹3二、HP Autonomy 產品介紹32-1 Autonomy 典型模型42.2 Autonomy2.2.1er 系列產品分類5.5智能數據處理層功能6二次開發和界面展示層功能8分布式8三、Autonomy 產品安裝使用9IDOL 安裝和初始配置9IDOL 安裝簡單使用17Connector 安裝使用17一、HP Aut

2、onomy 公司介紹Autonomy 提供全面完整的智能軟件結構,能夠自動化地處理,操作和應用不規整的信息。不規整的信息指的是周圍越來越多的人們所熟悉的信息,比如電子郵件,因特網網頁,電子報表,OFFICE 文檔, PDF 文件,語音文件,文件等等。Autonomy 的技術市場覆蓋面相當廣泛,幾乎各個產業都在應用 Autonomy 的技術來自動化地處理、操作與應用非結構化的信息,如:教育、電信、汽車、金融、咨詢、國防、機構、網頁服務、法律機構、制造業、化工、銷售、高科技等等。在歐洲和高信譽的象征!Autonomy 已有極大的知名度,“ered by Autonomy”是高水平,高質量,Auto

3、nomy 公司,HP 子公司,是全球領先的處理人類易于理解的信息或非結構化數據的軟件供應商,處理包括社會、電子郵件、音頻、文本、網頁內容以及的數據類型,使得企業能夠利用他們的數據資產。二、HP Autonomy 產品介紹Autonomy 的新一代IDOL10,是一個單一的處理層,可供組織用于提取各種形式信息的內在含義,包括音頻、社交、電子郵件和Web 內容以及結構化數據,如客戶交易日志和基于機器的傳感器數據等,并執行相關操作。該將Autonomy 的自動處理和理解非結構化數據的基礎架構軟件與HP 子公司Vertica 針對高度結構化數據進行高性能實時分析的引擎結合在一起。Autonomy產品內

4、部按照分類主要有5個P,產品系列如下。2-1 Autonomy 典型模型基礎架構高級帶 IAS 結構:圖 2-1-a2.2 Autonomyer 系列產品分類由于 Autonomy 產品分類非常多,因此本文檔集中描述 IDOL、智能數據處理層功能、二次開發和分布式等。er 系列產品 IDOL 及其相關產品。產品主要分為2.2.1是整個系統的基礎,是系統對外提供內容服務的源泉,主要從各種數據源(包括文件系統、數據庫、內部其他系統以及獨立信息源)信息。根據客戶的需求,針對不同的數據格式,采用不同段與方式,真正將各數據孤島的信息過來,用于資源的整合與使用。如下圖所示:采用 Autonomy 提供的多

5、種連接器,分別針對多種異構的數據源,例如互聯網系統采用互聯網連接器來數據,數據庫連接器負責數據庫的數據,此外還有 Notes 連接器、文件系統連接器等。Autonomy 連接器具有如下優點:1 自動,配置好之后自動運行,同時數據源變化,同步更新數據;2 能夠處理 1000 多種文件格式,能夠500 多種應用數據源;3 設計成熟,通過各數據源廠商接口認證,兼容性極強;4 對的數據格式要求極低,能夠自動分析并處理、格式化各種數據;5 集成安全權限,能夠從不同的數據源繼承原有的安全權限設置;另外,和 Eduction 結合作為數據抽取工具,基于模式匹配的語則和字典,能夠從多種數據實體中抽出相關的信息

6、內容出來,如實際使用過程中,Eduction號碼,電子郵件,客戶名稱,等??梢允褂谩白值洹焙汀罢Z法”,兩者也可以結合起來,通過相關定義,來流水線作業,對需要的實體進行捕捉,提取,轉換以及,做到基于詞典的內容抽取,基于表達式的內容抽取,基于概念匹配的內容抽取,還能做情感分析等正判斷。2.2.2 智能數據處理層功能IDOLServer-eligentDateOperatingLayer,智能化數據操作,是 Autonomy 搜索的服務產品。IDOLServer 中包含 5 個組件,Age、munity、Content 和 View。Agent是用戶服務器,主要負責用戶信息的全部信息,如用戶名、用戶

7、聚焦等等。Category 是分類服務器,主要負責將 IDOL 中的所有數據按照用戶指定的邏輯進行分類,并按照指定的標準訓練分類,將所有的數據文檔歸類。Community 是用戶和內容交互服務器,用來生成交互信息,如安全字符串、定位等等。Content 是內容服務器,整個 IDOL的部件,所有的文檔內容都是以索引結構在Content 組件中的,Content組件是一個數據容器,同時又是一個簡單、高效、功能健全的搜索服務器。簡單,體現在使用非常容易,一個 action=query&text=關鍵字,就可以實現對關鍵字的查詢。高效,體現在大數據量、復雜的關鍵字邏輯表達式、復雜的數據篩選邏輯、復雜的

8、安全確認信息的疊加查詢,依然迅速響應。功能健全體現在能夠實現這對各種關鍵字查詢邏輯、各種數據篩選邏輯、安全查詢邏輯的組合式查詢。View 是顯示模板,提供了將返回的 xml 格式查詢結果嵌套在模板中顯示。這幾個組件將整個 IDOL整合為一個功能強大的搜索利器,為企業的信息化查詢提供強有力的支持。智能數據處理層功能具備以下功能,具體參考文檔 Autonomy 解決方案標準版_1.0 版。搜索關鍵字搜索(Retrieval Lite)標準搜索(Retrieval - Standard)高級搜索(Retrieval - Advanced)聯合搜索(Retrieval - Federated)參數搜索

9、(Retrieval - Parametric)搜索導航(AQG)自動摘要(Summarisation)動態同義蔥表(Dynamic thesaurus)拼寫糾正(Spelling correction)分類分類管理(Categorisation)自動歸類(Channels)分類(Channelmendation)分類生成(Taxonomy generation)專業分類(Business Console)聚類基本聚類(Clustering - Basic) 二維地圖聚類(Clustering - 2D)實時二維地圖聚類(Clustering - 2D Real Time)三維地圖聚類(Clu

10、stering - 3D)聚類熱點信息和信息(Clustering - Breaking & Hot news)聚類協作與網絡(Clustering - CEN)聚類趨勢圖(Spectrograph)個性化訂閱(Agents)自動提示(Alerting)顯性個隱性個送(Profiling - Explicit)送(Profiling - Implicit)社區和協作(Community & Collaboration)服務定位(Expertise location)(Expertisemendation)自動關聯超級(Hyperlinking)其他功能地圖(Geo Spatial)搜索客戶端(

11、IQL)郵件推送(ing)2.2.3 二次開發和界面展示層功能Autonomy 的基礎結構是基于設計建模及全球分發的,允許選擇使用最新的 web 服務標準,包括單一對象協議 SOAP,Web 服務描述語言WSDL。隨著對 J2EE 環境和EJB 的全面支持,Autonomy 可以保證其技術可以在任何環境中應用推廣。Autonomy 積極主動地了解并實施最新標準,并且承諾一旦新數據標準、通訊協議和數據源在市場上得到大量應用,Autonomy 就可以支持該標準、協議和數據庫。Autonomy 提供的 ACI API 開發接口能夠靈活而豐富的完成各種功能。它能夠很容易的使客戶應用程序通過HTTP 命

12、令從 ACI 服務器獲得數據內容,同時也能操作返回的結果。服務器間的通信使用XML 的 http 來完成。具體開檔,請參考文檔ACI_API_7 4_Programming.pdf。2.2.4 分布式考慮到客戶對大數據量、高并發、高性能、高可用等方面的海量級應用需求,Autonomy 提供的分布式控制系統專門用來保證系統的容災備份和負載均衡。其主要組成模塊包括:DAH(分布式請求服務器)使用算法將請求轉發至不同的 Autonomy IDOL Server 上,實現容災備份和負載均衡。DIH(分布式索引服務器)將文檔分別索引至不同的 Autonomy IDOL Server 中,實現故障切換和負

13、載均衡。DiSH(分布式管理服務器)為 Autonomy 各模塊提供關鍵的、管理、控制和監測功能。 DiSH 采用的方式從位置可與所有Autonomy 服務(例如連接器、DIH、DAH 等等)進行通訊。三、Autonomy 產品安裝使用3.1 IDOL 安裝和初始配置安裝:步驟 1、原始安裝運行安裝文件,安裝 IDOLServer7.2,選擇組件的框選擇IDOL 和DISH 這兩項就可以了,其余沒有用;輸入cense框彈出的時候,點擊瀏覽框,找到自己的 license.dat 文件(商務提供),其余過程均使用默認配置就可以了。步驟 2、安裝分詞安裝結束后,會自動啟動 IDOL 服務。在 win

14、dows 的服務窗口中,將 AutonomyDISH 服務和 AutonomyIDOLServer服務停止,進入安裝目錄IDOLlangfiles 目錄下,將海量分詞文件拷貝近來。修改配置:注:最詳細的配置文檔請參閱或Autonomy 提供的幫助文檔。這里只介紹主要的。在安裝目錄IDOL 目錄下 AutonomyIDOLServer.cfg 文件就是整個搜索引擎的及解釋如下:配置文件。其主要需要修改的配置Server QueryC AdminCIndexCnts=,nts=*.*.*.* nts=*.*.*.*DelayedSync=FALSE DatabasesNumDBs=23Databa

15、se0Name= Database1 Name=。um_um_qa/Field Prosing/FieldProsing0=SetIndexFields 1=SetIndexAndWeightHigher 2=SetSectionBreakFields 3=SetDateFields 4=SetDatabaseFields 5=SetReferenceFields 6=SetTitleFields 7=SetHighlightFields 8=SetSourceFields 9=SetNumericFields 10=SetParametricFields 11=SetMatchFields1

16、2=SetFieldCheckFields/指定需要索引的字段/指定高權重需要索引的字段/指定 EQUAL、LESS、GREATER、RANGE 參數需要比對的數字類/指定需要按統計個數的字段/指定需要做 MATCH 操作的13=Detec_V4Security14=DetectNotes_V4Security 15=DetectNetware_V4Security16=DetectExchange_V4Security17=Detectum_V4Security18=HideAutonomyMetaDataField 19=LookForLanguage 20=DetectOracleSec

17、urity 21=ExpireDateFields22=SetPrFields/指定 Oracle 安全認證字段搜索系統的應用中涉及到了 notes 系統、um 系統和 oracle 系統的用戶注:這里需要特殊說明一下,在權限認證,分別對應 OA、KM 和 TC 組的應用。前兩者作為固定產品,它們的權限信息格式固定,已經集成到 Autonomy的抓取工具和 IDOL 產品中去,如上邊 14 和 17 是兩個安裝后的默認操作,對應 notes 和um 的權限認證。但數據庫操作的認證格式較為靈活,多半有自己的認證規則,依靠自己定義的表格格式和匹配規則實現,不可能實現的認證,因此需要為 TC 組的

18、oracle 數據庫認證手動配置 Oracle 的認證處理。如上 20 是需要手工添加的。SetIndexFields/ Controls which fields are indexed Property=IndexFieldsPropertyFielVs=*/DRECONTENT,*/,*/這里用逗號分割,添加所有想索引的SetIndexAndWeightHigher/ Fields which are indexed wi Property=IndexWeightFieldsweightPropertyFielVs=*/DRETITLE,*/,*/這里用逗號分割,添加所有想索引的高權重S

19、etSectionBreakFields/ Field containing Property=SectionFieldssection numberPropertyFielVs=*/DRESECTIONSetDateFields/ Fields containing the Property=DateFieldsdatePropertyFielVs=*/DREDATE,*/DATESetDatabaseFields/ CSV of field names Property=DatabaseFieldst defined thes databasePropertyFielVs=*/DREDBN

20、AME,*/DATABASESetReferenceFields Property=ReferenceFieldsPropertyFielVs=*/DREREFERENCE,*/REFERENCESetTitleFields/ The one field per Property=TitleFieldst is to bed as the auitle valuePropertyFielVs=*/DRETITLE,*/TITLESetHighlightFields/ Specify the fields whose content is to be highlighted on request

21、 Property=HighlightFieldsPropertyFielVs=*/DRETITLE,*/DRECONTENTSetSourceFields/ Specify which fields are to be used as the source for suggest, summaries, termgetbest/ If none are specified, it uses the index fieldsProperty=SourceFieldsPropertyFielVs=*/DRETITLE,*/DRECONTENTSetNumericFields/ Specify w

22、hich fields are entirely numeric (or a csv of numbers) to be Property=NumericFieldsd for optimised numeric matchingPropertyFielVs=*/MYNUMERICFIELDSetParametricFields/ Specify which fields contain parametric values to be Property=ParametricFieldsd for optimised parametric searchingPropertyFielVs=*/MY

23、PARAMETRICFIELD/這里用逗號分割,添加所有想做統計操作的SetMatchFields/ Specify fields whose entire value is frequently used as a restriction in a search and are thus/d for optimised matching. NB Such fields cannot be numeric or parametric as well.Property=MatchFieldsPropertyFielVs=*/ MYMATCHFIELD/這里用逗號分割,添加所有想做 MATCH 操

24、作的SetFieldCheckFields/ Specify one field per Property=FieldCheckFieldst can be used for fast combine operationsPropertyFielVs=*/MYFIELDCHECKFIELDDetec_V4SecurityProperty=SecurityNT_V4PropertyFielVs=*/SECURITYTYPEPropertyMatch=ntDetectNotes_V4SecurityProperty=SecurityNotes_V4PropertyFielVs=*/SECURITY

25、TYPEPropertyMatch=*notes_v4DetectNetware_V4SecurityProperty=SecurityNetware_V4PropertyFielVs=*/SECURITYTYPEPropertyMatch=*netware_v4DetectExchange_V4SecurityProperty=SecurityExchange_V4PropertyFielVs=*/SECURITYTYPEPropertyMatch=*exchange_v4Detectum_V4SecurityProperty=Securityum_V4PropertyFielVs=*/SE

26、CURITYTYPEPropertyMatch=*umHideAutonomyMetadataFieldProperty=HideMetaDataFieldsPropertyFielVs=*/AUTONOMYMETADATALookForLanguageProperty=SetLanguagePropertyFielVs=*/DRELANGUAGETYPE,*/LANGUAGETYPEDetectOracleSecurityProperty=SecurityOracle/添加 Oracle 認證的檢測配置/指定 Property 名稱,在下方SecurityOracle配置/指定判斷此認證信息

27、的字段/指定判斷此認證信息字段的字段指PropertyFielVs=*/SECURITYTYPEPropertyMatch=*oracle/關于安全的詳細配置及說明,請參看安全配置詳解ExpireDateFieldsProperty=SetExpireDatePropertyFielVs=*DREDATE,*/DREEXPIRE,*/valid_timeSetPrFieldsProperty=PrPropertyFielFieldsVs=*/CREATEALL/Properties/IndexFieldsIndex=TRUEIndexWeightFields Index=TRUEWeight=

28、2SectionFieldsSectionBreakType=TRUEDateFieldsDateType=TRUEDatabaseFieldsDatabaseType=TRUEReferenceFieldsReferenceType=TRUETrimSpa=TRUETitleFieldsTitleType=TRUEHighlightFieldsHighlightType=TRUESourceFieldsSourceType=TRUENumericFieldsNumericType=TRUEParametricFieldsParametricType=TRUEMatchFieldsMatchT

29、ype=TRUEFieldCheckFieldsFieldCheckType=TRUESecurityNT_V4SecurityType=NT_V4SecurityNotes_V4SecurityType=Notes_V4SecurityNetware_V4SecurityType=Netware_V4SecurityExchange_V4SecurityType=Exchange_V4SecuritySecurityType=um_V4um_V4HideMetaDataFields HiddenType=TRUEACLType=TRUESetLanguageLanguageType=TRUE

30、SecurityOracleSecurityType=OracleSetExpireDateExpireDateType=TRUEPrFieldsPrType=true。/Language Types/LanguageTypes DefaultLanguageType=chiDefaultEncoding=UTF8UTF8LanguageDirectory=D:AutonomyIDOLServer/IDOL/langfiles0=chi1=englishchiEncodings=CHISIMPLIFIED:chiCHISIMPLIFIED,CHITRADITIONAL:chiCHITRADIT

31、IONAL,UTF8:chiUTF8Stoplist=chi.datSentenceBreaking=chiIndexNumbers=1breakingenglish Encodings=ASCII:englishASCII,UTF8:englishUTF8 Stoplist=english.datIndexNumbers=1在參照安全配置配置好安全認證之后,重新啟動 DISH 和 IDOL 服務,IDOL 服務器就可以正常工作了。IDOL 端口配置如下:9000 端口供接口查詢使用,一般是 web 界面或者開發語言接口調用9001 端口供索引數據使用,一般是connector 把數據往 ID

32、OL 中輸送。9002 端口供服務端口使用,一般是管理員對該端口進行配置和啟停等管理行為使用。IDOL 端口典型分布:另外 DiSH(分布式管理服務器)為 Autonomy 各模塊提供 license 服務的一個模塊,幾乎所有組件(IDOL 和connector)都要向 DISH 請求 license,組件只有得到 license seats 以后才能啟動。3.2 IDOL 安裝簡單使用安裝完畢,索引數據到 IDOL 以后可以在瀏覽器輸入命令查詢:輔助指令1、IDOL 幫助命令:2、當前 IDOL 狀態:命令:效果:3、查看活動日志命令:效果:4.簡單搜索交易&highlight=termmmarytermmmary=context3.3 Con

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論