非結構化信息管理和搜索的發(fā)展現狀_第1頁
非結構化信息管理和搜索的發(fā)展現狀_第2頁
非結構化信息管理和搜索的發(fā)展現狀_第3頁
非結構化信息管理和搜索的發(fā)展現狀_第4頁
非結構化信息管理和搜索的發(fā)展現狀_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

非構造化信息管理和搜索的開展現狀1關鍵詞全文檢索技術日顯局促,亟待打破世界范圍的正以目前每9個月增加一倍的速度飛速開展,并還將以指數速度繼續(xù)增加。而另一方面,在從eb或數據倉庫中找到你所需要的內容卻并非進展迅速,雖然檢索到相關結果的速度正以兆兆字節(jié)甚至十倍于此的速度增加。據2022年5月NielsenNranGrup發(fā)布的2022eb可用性調查結果顯示,所有用戶〔包括偶然使用或經歷豐富的用戶〕對搜索結果滿意的次數百分比僅為42%,經歷豐富的用戶這一數字可以到達50%[1]。最糟糕的搜索經歷常發(fā)生在使用企業(yè)網站點搜索而不是使用巨型搜索引擎的時候。另據FrresterResearh的統計說明,非構造化信息的數量正在以每年200%的速度增長。一般員工大約要花費35%的時間尋找工作所需的非構造化信息[2]。由此可見,搜索引擎必須采取措施使自己變得更為聰明,同時能更準確全面的為大多數用戶帶來令人滿意的搜索結果。我們需要有一個工具,能同管理構造化信息一樣,有效地管理我們的非構造化信息。2有望終結傳統搜索形式的Autny的“樣板工程〞Blinkx英德中文版已經推出2022年7月,位于美國舊金山的創(chuàng)業(yè)公司Blinkx推出了一種新型搜索工具Blinkx,該工具可以提供類似“模糊搜索〞或“語義搜索〞的功能。也就是說,當用戶提出類似“搜索引擎將來開展趨勢如何〞這樣的搜索需求時,搜索引擎可以給出相關內容的搜索列表,而不會像傳統搜索工具那樣只是機械的給出包含“搜索〞、“引擎〞、“將來〞、“開展〞、“趨勢〞等詞匯但卻遠離該主題的文章。Blinkx不僅可以搜索文本內容,還可以搜索電影電視等多媒體內容,不僅可以搜索互聯網內容,還可以搜索本機和局域網上的內容。Blinkx同時還可以搜索不同的文本格式內容,如Text、rd、Exel、PPT、PDF以及各種數據庫中的數據格式。有媒體把這種搜索方式稱為“智能搜索〞,這樣的搜索引擎一直以來都是人們的夢想,或許Autny就是下一代搜索引擎的開端也未可知。當然Autny并不只局限于桌面搜索這個狹窄的領域,它不只是代表一系列產品,也不只是一家公司的名字,最主要的是它代表著一種搜索理念和技術[3]。一旦它成功,桌面搜索的格局自然也會跟著發(fā)生翻天覆地的變化。假如安裝了Blinkx的客戶端軟件,一個小的菜單窗口就會出如今rd、utlk等幾乎所有文檔處理窗口的右上方。用戶在這些窗口中處理文檔時,系統會自動分析這個文檔,然后自動從本機或網絡上抓取相關文章或鏈接,以供用戶參考。它還可以及時提供與文章內容相關的新聞、產品信息、視頻內容等分類信息。簡單地說,用戶完全可以拿一篇文章來作為“查詢關鍵詞〞,Blinkx通過對這篇文章進展分析,會給出與這篇文章內容最接近的網絡鏈接或本機文檔[4]。這無疑給需要處理大量數據的個人和企業(yè)提供了宏大便利。2022年元旦剛過Blinkx進入中國市場,其中文測試版已經“開工〞。目前已經在國內某數據中心建立了一個試驗平臺,大約有30多臺效勞器正在運行著Blinkx的后臺系統[5]。Autny公司是Blinkx公司的股東之一,Blinkx的核心技術也來自Autny,因為這種親密關系,Blinkx被認為是Autny的“樣板工程〞。此前,Autny一直像汽車發(fā)動機一樣隱藏在幕后。Autny雖然在公眾中的知名度不太大,但在商業(yè)應用領域中卻名聲顯赫,并在政府、國防、新聞、金融、電信、教育等領域擁有大量中堅客戶。而且,Autny還是一個“歷史悠久〞的IT公司,同時在美國和英國上市,擁有超過1.47億美元的現金。3Autny的形式識別技術,可以幫助用戶發(fā)現一些事前不知道的相關信息目前,人類研究的信息搜索技術有四個方向:關鍵字搜索,形式識別,語義分析,神經網絡。除了關鍵詞搜索比擬成熟外,其他三項技術還處于待開發(fā)狀態(tài)。形式識別的代表者就是Autny,語義分析和神經網絡兩個技術方向目前尚無壓倒性的代表者,一年半載不會有打破性的研究成果。所以,形式識別就成了目前比擬先進的信息搜索技術。采用“形式識別〞搜索方法,可通過判別相關識別度的上下來對數據進展檢索,可以防止傳統“關鍵詞檢索〞造成的漏檢情況的發(fā)生。比方一篇文章里假如有“大海〞這個詞,這篇文章有可能和企鵝有關,但是“大海〞這個詞用在很多不同的地方,有可能文章講的是別的內容。但是假如一篇文章里有“大海〞、“南極〞、“黑色〞、“白色〞、“不會飛〞、“羽毛〞、“下蛋〞、“石油〞、“泄露〞等這些詞,這篇文章是在議論污染和企鵝的概率就會很高。雖然整篇文章里沒有“企鵝〞這個詞,但是很多相關度較低的詞出如今一起就會帶來很高的相關度,并且缺少某個描繪詞對其產生的結果影響微乎其微。假如說傳統的“關鍵字〞搜索方法為“searh〞〔搜索〕的話,autny采用的“形式識別〞方法那么應該稱為“disver〞〔發(fā)現〕,因為它可以讓用戶找到一些事前他們不知道的信息[6]。Autny產品中提供的“聚類〞功能正是“從搜索到發(fā)現〞的最正確表現。目前,Autny在國外比擬成功的應用案例集中在媒體、政府機構、金融和信息產業(yè)等需要集中處理大量非構造化數據的領域。2022年3月,Autny進入中國市場,目前主要集中在電信和政府市常Autny追求建立符合企業(yè)內部數據管理需求的平臺,可將放在不同位置的不同類型的數據進展有效梳理。Autny曾經在美國平安局、美國國防部、美國航天局、英國警察署和美國陸軍有過成功應用[7]。對于網絡上出現的大量的有害信息,Autny可以做到事前發(fā)現,從而幫助政府機構采取及時地反響。例如,政府有關部門要打擊網上非法買賣違禁藥物,使用“搖頭丸〞、“興奮劑〞等關鍵詞搜索出來的內容多數是關于藥物危害、打擊犯罪等方面的正面文章,而出現“興奮〞、“購置〞、“單價〞等關鍵詞的文章,那么與非法買賣違禁藥物的相關度最高。通過這種非關鍵詞搜索的“形式識別〞搜索,政府監(jiān)控部門可以有效打擊日益猖獗的網上犯罪。所以政府機構和一些需要對信息進展監(jiān)控的機構是該系統在中國的潛在市常4Autny的技術特點和優(yōu)勢分析Autny軟件設計的原那么是無需用戶改變已有的使用習慣,甚至無需改變已有的用戶界面,它支持所有傳統的檢索和設置方式,包括關鍵詞、邏輯語言、布爾語句等,同時提供應用戶更多、更簡潔的定義方法,如對所需信息的自然語言描繪、文章概念的定義,還可以通過反響的文章作為例子來訓練個人聚焦和頻道。此外,它可以通過自身軟件架構的靈敏性去適應已有的系統架構,嵌入到已有的應用中去,在用戶熟悉的界面之下提供新的功能。Autny中最關鍵的局部就是它的動態(tài)推理引擎〔DynaiReasningEngine,簡稱DRE〕,其中信息的概念分析、內容提娶概念形式識別、相關度計算等關鍵工作都是由該動態(tài)推理引擎完成。當用戶發(fā)出搜索指令后,它可以通過相關方法從互聯網、企業(yè)內部網、終端計算機等不同位置的信息源中找到與用戶要求最匹配的信息[8]。它的技術特點主要有如下幾點:4.1自動內容綜合和精煉Autny能操作的信息同樣包括各種構造化、半構造化和非構造化數據,如RDBS的表格、LtusNtes等構造化數據,以及HTL頁面、rd文檔、電子表格、電子郵件非構造化數據等。而且它可以綜合及理解豐富的多媒體內容,包括音頻、視頻、圖像文件等。綜Autny可以自動綜合來自200多種不同格式數據源的內容。所有綜合后的文件如有任何改動都可以在Autny的根本構造和數據源之間保持同步。4.2個性化操作Autny的自動建檔功能可以準確理解個人和企業(yè)用戶的使用習慣和興趣愛好,并能進展追蹤。根據直接檔案和隱含檔案可以生成每個用戶的多側面概念型檔案,它們可以自動追隨用戶當前的興趣,而無需用戶屢次填寫任何形式的表格。Autny自動的個性化解決方案可以將用戶與有共同興趣的檔案或有間接關聯的檔案匹配起來。4.3信息自動分類、聚類定義、索引Autny獨有的自動信息聚類防止了手工分類的費事,可以將相關網站信息進展全自動分類,能實時、客觀地反映每個科學門類的信息變化,這與其他的模板式自動分類機制有著本質的區(qū)別[9]。Autny的架構可以識別信息之間的主要關系,從而實現內容間的穿插索引對照,無論是什么文檔,Autny都可以在操作層識別出與其相關聯的資料。此外,Autny還可以對內容中最主要的概念進展總結,可以根據原始查詢的上下文環(huán)境進展總結,并且將最適用的動態(tài)摘要提交給指定需求。最關鍵的是Autny的這一切工作都無需人工干預自動進展,對企業(yè)應用來說,這一點相當有吸引力。4.4主動匹配和信息地圖像涉及平安方面的應用可能有非常廣泛的信息搜索需求,從網站上最酷的新聞到剛剛播放的電視畫面,都可能與平安問題相關。利用Autny的主動匹配功能,可以在用戶日常工作中充分利用整個企業(yè)的信息系統為各個相關部門的相關人員提供有價值的信息。主動匹配可以將典型的文檔或者以數字為中心的用戶界面轉變成以任務為導向的智能界面,也就是說它能自動識別用戶當前的問題,并確定相關信息。Autny還可以自動生成二維或三維的信息圖,將某一時間段的所有信息通過形象的圖像展如今用戶面前,幫助用戶準確、及時地把握世界各地的最新資訊。例如它的最新功能可以跟蹤一系列的郵件信息,告知檢測者每個郵件的流向和被轉發(fā)目的。它還可以將連續(xù)的信息圖生成信息走勢圖,觀察出多個時間段的信息走勢,從而用戶能一眼看出某一個階段內的信息開展趨勢。這是任何其他搜索系統目前還無法提供的功能。5企業(yè)非構造化信息搜索的商機,引得眾多IT巨頭紛紛參加搜索戰(zhàn)團,處理非構造化信息的桌面搜索形式成為競爭焦點企業(yè)網絡的搜索比網絡的搜索復雜很多,企業(yè)信息通常是以各種不同的格式〔如電子表格、PDF、HT網頁,甚至多媒體文件〕存儲在各個不同的地方。同時,企業(yè)客戶要有可靠的存儲系統,還有協作工具、平安工具等。所以企業(yè)搜索需要具備更聰明的功能,能從各種不同的信息來源做信息的搜集和關聯。企業(yè)非構造化信息搜索的商機,引得眾多IT巨頭紛紛參加搜索戰(zhàn)團,處理非構造化信息的桌面搜索形式成為競爭焦點。世界頭號軟件廠商的微軟、IB、Autny、Yah、AL等和Ggle正在開展直接的競爭,于2022年末2022年初紛紛推出了各自的企業(yè)搜索產品?!緟⒖嘉墨I】1DanFarber.追求更好的搜索結果.ZDNethina

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論