



下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
信息采集系統(tǒng)解決方案一、WebCateCPS簡(jiǎn)介WebCateCPS數(shù)字信息實(shí)時(shí)處理智能平臺(tái)是用于自動(dòng)獲取大量實(shí)時(shí)數(shù)字信息,自動(dòng)處理數(shù)字信息并提供采、編、發(fā)、全文檢索,自動(dòng)分類的智能平臺(tái)。WebCateCPS部分技術(shù)來(lái)源于國(guó)家高技術(shù)發(fā)展計(jì)劃“863”項(xiàng)目和國(guó)家十五科技攻關(guān)計(jì)劃,本系統(tǒng)采用先進(jìn)的網(wǎng)頁(yè)數(shù)字化定位技術(shù)、內(nèi)容交互技術(shù)、智能分詞、概念抽取、自動(dòng)摘要和全文檢索等多項(xiàng)技術(shù),實(shí)現(xiàn)了數(shù)字信息數(shù)據(jù)的全方位,智能化的處理。二、WebCateCPS的適用對(duì)象成全文檢索功能的OA系統(tǒng)合作伙伴:需要集、EIP系統(tǒng)、網(wǎng)站發(fā)布系統(tǒng)、內(nèi)容管理、知識(shí)管理、企業(yè)(個(gè)人)文檔管理系統(tǒng)等獨(dú)立軟件開(kāi)發(fā)商。最終用戶:為有以下需求的企業(yè)或組織:(1)內(nèi)部資料分散,需提高知識(shí)利用率,提升自身競(jìng)爭(zhēng)力的企事業(yè)單位、組織及政府機(jī)構(gòu);(2)有站內(nèi)檢索功能需求的網(wǎng)站;特別是專業(yè)網(wǎng)站、中小型網(wǎng)站和企業(yè)網(wǎng)站;(3)報(bào)社、電臺(tái)、電視臺(tái)、出版機(jī)構(gòu)等媒體,圖書館、資料館、檔案館等。三、產(chǎn)品結(jié)構(gòu):WebCateCPS數(shù)字信息審核子系統(tǒng),信息智能分類子系統(tǒng)a、數(shù)據(jù)采集系統(tǒng)WebCateCPS的數(shù)據(jù)采集實(shí)時(shí)智能處理平臺(tái)由四個(gè)子系統(tǒng)成組:數(shù)據(jù)采集系統(tǒng)、信息編輯與全文檢索系統(tǒng)子系統(tǒng)。:子系統(tǒng)是整個(gè)智能處理平臺(tái)的前端,核心功能包括對(duì)互聯(lián)網(wǎng)實(shí)時(shí)信息,異構(gòu)數(shù)據(jù)庫(kù)、多種異質(zhì)文件格式信息的獲取和轉(zhuǎn)換。數(shù)字采集子系統(tǒng)支持的文件及數(shù)據(jù)庫(kù)格式如下:MSOFFICE、ADOBEPDF、ISO2709、Oracle、SqlServer、MySQl、Access等。b、信息編輯審核子系統(tǒng):WebCateCPS信息編輯審核子系統(tǒng)用于智能平臺(tái)使用者進(jìn)行信息錄入、編輯審核、權(quán)限分配、手工分類、發(fā)布管理、批量刪除、,定期備份等日常維護(hù)管理,該子系統(tǒng)具備小組協(xié)同工作機(jī)制和虛擬工作臺(tái)的功能,可有效支持20人左右的編輯隊(duì)伍。c、信息智能分類子系統(tǒng)WebCateCPS智能分類子系統(tǒng)用于對(duì)格式化、非格式化文字信息可高效率地協(xié)助編輯人員對(duì)海量文字資料的分類處理。智能分類子系統(tǒng)兼容多種文件格式,具備完備的詞表管理、分詞分類規(guī)則管理、分詞分類算法管理、自動(dòng)學(xué)習(xí),效果評(píng)測(cè)等功能。d、全文檢索子系統(tǒng)WebCateCPS全文檢索子系統(tǒng):的自動(dòng)分類、自動(dòng)標(biāo)引,:為使用者提供海量信息快速查找和信息發(fā)布的功能。該子系統(tǒng)支持對(duì)多種文檔類型,支持自然語(yǔ)言檢索,實(shí)現(xiàn)百萬(wàn)篇文檔檢索及顯示速度在秒級(jí),毫秒級(jí)。四、數(shù)字信息采集子系統(tǒng)優(yōu)勢(shì)特點(diǎn)(1)互聯(lián)網(wǎng)信息采集模塊功能說(shuō)明:可實(shí)時(shí)定向采集各種互聯(lián)網(wǎng)網(wǎng)站,包括采用JavaScript、用戶名/密碼驗(yàn)證、嚴(yán)格Session控制技術(shù)的復(fù)雜網(wǎng)站,也包括大型論壇系統(tǒng),圖片、MP3網(wǎng)站完成網(wǎng)頁(yè)頁(yè)面等。該模塊可的內(nèi)容抽取,信息排重,格式還原,在線關(guān)鍵字過(guò)濾等功能。優(yōu)勢(shì)特點(diǎn):采用“網(wǎng)頁(yè)元素?cái)?shù)字化定位技術(shù)”,對(duì)互聯(lián)網(wǎng)網(wǎng)站采集精確,帶寬占用小獨(dú)特的專業(yè)模版制作技術(shù),可以采集超難超復(fù)雜的網(wǎng)站國(guó)內(nèi)唯一公開(kāi)支持網(wǎng)站采集內(nèi)容交互技術(shù)支持網(wǎng)頁(yè)操作智能代理技術(shù)支持J2EE計(jì)算標(biāo)準(zhǔn),系統(tǒng)運(yùn)行穩(wěn)定,可跨平臺(tái)運(yùn)行支持世界上絕大多數(shù)語(yǔ)種網(wǎng)站采集支持原文快照支持通過(guò)代理服務(wù)器采集網(wǎng)站具備相似度排重功能支持多媒體文件(圖片、MP3,ZIP)下載,且自動(dòng)校驗(yàn)下載完整性,自動(dòng)重試下載(2)數(shù)據(jù)庫(kù)記錄采集的優(yōu)勢(shì)特點(diǎn)功能說(shuō)明:該模塊支持各種數(shù)據(jù)庫(kù)記錄的采集作,包括Oracle、SqlServer、MySql、DB2、Sybase、InfoMix、Access等數(shù)據(jù)庫(kù)。該模塊支持多個(gè)本地和遠(yuǎn)程數(shù)據(jù)庫(kù)的并發(fā)操作,增量數(shù)據(jù)更新,可以在數(shù)據(jù)記錄采集的同時(shí)標(biāo)注或改和索引創(chuàng)建,支持這些數(shù)據(jù)庫(kù)的專有字段類型和操變數(shù)據(jù)記錄的分類屬性.優(yōu)勢(shì)特點(diǎn):支持主流數(shù)據(jù)庫(kù)的所有特殊字段類型支持超過(guò)1024個(gè)數(shù)據(jù)庫(kù)的并發(fā)數(shù)據(jù)采集(3)桌面文件內(nèi)容萃取采集的優(yōu)勢(shì)特點(diǎn)功能說(shuō)明:支持對(duì)文件系統(tǒng)中多種格式文件的信息加載。用戶只需指定需提供被檢索的文件目錄,就可使用WebCateCPS的文件加載工具對(duì)大量格式文件進(jìn)行批量加載。同時(shí)支持分類加載,可以定義一個(gè)或多個(gè)目錄為同一個(gè)分類,在文件加載時(shí)完成分類映射。WebCateCPS支持的文件格式包括以下類型:MSOffice系列、Text、Pdf、Html、Xml等。可以增加更多的格式支持(需要定制)優(yōu)勢(shì)特點(diǎn):支持格式化電子文件的內(nèi)容抽取自動(dòng)識(shí)別文件格式,支持混合電子文檔批量裝載,無(wú)須人工分離(4)信息綜合編輯平臺(tái)的系統(tǒng)優(yōu)勢(shì)特點(diǎn)功能說(shuō)明:內(nèi)容管理:提供對(duì)原始信息的編輯排版和新信息的錄入,編輯功能強(qiáng)大,實(shí)現(xiàn)信息的圖形界面可視化操作,系統(tǒng)融合強(qiáng)大的WebCateCPS的管理與檢索功能,方便對(duì)各種格式的信息資源統(tǒng)一在線檢索文件管理:對(duì)加載文件實(shí)施文件搜索、刪改、目錄管理、可對(duì)文件名統(tǒng)一標(biāo)注。分類管理:使用者可以在自動(dòng)分類的協(xié)助下完成“原始分類-自動(dòng)標(biāo)注分類-目標(biāo)分類”的手工分類操作。用戶管理:用戶的增、刪、改,構(gòu)建用戶虛擬工作臺(tái)實(shí)現(xiàn)系統(tǒng)“onetoone”功能權(quán)限管理:劃分信息閱讀、修改的權(quán)限分配及分類創(chuàng)建和修改的權(quán)限,也包括對(duì)角色的定義和管理。發(fā)布管理:設(shè)定信息發(fā)布模版,可以輕松統(tǒng)一定制網(wǎng)站的設(shè)計(jì)風(fēng)格,保證頁(yè)面美觀,大大減輕系統(tǒng)維護(hù)的負(fù)擔(dān)優(yōu)勢(shì)特點(diǎn):系統(tǒng)操作與維護(hù)簡(jiǎn)單,有無(wú)專業(yè)知識(shí)均可輕松上手具備文件編輯協(xié)同工作特性,避免信息的“臟讀臟寫”具備信息發(fā)布實(shí)時(shí)上網(wǎng)特性,審核后的信息可立即發(fā)布信息訪問(wèn)權(quán)限完備,信息訪問(wèn)的最小粒度可達(dá)到網(wǎng)頁(yè)原始分類信息編輯虛擬工作臺(tái)可實(shí)現(xiàn)編輯狀態(tài)的保存和調(diào)出,極大地方便編輯人員的工作圖形編輯界面,類MSOFFICE的編輯風(fēng)格(5)信息智能分類子系統(tǒng)優(yōu)勢(shì)特點(diǎn)功能說(shuō)明采用Markov(隱馬爾科夫)模型+空間向量模型(SVM),實(shí)現(xiàn)信息概念抽取,提供精確的主題詞統(tǒng)計(jì),可完成格式與非格式化信息的自動(dòng)分類優(yōu)勢(shì)特點(diǎn):提供分類訓(xùn)練及評(píng)估工具,加強(qiáng)使用者管理類別及模板的能力具備自我學(xué)習(xí)的功能,現(xiàn)有資料源可作為分類的參考模板系統(tǒng)內(nèi)置大量分詞與分類詞匯表,如:漢語(yǔ)次頻統(tǒng)計(jì)表,專業(yè)中文語(yǔ)法庫(kù),地名表,中文姓氏表,停用詞表等等。具備完備的與自動(dòng)分類庫(kù)表管理界面:可以通過(guò)系統(tǒng)提供的分類庫(kù)表管理界面維護(hù)各種詞表庫(kù)在自動(dòng)分類結(jié)果的界面上顯示文章主題詞與分類的匹配度可自動(dòng)分揀文章的主題詞,并在文章中反紅標(biāo)注用戶可以通過(guò)管理界面自主選擇分類算法支持樹(shù)狀結(jié)構(gòu)的自動(dòng)分類(6)全文檢索子系統(tǒng)優(yōu)勢(shì)特點(diǎn)功能說(shuō)明WebCateCPS全文檢索子系統(tǒng)可完成包括HTML,MSOFFICE,PDF,XML、數(shù)據(jù)庫(kù)記錄等異構(gòu)異質(zhì)信息的高速檢索,實(shí)現(xiàn)豐富和強(qiáng)大的頁(yè)面功能,如:全文索引的管理,多種檢索條件的組合查詢,檢索結(jié)果的排序管理等。優(yōu)勢(shì)特點(diǎn)WebCateCPS采用了網(wǎng)景盛世專用于檢索的中文智能分詞技術(shù),所有文本信息處理之前都經(jīng)過(guò)分詞;并采用Markov(隱馬爾科夫)模型+空間向量模型(SVM),實(shí)現(xiàn)信息概念抽取,提供精確的關(guān)鍵詞搜索。WebCateCPS中文智能分詞技術(shù)集成了優(yōu)秀的歧義識(shí)別算法和未登錄詞(包括姓名、地名等)的識(shí)別算法,開(kāi)放語(yǔ)料分詞的準(zhǔn)確率指標(biāo)在國(guó)內(nèi)處于領(lǐng)先地位,如搜索「成都」,會(huì)得到所有關(guān)于“成都”這個(gè)城市的相關(guān)結(jié)果,而不會(huì)搜索到「1千年前齊國(guó)在此建成都城」;檢索「國(guó)花」,不會(huì)命中「美國(guó)花旗銀行」WebCateCPS采用網(wǎng)景盛世領(lǐng)先的中文自然語(yǔ)言處理技術(shù),提供基于語(yǔ)義的檢索。WebCateCPS全文檢索提供文本格式轉(zhuǎn)換插件,目前可以支持word、excel、ppt、html、pdf等常見(jiàn)格式的文檔支持主流的數(shù)據(jù)庫(kù),包括Oracle、SQLServer;支持主流的操作平臺(tái),包括Windows、Linux、Unix;支持完備的碼制,包括GB2312/GBK、BIG5、UTF8、GB18030、ISO8599-1,GB18030是續(xù)GB2312之后的國(guó)家標(biāo)準(zhǔn),GB18030比Unicode優(yōu)越之處在于與GB2312/GBK全面兼容。WebCateCPS的Web搜索頁(yè)面提供了豐富的關(guān)于漢字編碼的搜索功能,包括關(guān)鍵字搜索、邏輯表達(dá)式搜索、自定義分類搜索、按相關(guān)度排序、自定義排序方式;搜索結(jié)果提供動(dòng)態(tài)摘要、搜索關(guān)鍵字反顯、在結(jié)果中搜索、搜索自動(dòng)分頁(yè)、原文快照、相關(guān)文檔、描述性檢索等功能。支持跨平臺(tái)的應(yīng)用,支持各種主流的操作系統(tǒng)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 即使無(wú)合同約束2025年工傷員工同樣享有合法權(quán)益保護(hù)
- 2025年網(wǎng)絡(luò)設(shè)備采購(gòu)合同范本
- 《2025貸款借款合同》
- 2025租賃協(xié)議簡(jiǎn)化版合同范本模板
- 2025語(yǔ)音平臺(tái)租賃合同協(xié)議范本
- 2025物流合作合同協(xié)議書簡(jiǎn)化版
- 2025家電銷售合同保修協(xié)議
- 2025雙邊貸款合同(固定資產(chǎn)投資)
- 2025船舶運(yùn)輸合同范本
- 2025橋梁工程招標(biāo)代理合同
- 《我的家鄉(xiāng)日喀則》課件
- 語(yǔ)文版一年級(jí)下冊(cè)語(yǔ)文閱讀理解(15篇)
- 華文版書法五年級(jí)下冊(cè) 第12課 同字框 教案
- 大學(xué)生勞動(dòng)教育:勞動(dòng)關(guān)系與勞動(dòng)保障
- 國(guó)網(wǎng)裝表接電(初級(jí))理論考試復(fù)習(xí)題庫(kù)(含答案)
- 實(shí)驗(yàn)四酸性磷酸酶及值測(cè)定
- 勞動(dòng)保障協(xié)理員試題
- 《多邊形的面積》單元整體作業(yè)設(shè)計(jì)
- 同濟(jì)大學(xué)《高等數(shù)學(xué)》第七版上、下冊(cè)答案(詳解)
- 三一sy215c8零件手冊(cè)SY215C8液壓挖掘機(jī)零部件圖冊(cè)
- GB/T 25150-2010工業(yè)設(shè)備化學(xué)清洗中奧氏體不銹鋼鈍化膜質(zhì)量的測(cè)試方法藍(lán)點(diǎn)法
評(píng)論
0/150
提交評(píng)論