




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、網絡信息新技術傳播管理論文 摘要:本文探討了網絡傳播中的信息開發利用新技術,包括數據采掘和知識發現技術、XML、自動分類與自動摘要、智能搜索引擎技術,并討論他們對新聞傳播工作的影響。 關鍵詞:網絡傳播,數據采掘,知識發現,XML,自動分類,自動摘要,智能搜索引擎 NewTechnologyforInformationUtilizationofInternetCommunication Abstract: ThethesisdiscussestheNewTechnologyforInformationUtilizationofInternetCommunication,includesDataM
2、ining,knowledgediscovery,Automaticclassificationandabstract,Intelligentsearchengine. Keywords:InternetCommunication,DataMining,knowledgediscovery,Automaticclassificationandabstract,Intelligentsearchengine. 在網絡時代,廣大新聞傳播工作者和受眾面臨信息過載的難題。人們一方面被信息淹沒,一方面卻饑餓于知識和有用信息。大量的信息不能進行及時有效的開發利用。面對信息爆炸,如何才能不被信息的汪洋大海所
3、淹沒,從中及時發現知識、有用的信息、新聞、或新聞線索,使信息真正成為資源,正在成為各國研究的熱點。從技術上看,目前主要有種解決方案。 一數據采掘和知識發現技術 在某種意義上說目前我們不是缺少信息,而是被信息淹沒了。在因特網上有無窮的信息和數據。目前的數據庫系統和搜索引擎可以高效地實現數據的統計、查詢等功能,但是無法發現數據中存在的關系和規則,無法根據現有的數據預測未來的發展趨勢,缺乏挖掘數據背后隱藏的有用的信息、知識、新聞、或新聞線索的手段,導致了“數據爆炸但知識貧乏”的現象。人們需要有新的、更有效的手段對各種大量數據進行挖掘以發揮其潛能,數據挖掘正是在這樣的應用需求環境下產生并迅速發展起來的
4、,它的出現為自動和智能地把海量的數據轉化為知識、有用的信息、新聞、或新聞線索提供了手段。 數據采掘與知識發現(KDD)一詞首次出現在1989年8月舉行的第11屆國際聯合人工智能學術會議上。知識發現()研究的主要目標是采用有效的算法,從大量現有或歷史數據集合中發現并找出最初未知、但最終可理解的有用知識,并用簡明的方式顯示出來。 數據采掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的原始數據中,提取隱含在其中的、先前未知的、但又是潛在有用的信息和知識的過程。數據采掘在一些文獻中有些相近似的名稱,如數據開采、發現知識(KDD)、知識采掘、知識抽取、知識考察、數據融合(Dat
5、aFusion)等。 知識發現是一個從數據中提取出有效的、新穎的、潛在有用的并能最終被人理解的知識、有用的信息、新聞、或新聞線索的過程。知識發現是從數據庫和中發現知識的整個過程,而數據挖掘是整個過程中的一個步驟。因為數據挖掘是知識發現整個過程中最重要的步驟,所以我們通常將知識發現和數據挖掘作為同義詞使用而不加區分。 數據采掘的工具目前,國外有許多研究機構、公司和學術組織從事數據采掘工具的研制和開發。這些工具主要采用基于人工智能的技術,包括決策樹、規則歸納、神經元網絡、可視化、模糊建模、簇聚等,另外也采用了傳統的統計方法。 知識發現技術可以幫助我們從網上大量的原始數據和信息海洋中,挖掘出能反映其
6、中規律的知識提供新聞工作者和網民。 在知識發現的基礎上可以構成虛擬知識共享系統。虛擬團體是一個分布式的組織,它的成員是一組在網絡上協同工作的同行,他們依靠網絡的支持相互合作、共享知識,可以快速有效地解決問題。新聞工作者之間、網民之間,新聞工作者與網民之間可以構成虛擬團體,進行交互式信息傳播,進行新聞、信息、知識的交流與共享。 虛擬知識共享系統包括:(1)先進的知識獲取技術。幫助成員搜索、處理知識,從中提煉專家經驗。(2)支持多用戶的開發,以使成員定制自己的站點。(3)可以自適應團體需求的自組織式的新聞、信息、知識存儲。 二XML HTML是目前因特網上廣泛應用的標記語言。其優點是非常簡單;固定
7、的樣式;簡易且標準的連接;支持表格;編程簡單。但是也存在難以擴展;交互性差;語義性差;單向的超鏈接:鏈路丟失后不能自動糾正;動態內容需要下載的部件太多;致使搜索引擎返回的結果過多;缺乏對雙字節或多國文字的支持等不足。尤其是目前基于HTML的搜索引擎存在著返回結果太多,檢索精度差的弊端。而XML可以有效地克服這些不足。 XML句法可標注出文檔的結構和目的,這樣就可縮小檢索范圍,提高提高檢索精度。例如,用戶想購買二手車,就可將查詢限制為用于描述“汽車銷售”的標識中。 XM能幫助人們辨別模糊詞義。自然語言中的詞經常多義、多指,網絡信息檢索系統不能分辨哪一種意思是查詢中的,哪一種是文檔中的。XML有助
8、于解決詞義模糊問題,提高檢索的準確性。如,用戶使用“brown”作檢索詞,他有可能想查找由DonaldBrown所寫的論文,由BrownUniversity出版的論文,或有關brownbear的論文。如果用戶明確想查詢authorBrown/author,universityBrown/university,還是subjectbrown/subject,就會提高檢索準確性。 XML使得能用結構相鄰關系來替代物理相鄰關系進行檢索結果相關性排序。XML可允許利用非文本數據,如數值數據、地理位置、溫度值等進行檢索。 三智能搜索引擎技術 目前,計算機信息檢索功能已經從基本的布爾檢索、截詞檢索、鄰近檢索
9、、短語檢索、字段檢索發展為高級的加權檢索、自然語言檢索、相關信息反饋檢索、模糊檢索和概念檢索。網絡信息檢索核心工具是搜索引擎。 搜索引擎的目的是幫助新聞工作者和受眾尋找信息資源。在因特網環境下,其典型實現是基于關鍵詞匹配的信息檢索機制。搜索引擎主要由四部分組成:搜索器,索引器,檢索器,用戶接口。搜索器的功能是在互聯網中發現和搜索信息。它要盡可能快、盡可能多地搜集各種類型的信息,同時還要定期更新已有信息,避免死連接和無效連接。索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用于表示文檔以及生成文檔庫的索引表,建立起自己的物理索引數據庫。一個搜索引擎的有效性在很大程度取決于索引的質量。檢索
10、器的功能是根據用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,并實現某種用戶相關性反饋機制。用戶接口的作用是輸入用戶查詢、顯示查詢結果,提供用戶相關性反饋機制。 page_break 搜索引擎的工作原理搜索引擎起源于傳統的信息全文檢索理論,即計算機程序通過掃描每一篇文章中的每一個詞,建立以詞為單位的倒排文件,檢索程序根據檢索詞在每一篇文章中出現的頻率和每一個檢索詞在一篇文章中出現的概率,對包含這些檢索詞的文章進行排序,最后輸出排序的結果。互聯網搜索引擎除了需要有全文檢索系統之外,還要有所謂的“蜘蛛”(SPIDER)系統,即能夠從互聯網上自動收集網頁的數據
11、搜集系統。蜘蛛將搜集所得的網頁內容交給索引和檢索系統處理,就形成了我們常見的互聯網搜索引擎系統。當然,一個完整的搜索引擎系統還需要有一個搜索結果的頁面生成系統,也就是要把檢索結果高效地組裝成互聯網頁面。當系統的訪問量(PAGEVIEW)變大時,頁面生成系統往往會成為整個系統的瓶頸。與傳統的信息檢索理論研究不同,搜索引擎的用戶看重的是系統的穩定性、速度、易用性和返回的信息量及相關度。 據專家評測,目前主要的搜索引擎返回的相關結果的比率不足45%,其原因是現有的搜索引擎擁有極少量的知識,并且是面向最一般的用戶模型。不劃分知識領域,不對用戶建立任何描述以及使用關鍵詞匹配的交互方式,都限制了搜索引擎的
12、使用效率。由此提出了智能搜索引擎的概念。 智能搜索引擎應具有的特點新一代中文智能搜索引擎是一個基于漢語語法、詞的上下文和語義等中文信息處理技術,自動收集、識別Internet網上的WWW和News信息,智能化地提取摘要和關鍵詞、建立索引、提供查詢和對不良信息的監控、報警功能和網絡信息自動發現和查詢系統。它以加權的啟發式搜索算法控制信息資源的搜集,采用了一種加權的啟發式搜索算法,系統根據用戶配置的領域導向詞和資源服務器所在地域信息,以啟發式函數計算每個URL的權值,并選擇權值高的URL優先訪問。 智能搜索引擎可以根據互聯網本身的鏈接結構對相關網站用自動方法進行分類,再加上結構嚴謹,萃取精華的開放
13、式信息目錄,為每一個查詢迅速提供準確的結果。 智能搜索引擎可以預期用戶的需求,并可有效地抑制關鍵詞的多義性。如、都在嘗試在它們的中使用更加智能化、知識化和專業化的搜索引擎。目前比較成功的智能搜索引擎有,和。 是一個類似于元搜索引擎的產品,但支持自然語言、模糊檢索,可將結果自動去重、聚類,并可返回對所有搜索引擎并發查詢的結果,其檢索結果根據分類排列。 芝加哥大學人工智能實驗室開發的。它是一個具有問答式界面的智能搜索引擎。在獲知用戶問題后,它查詢文件以給出比較合適的回答。的內核由五個互聯聯系的技術環節構成:(1)基于統計方法建立文件。這是由中的工具完成的。(2)用一個由簡單名詞和動詞短語構成的文法
14、樹分析用戶的查詢,以得到一個用于支持內容匹配的描述。(3)問題識別者()操作文法樹以辨識問題從屬的類別。(4)使用語義網分析與概念匹配技術,找出與用戶查詢最近似的問題。(5)將得到的匹配返回給用戶。如果沒有近似的匹配,則將使用一個啟發式的策略。 智能搜索引擎還可以采用協同式檢索方法。該方法一般用于一個特定的用戶(如一個或一組新聞工作者、一個新聞媒體、一個或一組受眾)。協同式方法有時又稱為公眾學習方法,它將其他用戶的反應反饋給當前的用戶。系統不去計算分類項目的相似程度,而是計算用戶之間的相似程度。協同式方法不分析分類項目的內容。協同式方法一般用于非文本化的數據,如電影、音樂等,但是也有的系統將其
15、用于文本數據的挖掘,如新聞過濾等。已有一些系統用于電子郵件處理、會議時序安排、電子新聞過濾和娛樂節目推薦。 與智能搜索引擎技術相關的還有信息智能“推”技術和個性化檢索技術。 基于網民和新聞工作者訪問互聯網的特點,在用戶拉取信息的搜索過程中,根據其輸入的關鍵詞,通過機器學習,可以識別和預測其興趣或偏好,從而有針對性、及時地向網民和新聞工作者主動推送相關知識和最新信息、新聞和新聞線索。推送的形式可采用頻道式推送、郵件式推送、網頁式推送或專用式推送。目前已有構造訪問模式樹()的算法,可從大量信息訪問日志中挖掘用戶訪問信息的模式。也可從用戶訪問文檔的超鏈接來預測用戶的訪問偏好,其知識發現采用關聯性法則。 個性化檢索要求能夠網絡信息檢索系統能夠學習網民和新聞工作者的興趣、適應其興趣的變化并提出檢索建議。一般采用分布式Agent技術,例如在客戶機上運行用戶接口Agent,表示用戶個性化模式,在服務器上運行信息檢索管理Agent,相當于中介信息檢索代理服務器,實現與各引擎的交互,用戶Agent用戶開始一項個性化查詢quest,通過與個性化模式庫中模式的類比學習,產生凈化了的個性化檢索模式,提交信息Agent協調模塊選擇相關信息檢索。返回的檢索結果通過信息濾波,送交顯示模塊,新聞工作者和網民通過瀏覽返
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 稀土金屬壓延加工中的質量改進方法選擇與實施考核試卷
- 游樂設施施工中的安全文化建設考核試卷
- 木片在紙漿生產中的優化研究考核試卷
- 搪瓷制品的環保生產與廢棄物處理考核試卷
- 生態保護宣傳教育策略考核試卷
- 青浦區高三語文二模2021作文
- 電飯煲煮飯不熟應對考核試卷
- 浙江省J12共同體聯盟校初三語文中考模擬考試試卷(含答案)
- 家用電器具的材料腐蝕與防護考核試卷
- 管道工程行業熱點問題研究動向與趨勢預測考核試卷
- 畸形舌側溝臨床對策培訓課件
- 消防維保方案 (詳細完整版)
- “兩票三制”專項整治工作方案(含檢查表)
- 烯烴分離裝置操作規程
- JIS G3507-1-2021 冷鐓用碳素鋼.第1部分:線材
- 停電作業工作票配電填寫模板
- 二重積分的概念與性質(課堂PPT)
- 投標法人代表授權書
- 海天注塑機日常點檢表
- 固體火箭發動機制造工藝
- 抹灰石膏原始記錄
評論
0/150
提交評論