




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
基于機器學習的文本情感分析在社會類突發(fā)事件處理中的應用摘要:網絡信息服務的范圍在逐漸拓展,表現出鮮明的智慧化和精細化特點。互聯網上的頻繁行為產生了海量信息,造成了網絡信息量巨大而難以解決;網絡空間以其開放性,強交互性,高隱蔽性和快速傳播速度成為不法分子實施危害社會公共安全行為的主戰(zhàn)場,這對于網絡治理模塊中國家安全部門的應急處理策略與手段也有了更高層次的要求。針對上述情況,本研究提出基于機器學習文本情感分析方法并對該方法在社會類突發(fā)事件敏感信息采集與處理方面的應用進行了分析。關鍵詞:機器學習;文本情感分析;社會類突發(fā)事件信息收集引言網絡信息服務的范圍逐漸拓展,涉及金融,醫(yī)療,旅游,環(huán)保等各個方面,互聯網絡表現出鮮明的智慧化和精細化特點。短視頻應用快速興起,電子商務和移動社交應用深度結合,移動支付軟件大范圍應用,這些都顯示了互聯網應用所帶來的便利。同時,互聯網中的頻繁互動會產生海量的數據,導致相關部門對數據的處理的難度大增。近年來社交用戶隱私泄露,遇到網上詐騙,設備內病毒或者木馬問題突出,同時也出現了不實信息恣意擴散的情況,所以網絡綜合治理還有待加強。網絡空間具有高度開放性,強烈交互性,高度隱蔽性和傳播速度快等特征,互聯網絡已經成為社會類突發(fā)事件應急預防處理的主戰(zhàn)場,對網絡治理模塊中國家安全部門的應急處理戰(zhàn)略和手段也提出了更多的要求。社會類突發(fā)事件情報工作始終面臨著對文本信息進行分析和加工的困難。文本信息本身存在著一詞多義,歧義和斷句不清的現象,這給文本分析和處理時帶來了很大的噪聲干擾,再加上網絡空間信息流速較高,使得社會類突發(fā)事件情報部門無法快速地獲取信息或截獲情報,難以從這些情報中解剖到大量寶貴而可用的情報。與大數據技術和傳統機器學習方法相比較,深度學習算法激勵采集大數據集,并可通過培訓完成數據深層特征抽取。1、機器學習發(fā)展歷程1.1機器學習發(fā)展歷程機器學習作為人工智能的一個重要分支,其發(fā)展歷程可追溯至20世紀50年代。早期研究主要基于神經網絡和統計學習理論。1957年,FrankRosenblatt教授提出了感知機(Perceptron)概念,成為神經網絡模型的開山鼻祖。1959年,IBM公司的ArthurSamuel設計了一個具有學習能力的跳棋程序,標志著機器學習正式進入發(fā)展期。20世紀60年代至70年代末,機器學習發(fā)展相對緩慢,處于所謂的“冷靜時期”。但在這期間,基于邏輯表示的符號主義學習技術開始蓬勃發(fā)展,如結構學習系統、基于邏輯的歸納學習系統等。進入20世紀80年代,機器學習迎來了復興時期。1986年,機器學習成為新的邊緣學科并在高校形成一門課程。此時,機器學習理論基礎得以鞏固,多種形式的集成學習系統研究興起,如連接學習符號學習的耦合。此外,機器學習與人工智能各種基礎問題的統一性觀點開始形成。隨著計算機技術的飛速發(fā)展,機器學習進入了一個新的階段。特別是近年來,機器學習在圖像識別、自然語言處理、推薦系統等領域取得了顯著成果。如今,機器學習已成為許多行業(yè)的核心技術,如自動駕駛、醫(yī)療診斷、金融分析等。同時,機器學習也在不斷探索新的理論和方法,以應對未來可能面臨的挑戰(zhàn)。1.2機器學習的關鍵技術機器學習是一門由統計學、概率論、凸分析、算法復雜度理論等多個學科組成的交叉研究。它是人工智能的關鍵所在,是一種以模仿和實現人的學習行為來獲得知識和技術,并且通過對現有知識的不斷重組來提高自己的能力。機器學習可以分為如下圖幾個方面。圖1機器學習的內容有監(jiān)督學習是使用已帶標簽的樣本數據去訓練一個分類器模型,再利用這個模型把所有輸入的數據轉換為相應的標簽輸出,這便可以實現未知數據相應的預測和分類功能。有監(jiān)督學習中的數據是提前做好標記的,已知數據的分類情況,相應的訓練集數據是包含特征和標簽信息的,根據訓練集對分類器的訓練從而得到測試集相應的輸出。無監(jiān)督學習所使用的訓練集包含的數據的標記信息不是提前知道的,它可以從沒有標記的數據中發(fā)掘出數據的本質和關系。無監(jiān)督學習無論是研究范圍還是應用范圍最大的都是聚類。半監(jiān)督學習則處于有監(jiān)督學習和無監(jiān)督學習的中間,它所使用的訓練集數據有一部分是帶標簽的,但其中無標簽數據的數量遠大于有標簽數據的數量。半監(jiān)督學習方法的優(yōu)點在于它能顯著降低模型對標簽數據的依賴性,同時,由于未標記數據更易于獲取,因此可以帶來更多的應用價值。1.3深度學習深度學習從本質上講是一種通過加入各種算法、構建多樣化模型模擬人類神經系統、再通過大量數據訓練所構造的多層隱藏層、提取圖像抽象特征、分類整合等方法以提高分類和預測精度的一種算法。深度學習憑借自身優(yōu)越的性能和前景,從機器學習中嶄露頭角并發(fā)展為新興分支,對于促進人工智能發(fā)展至關重要[1]。深度學習就是模擬與人腦深層相似的神經網絡對各種數據擬合的機器學習方法,利用多層次圖像空間位點的特征學習形成樹狀操控模式并對其進行深層次識別。深度學習過程可看作是一個從底層向高層逐層對輸入信號進行處理,以實現與輸出目標關系并不密切的原始輸入表示向與輸出目標關系較為密切的表示特征的學習,這種從下到上對信息進行分層處理的方法有助于得到較為抽象,歧義較小以及魯棒性較強的特征。深度模型對問題的處理能力主要取決于它的模型復雜度,隱層神經元個數的增加促進了模型復雜度的提高,增加水平越高精度越高,顯著改善了模型性能[2]。1.4文本特征提取文本特征選擇以文本描述主體與表現形式為主線,貼近語料背景進行研究,既要兼顧文本本身的特點,又要避免一詞多義以及特征代表性不強的問題,原則在于去除無關特征項以及冗余信息以實現降維表示。傳統文本特征的選擇是以統計方法為基礎進行的,即將文本中有代表性的高頻詞選為特征單元,利用統計方法來計算特征權重需要消耗大量的人力和物力,同時由于人為參與比較大,會產生很大的噪聲與錯誤,忽視上下文語義結構以及多詞匯語義連貫性等問題,使得特征提取不夠精確,文本分類不夠全面。隨著互聯網絡的迅猛發(fā)展和數據爆炸式增長,人們對特征選擇方法的需求越來越大,出現了基于自然語言處理和深度學習的文本特征選擇方法,語義連貫性和數據處理高效性得到了顯著提高[3]。文本特征的主要選取方法見表1。表1主要特征選擇方法簡介2、基于機器學習的網絡敏感信息界定2.1網絡敏感詞類別本研究中的網絡敏感信息專指敏感性質文本信息,具體地說就是政治色彩鮮明或隱蔽的詞匯,攻擊性或威脅性詞匯,也可以指惡意宣泄不愉快情緒而對網絡空間環(huán)境造成沖擊的詞匯。根據敏感詞歸屬的語義及環(huán)境特征將網絡敏感詞劃分為6個范疇,即宗教信仰范疇,時事政治范疇,國際事務或者國際關系范疇,本國領土主權范疇,法律范疇和社會生活范疇。網絡敏感詞匯的所屬范疇和相應標志性詞匯示如圖1.在實際敏感詞匯的識別中,各種范疇中所含敏感詞都會出現反復[4]。圖1敏感詞類別及對應示例2.2敏感詞表現形式網絡信息中所含敏感詞的表現形式多種多樣,這與其中文漢字及拼音的構造及表現形式密切相關,從中可以看出敏感詞往往呈現出拼音形式,簡稱形式及拆分形式等。為逃避網絡平臺的監(jiān)視和辨認,部分網民會選擇用字母來表述自己的意思。比如,在最近一段時間里,大家都在討論新冠病毒的控制問題,許多人都將怒火發(fā)泄到了武漢市政府身上,一些人在網上留言的時候,都會用“WHZF(武漢政府)”來表達自己的不滿。又比如,當我們看到一些名人的圖片或者錄像時,很多名人的粉絲都會用到"awsl(啊我死了)"這樣的夸張詞語,來表示自己對名人的喜歡。中文最常用的表述方式為簡稱或簡稱。人們習慣用最少的文字來精確地表達自己的意志,例如“犯罪嫌疑人”往往被表示成“嫌犯”。這種簡稱更多地用于人們的日常生活,法律條款的表達,新聞報道等方面[5]。3、基于機器學習的網絡敏感信息感知必要性3.1大規(guī)模數據加大敏感信息感知難度無論危害公共安全的行為地點是選擇在真實的地區(qū)還是抽象的網絡平臺上,都會產生幾何級數增長的數據,包括與組織相關的人員信息、地理位置、活動范圍和運營策略。數據顯示,全球的數據總量正在快速增長,在二零一九年數據市場已經達到了一千八百七十億美元[6]。就大數據的類型而言,一般有四類:政府數據、企業(yè)大數據、互聯網大數據和個人大數據。詳見圖2。圖2敏感信息與個人信息的關系敏感信息和智能數據來源于外界,其中既有政府機關提供的信息,也有犯罪嫌疑人的日常活動,如財務、交通、通訊等,還包括互聯網等。伴隨著科技的不斷發(fā)展,各種有計劃、有預謀的非法組織將戰(zhàn)場轉移到了互聯網上,情報機構也適時地將自己的陣地轉移到了互聯網上,并對互聯網上的信息展開監(jiān)測、跟蹤、處理和分析,以確定目標,這說明了情報工作的結果。與此形成鮮明對比的是,互聯網上的個人信息已大量占用了人們的工作和娛樂時間,而身份、婚姻狀態(tài)、社會偏好、地理位置等信息則被大量曝光,極易被社會類突發(fā)事件部門所利用。由于數據量太大,情報機構不能精確地過濾掉無關的信息,也不能排除公民個人信息,這無疑使敏感信息的處理變得更加復雜。3.2敏感信息采集與處理技術易造成隱私信息泄露數據信息安全和大數據分析有著千絲萬縷的聯系,甚至能夠把二者劃上等號。大數據環(huán)境下情報采集的路徑大致有網絡監(jiān)控,新聞媒體報道,專項情報數據庫的建立,人工情報采集和政府部門等產業(yè)的情報采集。毫無疑問,許多大數據處理技術都是有針對性的,能夠有效地解決絕大多數的網絡安全問題。從現實需求出發(fā),大數據處理與分析技術的確應當被用于信息安全與情報工作,但并非完全安全。以數據挖掘技術為例,它包括了數據采集、預處理、數據分析與利用、知識應用(見圖3)。圖3大數據處理過程中的隱私泄露數據獲取包括用戶不了解數據源的選擇,從而帶來潛在威脅;預處理要求濾除無關或者關系不是很好的信息,而用戶又不能了解信息是否得到了妥善處理或者拋棄或者破壞,即使進行了二次利用或者違規(guī)利用也會造成最大的影響。數據分析和使用意味著對有用信息的處理,一般來說,數據會被去掉身份,但這并不是100%的安全,因為去掉身份的數據信息可以和數據庫中的其他信息聯系起來,在受到惡意攻擊的情況下,用戶信息仍然可以被恢復。數據挖掘的終極目標在于挖掘蘊藏在數據中的寶貴知識,情報機構可將獲取的信息用于對將來可能出現的以公共安全及有關人員為對象的事件進行預測。若現階段信息未被有效儲存,從而造成信息泄露,無疑會給個人數據帶來巨大的威脅。由此可見,用于敏感信息采集與加工的大規(guī)模數據處理與分析技術并不是絕對安全的。重視數據處理中缺乏嚴格監(jiān)督與管理程序、如何保證各項數據都能得到適當的保存與保護等問題是今后的工作方向。4、基于機器學習的網絡敏感信息感知框架構建4.1網絡敏感信息感知影響因子根據網絡敏感信息產生的外部環(huán)境和自身因素,分析網絡敏感信息結果如圖4所示。圖4網絡敏感信息感知影響因子從外部環(huán)境出發(fā),可依據敏感事件時網絡環(huán)境狀態(tài),敏感詞出現與出現時間及目前網絡監(jiān)管水平等因素來分析。事件環(huán)境:敏感詞必須取決于對某個事件的評價,或者是由這個詞所導致的一系列網絡事件;在上述兩種情形中,事件處理網絡環(huán)境影響了敏感信息感知。事件發(fā)生的時間:主要考慮是需要檢查的資料是否出現在關鍵時期,即所謂特殊時期。特殊時期通常會引起人們對于事件的大量討論或者是沒有根據的推測,在這一過程中敏感信息的出現是非常可能的。詞匯在文本中的位置:互聯網文本信息采集分析效率與其關鍵詞所處位置緊密相關,實際數據表明敏感詞發(fā)生在正文起始處,其對全文的影響大于發(fā)生在正文末尾。詞匯在課文中的出現頻度:所考察信息在課文中所起的作用與其頻度成正相關、頻度高、敏感性高。詞匯呈現方式:前一節(jié)中提到敏感信的呈現方式會影響敏感信息的發(fā)現與感知過程,且呈現方式越繁雜,工作進展越易受影響。對文本的意義:敏感詞為文本做出貢獻,可綜合考慮該詞語在文中出現頻率,字符長度進行計算。4.2網絡敏感信息感知框架構建由于網絡中敏感信息難以被察覺和認知,且難以避免與私人信息產生沖突,所以需要在保證深層次敏感信息精確抽取的前提下降低情報機構工作負荷和難度,提升情報分析準確性、及時性。基于此,互聯網敏感信息(危及社會公共安全)檢測框架見圖5。圖5基于深度學習方法的網絡敏感信息感知框架由于在互聯網上跟蹤和發(fā)現敏感信息的具體過程,嚴格控制數據來源是重中之重。在互聯網廣泛普及,視頻監(jiān)控與跟蹤,圖像識別等技術廣泛應用,數據傳輸速度日益加快的情況下,網民的線上線下行為極可能得到時刻監(jiān)測。互聯網中的大部分敏感信息都源于對人日常生活特別是其在線行為的監(jiān)測。該流程隱蔽性強,為國家網絡監(jiān)控部門對網絡空間進行凈化所必需,這些數據信息通常由當事人不了解。為避免沖突,首先要在數據源中盡可能精確地采集有用信息,以免對非敏感信息產生無效的獲取與利用。這需要情報人員能及時地發(fā)現問題并鎖定目標區(qū)域及人群,同時對網絡監(jiān)測系統的設計提出更高的需求。對數據處理技術而言,如何在海量領域與影像中對敏感詞匯進行快速捕獲與精確監(jiān)控具有挑戰(zhàn)性。5、網絡敏感信息感知系統下社會類突發(fā)事件應急處理進程優(yōu)化在社會類突發(fā)事件爆發(fā)之前,若不掌握情報就盲目開展活動,不僅不能抑制社會類突發(fā)事件,而且還會浪費很多人力、物力、財力,更會加劇社會類突發(fā)事件所帶來的危害,因此這時的觀測應屬于廣義上的觀測與防范。社會類突發(fā)事件發(fā)生后,武警現場指揮員要想確保應急處理進程更加順利,就必須在有效的時間里獲得更多的情報,可通過公安“天網工程”“雪亮工程”以及大數據平臺來獲得社會面治安狀況等信息,并通過網絡敏感的信息感知系統來了解競爭對手的情況,民情社情,天候地形,電磁環(huán)境以及輿論情況等等,這樣才能更早地一步了解社會類突發(fā)事件的導火索到底是什么,給民眾造成的威脅有多大,又能得到誰的支持,怎樣配合協同應急處理,才能在社會類突發(fā)事件應急處理中取得突破。這一階段是用來搜集能有助于問題解決的多種有關資料,并為進一步分析判斷奠定所需數據基礎。社會類突發(fā)事件行動中武警部隊應加快高新技術的信息化和現代化建設,運用網絡敏感信息感知系統增強信息化應急處理優(yōu)勢。武警指揮員應善于運用信息化通信技術手段和無人化智能化新型裝備來豐富多種觀察,判斷和決策手段,極大地縮短任務部隊應急處理實施時間,并在應急處理過程中切實提髙容錯率,以實現最終制勝。另外,還應加上社會類突發(fā)事件信息的搜集,建立有效的社會類突發(fā)事件怖活動預警體
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025原單位倒閉如何解除勞動合同
- 羽毛球教學與實戰(zhàn)知到課后答案智慧樹章節(jié)測試答案2025年春阜陽師范大學
- 畢業(yè)設計與研究成果展示
- 2025建筑工程與城市基礎設施項目施工總承栽合同
- 2025年碳纖維傳動離合器采購合同
- 高一英語學案:知識巧學Womenofachievement
- 2024年西安長安聶河中醫(yī)醫(yī)院招聘真題
- 2024年四川師范大學附屬高新菁蓉小學招聘儲備教師筆試真題
- 2025勞動合同終止協議書樣本
- 襯衫購買合同范本模板
- 《檢驗檢測機構監(jiān)督管理辦法》培訓結業(yè)考核試題附答案
- 基于SolidWorks球閥參數化設計
- 初中綜合實踐課程標準
- 基于STC89C52單片機-紅外智能循跡小車
- 重慶森林工程林業(yè)項目營造林檢查驗收辦法(試行)
- 市政工程施工質量檢查表
- 懸臂模板多卡模板施工手冊
- 土及部分巖石力學參數經驗值
- 國內外硅鋼片牌號
- 第四章-輪廓加工的數學基礎A
- 談文旅融合發(fā)展的深層意義
評論
0/150
提交評論