




已閱讀5頁,還剩69頁未讀, 繼續免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
碩士學位論文突發公共事件網絡在線評論情緒傾向性研究study on sentiment classification for online news comments of public emergenciesa thesis submitted toxian jiaotong universityin partial fulfillment of the requirementfor the degree ofmaster of engineering sciencebychengwei li(control science and engineering)supervisor: prof. qinke pengmay 2009摘 要論文題目:突發公共事件網絡在線評論情緒傾向性研究學科專業:控制科學與工程申請人:李成偉指導教師:彭勤科 教授摘 要隨著信息技術的發展和互聯網的普及,網絡媒體已經成為突發公共事件信息傳播的重要渠道,網絡輿論成為突發公共事件應急管理研究的熱點問題。網民發表的大量評論信息反映了評論者對突發公共事件的直接反應和傾向性,對其研究是突發公共事件信息分析的重要方面。本文針對突發公共事件的網絡評論文本的特點,研究評論文本情緒傾向性分類問題,主要工作如下:1 提出評論文本中情緒詞的情緒傾向性分類算法hal-ii。首先研究語言類比超空間hal的生成算法和空間中概念的信息推理算法,然后在此基礎上,hal-ii以情緒詞與兩類情緒種子詞之間信息推理隸屬度為依據,計算情緒詞的情緒強度,對其分類。與基于知網hownet的語義相似度算法hownet-so比較, hal-ii具有較高的準確率。2 提出基于hal空間信息推理的評論文本情緒傾向性分類算法hal-so。該算法首先將中文詞典與hal空間結合,增強hal空間的語義解釋準確性,然后從評論文本中抽取特殊模式的短語,應用概念組合算法,將模式化的短語組合成概念,從而將評論文本表達為概念序列,最后利用基于hal空間的信息推理算法,對評論文本進行傾向性分類。與tc、樸素貝葉斯算法和基于情緒修飾詞的svm算法的分類結果比較,本文使用的基于hal空間的信息推理算法hal-so具有較高的準確率和召回率。3 針對突發公共事件評論數據海量的特點,給出了情緒傾向性分類算法hal-so的并行方案,并給出在proactive的master/worker框架下的實現方案。4 網絡評論情緒分析平臺的構建。首先完成了軟件平臺的功能需求分析和模塊設計,其次在eclipse java下,開發了“網絡評論情緒分析平臺”。關 鍵 詞:突發公共事件;情緒傾向性;語言類比超空間;網絡評論;短語模式論文類型:應用基礎i本研究得到國家自然科學基金項目(no.60774086)資助abstracttitle: study on sentiment classification for online news comments of public emergenciesspeciality:control science and engineeringapplicant:chengwei lisupervisor:prof. qinke pengabstractwith the rapid development of informatin technology and extensive prevalence of internet, internet media has ascended as an important way to propagate information of public emergencies so that research on internet opinon has become a hot field in the study of public emergency response and management. huge amounts of comments posted on internet portals are direct reaction of netizens and reflect their opinons and attitueds toward related aspects of public emergencies, and research on these comments constitues an important branch of information analysis for public emergency. so catering to the new charatristics of commentary text of public emergecy, this thesis devotes to the sentiment classification of comments, and main works can be summarized as following:1 propose a classification algorithm hal-ii for sentimental words in comment text. firstly, construction method of hyperspace analogue to language(hal) and information inference algorithm are introduced and then according to information inference degrees between sentimental words and those of sentimenat seed sets, hal-ii calculate sentiment strength of words in question and classify them. compared to algorithm hownet-so based on semnatic similarity of hownet, hal-ii reports higher accuracy.2 propose a sentimental classification algorithm hal-so for commentary text. hal-so first integerates hal with a chinese dictionary to enhance its senmantic accuracy, then extracts phrases which match predefined patterns and blends the words in the extracted phrases into one conception so that a piece of comment text can be converted to a sequence of conceptions whose sentimental orientation can be calculated by the information inference algorithm. compared with results of tc, bayes model and valence-shifter svm, hal-so poses higher precision and recall rates.3 to timely process the public emergency comments of massive amounts, this thesis provides a parallel computing solution for the hal-so sentimet classification algorithm and proposes an implemental scheme based on master/worker framework of proactive.4 build of a software platform for sentiment analysis of online comments. firstly analysis of functional requriements and modules design of the platform are carried out and then using eclipse java, the “platform for sentiment analysis of comments” is built.key words: public emergencies; sentiment orientation; hyperspace analogue to language; phrase patterntype of thesis: application fundamentalsiiithis research was supported by national natural science foundation of china (no.60774086).目 錄緒論v目 錄目 錄1 緒論11.1 研究背景與意義11.1.1 互聯網與突發公共事件信息傳播11.1.2 政府和學術界對突發公共事件的關注21.2 網絡在線評論及相關問題研究現狀31.2.1 網絡在線評論數據抓取31.2.2 中文分詞技術41.2.3 文本分類技術51.2.4 情緒相關問題51.3 本文的章節安排及內容概要72 中文詞語情緒傾向性分類92.1 詞語情緒傾向性概述92.1.1 情緒詞的傾向性92.1.2 情緒詞的研究現狀102.2 知網(hownet)與語義相似度計算112.2.1 知網概述112.2.2 義原樹與詞語相似度112.3 語言類比超空間hal與信息推理142.3.1 語言類比超空間(hal)概述142.3.2 hal空間的研究現狀142.3.3 hal空間生成算法142.3.4 基于hal空間的信息推理算法162.4 情緒詞傾向性分類算法172.4.1 基于知網語義相似度的分類算法hownet-so182.4.2 基于hal空間信息推理的分類算法182.5 實驗192.5.1 實驗數據192.5.2 實驗結果與分析202.6 本章小結213 基于情緒傾向性的評論文本分類223.1 評論文本分類223.1.1 文本分類與傾向性分類223.1.2 評價指標233.2 基于情緒修飾詞的分類算法243.2.1 評論文本的表示243.2.2 評論文本分類算法263.3 基于hal空間的分類算法283.3.1 基于hal空間的概念組合283.3.2 評論文本分類算法303.4 hal-so的數據并行算法研究323.4.1 proactive并行環境323.4.2 proactive編程框架333.4.3 hal-so并行方案343.5 實驗結果與分析343.5.1 數據集343.5.2 實驗結果353.6 本章小結384 網絡評論情緒分析軟件平臺的設計與開發394.1 軟件系統設計394.1.1 總體功能需求394.1.2 軟件結構設計404.2 軟件功能實現454.2.1 語料處理界面464.2.2 hal空間界面464.2.3 傾向性分析界面474.3 事件驅動的網絡爬蟲實現484.3.1 ajax對網絡爬蟲的影響484.3.2 爬蟲方案分析與功能實現494.4 hal-so并行方案實現514.4.1 并行環境搭建514.4.2 并行方案實現514.5 本章小結525 總結與展望535.1 總結535.2 展望53參考文獻55致 謝58攻讀學位期間取得的研究成果59聲明contentscontents1 preface11.1 background of public emergency11.1.1 internet and information diffusion of pe11.1.2 attitudes to pe from governments and scholars21.2 related works of online news comments31.2.1 comments retrieve31.2.2 segment of chinese characters41.2.3 text classification51.2.4 related fields of sentiment51.3 brief contents72 classification of chinese words based on sentiment orientation92.1 review of sentiment orientation of words92.1.1 orientation of sentimental words92.1.2 related works of sentimental words102.2 hownet and senmantic similarity of words112.2.1 hownet112.2.2 primitive tree and similairty of words112.3 hyperspace analogue to language and information inference142.3.1 introduction of hal142.3.2 related works of hal142.3.3 construction algorithm of hal142.3.4 information inference based on hal162.4 algorithms of sentimental words classification172.4.1 hownet-so based on senmantic similarity of hownet182.4.2 algorithms based on informantion inference in hal182.5 results192.5.1 datasets192.5.2 results and analysis202.6 summary213 comment text classification based on sentiment orientation223.1 introduction of comment text classification223.1.1 text classification and classification based on orientation223.1.2 evaluation of classification models233.2 classification based on valence shifters243.2.1 representation of comment text243.2.2 classification model263.3 classification algorithms based on hal283.3.1 conception combination in hal283.3.2 comment text classification alogrithm hal-so303.4 parallel solution for hal-so323.4.1 parallel envoirnment of proactive323.4.2 programming framework of proactive333.4.3 parallel solution for hal-so343.5 results and analysis343.5.1 datasets343.5.2 results353.6 summary384 design and development of integrated platform for comment processing394.1 system design of integrated platform394.1.1 analysis of functional requirements394.1.2 model design404.2 system implementation454.2.1 corpus processing function464.2.2 hal function464.2.3 orientation analysis function474.3 design and implementation of event-driven crawlers484.3.1 impact of ajax on crawlers484.3.2 solution analysis and system implementation of crawlers494.4 implementation of parallel hal-so514.4.1 construction of parallel environment514.4.2 parallel implementation 514.5 summary525 conclusions and suggestions535.1 conclusions535.2 suggestions53references55acknowledgements58achievements59declaration章的mathtype的章標記(打印前將其字體顏色變為白色,在打印預覽中看不見即可):vii4 網絡評論情緒分析軟件平臺的設計與開發1 緒論1.1 研究背景與意義在當今信息時代,隨著經濟全球化和信息技術的飛速發展,突發公共事件發生的頻率、產生的影響、造成的損失都越來越大,突發公共事件的應急管理已經成為國家國民經濟和社會管理體系的重要組成部分,其有效運行直接關系到國民經濟的正常運行、社會與政治的穩定、以及國家財產的安全。2008年1月中旬至2月上旬,我國南方大部分地區遭遇罕見低溫雨雪冰凍災害,交通運輸嚴重受阻,電力設施損毀嚴重,群眾生產生活受到嚴重影響。2008年3月14日,拉薩發生“314”打砸搶燒暴力犯罪事件,給當地人民群眾生命財產造成重大損失。2008年4月,北京奧運會火炬在多個歐洲城市傳遞時受阻。2008年5月12日14時28分,四川汶川發生里氏8.0級特大地震,造成 69227名同胞遇難。2008年9月,三鹿奶粉事件引發社會對食品安全高度關注。2008年9月,伴隨著多家華爾街金融巨頭紛紛倒下,次貸危機引發了全球性金融危機,對我國出口與其他行業造成了巨大沖擊。其他如“躲貓貓”、“虎照”和“楊佳襲警案”等突發性公共事件對我國社會與經濟發展發生了深遠的影響,使得政府和學術界深感突發公共事件應急管理體系建設及其研究的緊迫性1。1.1.1 互聯網與突發公共事件信息傳播突發公共事件的信息傳播、信息分析、和信息管理對突發公共事件應急管理具有重要的作用23。在突發公共事件的傳播擴散過程中,突發公共事件信息對民眾的風險認知、心理和行為變化以及社會輿論會產生巨大影響,管理不當極易引起輿論失控,從而導致社會恐慌和不安定,擴大事件破壞程度,危及全社會的政治經濟生活4。近年來,互聯網的普及和多種網絡媒體(bbs,blog,wiki)的產生使網絡媒體成為突發公共事件信息傳播的重要渠道,網絡媒體對社會的影響力大大提高,根據中國互聯網絡信息中心(cnnic)2009年1月發布的第23次中國互聯網絡發展狀況統計報告5,截至2008年底,我國互聯網普及率以22.6%的比例首次超過21.9%的全球平均水平,見圖 11。我國網民數達到2.98億,其中,農村網民規模達到8460萬,增長率超過60%,城鄉差距有望逐步縮小。同時,國家cn域名數達1357.2萬,使用手機上網的網民較2007年翻了一番還多,達到1.17億。圖 11 中國網民數量(來自cnnic的報告,2009.1)網絡媒體地位的快速提高也引起了政府的高度重視,胡錦濤主席2007年1月23日下午在主持中共中央政治局第三十八次集體學習時強調,要以創新的精神加強網絡文化建設和管理6。2008年6月20日,胡錦濤主席在人民網強國論壇首次與普通網民在線交流。2009年2月28日,溫家寶總理與網友在線交流并接受了中國政府網和新華網的聯合專訪。全國各部門、省市領導人也不斷通過網絡與民眾進行在線交流。這些都顯示出中國領導層對互聯網的重視,并通過其了解民意,匯集民智。2009年2月19日,云南省官方邀網友調查“躲貓貓”事件,顯示出了網絡媒體在信息透明化,提高政府公信力中起到的作用越來越得到政府部門的認同。而網絡輿情所扮演的角色也越來越豐富,對社會上重大事態發展產生巨大影響,為各級政府領導決策提供參考。對突發公共事件信息的管理而言,網絡媒體已經成為突發公共事件信息傳播的重要渠道,而網絡輿情本身所存在的一些偏差,如易情緒化,存在一些謠言,容易被敵對分子利用等,這使得網絡輿情容易被誤導和激化。因此,網絡中突發公共事件信息的獲取與分析是突發公共事件應急管理研究的重要方向78。1.1.2 政府和學術界對突發公共事件的關注 我國政府為了提高其保障公共安全和處置突發公共事件的能力,最大程度地預防和減少突發公共事件及其造成的損害,保障公眾的生命財產安全,維護國家安全和社會穩定,促進經濟社會全面、協調、可持續發展,國務院于2006年1月8日發布了國家突發公共事件總體應急預案,明確了各類突發公共事件分級分類和預案框架體系,規定了國務院應對特別重大突發公共事件的組織體系、工作機制等內容9。2009年國家自然基金重大研究計劃10“非常規突發事件應急管理研究”中,以非常規突發事件應急管理為研究對象,充分發揮管理科學、信息科學、生命科學等多學科合作研究的優勢,著重研究非常規突發事件的信息處理與演化規律建模,非常規突發事件的應急決策理論,緊急狀態下個體和群體的心理反應與行為規律。該計劃擬在非常規突發事件的特殊約束條件下,通過對相關多學科的觀測、實驗和理論創新與綜合集成,形成對非常規突發事件應急管理的核心環節監測預警與應對決策的客觀規律的深刻科學認識,并提供科學方法;構建“情景-應對”型非常規突發事件應急管理的理論體系,增強應急管理科技的自主創新能力;提高國家應急管理體系(包括應急平臺/預案體系)的科學性,為國家科學、高效、有序應對非常規突發事件提供決策參考;構建應急管理交叉學科,培養應急管理創新型人才,在國際應急管理科學領域居于重要地位。1.2 網絡在線評論及相關問題研究現狀網絡評論文本與傳統文本不同,其長度短,而且沒有規范的語法,國際上把這類文本稱為新型文本11,這些評論的特點是反應快,內容短小精悍,口語化且有獨特的非正規詞語,目前,對評論文本的研究主要涉及到評論數據抓取、中文分詞、文本情感傾向性識別、評論對象識別等。1.2.1 網絡在線評論數據抓取由于突發公共事件具有突發性、不確定性、威脅性、緊迫性和影響廣泛性,所以網絡中往往存在大量從不同視角的報道、分析和評論,這些報道、分析和評論被湮沒在海量的網絡信息中,并且以分散形式存在于不同的新聞網頁、新聞論壇、blog及其相關的新聞評論跟帖中。對這些數據的獲取主要依靠網絡爬蟲。網絡爬蟲,又稱robots、spiders和wanderers,幾乎與互聯網同時出現,它本質上是一個自動提取網頁的程序,是搜索引擎的重要組成部分 。第一網絡爬蟲程序是matthew gray于1993年創作的wanderer12。當前開源網絡爬蟲主要有weblech、j-spider、heritrix和nutch等,商業爬蟲有百度的baiduspider、yahoo的slurp3.0和谷歌的googlebot。圖 12 網絡爬蟲結構圖這些爬蟲結構如圖1-2所示,它們工作的基礎是url,只能抓取具有具體url地址的web頁面。其缺點是無法抓取基于ajax技術的網站。因為ajax網站,采用javascript驅動的異步請求/響應機制,根據用戶需求和相關事件觸發,對web頁面的dom結構進行大量甚至全部變動,導致了具有相同url地址的web頁面包含完全不同的頁面內容。目前主要新聞門戶網站的新聞評論頁面都采用ajax技術實現,如新浪和騰訊等。這些評論頁面,首先加載頁面框架,然后根據用戶的選擇,觸發異步傳輸事件,載入評論內容。因此,對于突發公共事件網絡評論的抓取,需要能夠抓取動態頁面內容的專用網絡爬蟲,本文將在這一方面進行研究。1.2.2 中文分詞技術分詞是中文信息處理的基礎,在漢語文木分類、文獻標引、智能檢索、自然語言理解與處理等應用中,首先都要對中文文木進行分詞處理13。漢語自動分詞系統的實現及效果依賴于分詞理論與方法14。目前分詞的基本算法主要有最長匹配法、最少分詞法、基于統計語言模型分詞法和基于隱馬爾科夫模型的分詞方法15。其中最長匹配算法屬于有詞表切分,也即機械切分,分為正向最長匹配算法 (fmm或mm),逆向最長匹配算法(bmm或rmm),分詞速度快,但是處理歧義切分以及未登錄詞識別的能力很有限;最少分詞法的切分原則是切分結果中包含的詞數最少,符合漢語自身規律;需要的語言資源(即分詞詞表)也不多,但是不能有效地解決歧義切分以及未登錄詞識別問題;基于統計語言模型的分詞法是利用字與字之間以及詞與詞之間的統計概率作為分詞的依據,能夠識別未登錄詞,但是模型計算量較大?;陔[馬爾科夫模型的分詞方法具備較強的歧義處理能力,算法簡單,易于實現,執行效率較高,但是不易于融合更多的語言信息,對于某些復雜的問題處理不好。當前,對分詞算法的進一步研究方向是基于語言理解的分詞方法16,即以人工智能學科為基礎。主要有基于心理學的符號處理方法和基于生理學的模擬方法。前者模擬人腦的功能,將自動分詞過程看作是基于知識的邏輯推理過程,用知識推理與語法分析替代傳統的“機械匹配分詞十歧義,校正”的過程。后者將人工神經網絡基本原理應用于計算機漢語分詞,分詞知識以統一的“權重”形式表示,以漢字為基本處理單元,分詞網絡動態生成,在結構與功能上使網絡推理機與知識庫完全分離,相互獨立,互不影響。目前,已有的分詞軟件主要有中科ictclas、海量分詞、清華大學的segtag系統、復旦分詞系統、哈工大統計分詞系和東北大學的neucsp等,其中ictcals的分詞系統17具有中文分詞、詞性標注、未登錄詞識別功能,詞性標注的一體化;未登錄詞與普通詞處理的一體化;評估體系一體化?;舅枷?采取hmm模型,建立切分詞圖。在詞語粗分階段,先得出n個概率最大的切分結果。然后,利用角色標注方法識別未登錄詞,并計算其概率,將未登錄詞加入到切分詞圖中,之后視它為普通詞處理,最終進行動態規劃優選出n個最大概率切分標注結果。其分詞速度單機996kb/s,分詞精度可達98.45%。1.2.3 文本分類技術文本分類(text classification)技術主要任務是在預先給定的類別標記(label)集合下,根據文本內容判定未標定文本的類別。文本分類在自然語言處理、信息管理和內容信息過濾等領域都有著廣泛的應用。20世紀90年代發展起來的基于機器學習的文本分類方法,更注重分類器的模型自動挖掘和生成,以及動態優化能力,在分類效果和靈活性上都比之前基于知識工程和專家系統的文本分類模式有所突破,成為相關領域研究和應用的經典范例18?;跈C器學習文本分類的基礎技術由文本表示(representation)、分類方法及效果(effectiveness)評估3部分組成。sebastiani總結了文本分類發展歷程及主要技術方法30,文本分類要點包括:(1) 文本向量空間表示模型(vsm),以及特征選擇(selection)與特征提取(extraction)兩種表示空間降維策略,包括2、ig、mi、or等用于特征過濾的顯著性統計量、項聚類和隱含語義索引(lsi)等特征提取方法;(2) 分類模型,即分類器的歸納構造或模型的挖掘學習過程;(3) 分類效果評估指標,如準確率(precision)、召回率(recall)、f(常用f1)和精度(accuracy)等。近年來,將文本簡化為所謂的bow(bag of words),在特征處理和統計學習算法的基礎上獲得對文本語義內容及類別信息的估計與預測,已經成為文本分類的標準模式。通過統計理論和語言學(linguistics)兩種途徑進行的文本表示和分類模型的研究也得到進一步拓寬或發展,相關領域的技術也在文本分類中得到新的應用19。當前,用于文本分類的機器學習算法主要有支持向量機(support vector machines, svm)、樸素貝葉斯模型和決策樹等,這些算法雖然較好地解決大部分具有數據量相對較小、標注比較完整及數據分布相對均勻等特點的問題和應用。但是,對于海量的網絡文本,大規模應用仍受到很多問題的困擾,其主要原因是20:(1) 大規模的類別體系給分類器訓練帶來擴展性的困難;(2) 建立分類器時所獲得的樣本相對于海量的未知數據非常有限,模擬樣本的空間分布變得困難,這可能帶來過擬合(overfitting)及數據偏斜的問題;(3) 文本和類別的更新頻繁,在力求對每個類別獲得更多的樣本時,存在標注瓶頸的問題;(4) 類別間的關系也更加復雜,需要有更好的類別組織方法;(5) web文本是一種半結構化(semi-structured)的數據,其結構信息(如鏈接關系、主題等)可能對分類提供某些幫助。1.2.4 情緒相關問題在情緒的相關研究中,主要涉及到心理學上情緒的定義、情緒識別、情緒分析和主觀性分析等,本節對這幾個方面的研究現狀進行概述。1) 心理學上關于情緒的定義研究文本中所蘊含的情緒,其首要問題就是要選擇何時的情緒類別。本節討論心理學上兩個主要的情緒模型:認知情緒結構21和2-因素情緒結構22。認知情緒結構(cognitive structure of emtions)模型認為情緒是一種對事件(高興vs 不悅)、人物(贊成 vs 支持)和事物(喜歡 vs 厭惡)的有價反應(valence reaction)。對事件的反應可以分為三類:涉及命運的(高興、痛恨,幸災樂禍和憐憫),涉及前景的(滿足,害怕,寬慰和失望)和涉及個人幸福的(喜悅和痛苦)。對人物的反應包括對自己的(驕傲和羞恥)以及對他人的(羨慕和責備)。對物體的反應是一定程度上的喜歡和厭惡。該模型還描述了許多能夠影響有價反應強度的變量,而且每種情緒的強度依據其定義的變量而變化。 2-因素情緒結構模型將情緒分為積極情緒(positive affect)和消極情緒(negative affect),并用兩個維度來描述。對于積極情緒,其維度范圍“高積極”到“低積極”,比如“從興高采烈狀態”到“昏昏欲睡狀態”;對于消極情緒,其維度范圍為“高消極”到“低消極”,比如從“害怕狀態”到“停滯狀態”。該模型進一步引申出pleasantness和engagement維度,它們是積極情緒和消極情緒維度的組合,如圖 13所示,其中pleasantness維度是“高積極”和“低消極”的組合。圖 13 2-因素情緒結構圖2) 情緒識別當前,主要利用情緒的先驗知識來識別文本中的情緒。由于情緒在情緒類別及表達情緒的詞語本身固有的模糊性,一些學者嘗試用模糊邏輯來研究情緒23,如subasic和huettner。他們基于語言學家的主觀判斷構建了一個情緒詞典,詞典的每個條目包含5個元素:詞語本身、詞性、情緒類別、向心性和強度。其中向心性表示該詞語屬于某類情緒類別的程度,而強度則表示詞語能夠表達其情緒類別的強弱程度。每個詞語根據其不同的詞性和情緒類別會存在多個條目。grefenstette等繼續擴充該情緒詞典24。他們利用turney25提出的逐點互信息(so-pmi-ir)方法驗證現有詞典并從因特網上挖掘新詞。然后基于情緒詞典,他們生成了一個包含類別程度的情緒同義詞模糊詞典。對于文本情緒分類,首先根據情緒詞典,基于文本中詞語的情緒向心性和強度,利用模糊邏輯來識別其類別。該方法只考慮文本中詞語,而忽略了文本的結構信息。polanyi等研究了文本上下文中修飾詞的作用和文本結構對情緒類別識別的影響26。3) 情緒分析當前,對文本的情緒分析,主要是依據其語義極性,判斷文本的總體情緒傾向性,即,對于某個主題或者對象,文本作者的態度總體上是積極的還是消極的。pang等將本文分類的樸素貝葉斯、最大熵模型和支持向量機模型應用于文本情緒的分類27,他們通過人工參與的方式將訓練集標注積極和消極兩類,然后從測試集中抽取n-gram特征作為文本的表示,利用特征的出現概念來估計文本的情緒類別。pang等將他們的模型在電影評論數據上測試,貝葉斯模型取得了78.7%的準確率,而支持向量機則取得了82.9%的準確率。他們又將文本中客觀性的句子剔除后進行分類,進一步提高了準確率28。盡管他們模型的分類結果較高,但是其缺點也很明顯,模型的分類依賴于大訓練集,而且是領域相關的。4) 主觀性分析與情緒相關的另一個研究領域是識別文本中的主觀性語句。riloff和wiebe提出了一種識別主觀語句的自學習模型29。該模型首先需要一個未標注的大語料庫和能夠將文本按其語義傾向性分為積極和消極兩類的高精度分類器。接著,分類器利用主觀性模式將語料庫中的句子分類,并且僅當分類結果具有高可靠性時,才對句子進行標注,否則不標注。然后,利用模式抽取學習模型學習已標注的句子,生成與主觀性語句統計相關的模式集合。這些模式集合然后又被分類器當作主觀性模式對語料庫中的句子進行再標注,如此循環。該算取得了71%到85的準確率。另一模型用于主觀性語句識別的是kobayashi等提出的一種半自動模型30,該模型通過查詢語料庫中共現的模式抽取三元組來識別主觀性。三元組包括主觀性、特征詞和意見。他們首先利用一些web文檔、手工標定的共現模式和三元組集合生成初始的候選模式,然后利用這些候選模式從語料庫中抽取新的三元組,并將新的三元組再加入三元組集合,重新抽取候選模式,如此遞歸循環。最終,與人工標注的主觀性語句集合比較,該模型的的覆蓋率僅在40%左右,他們認為是共現模式數量的不足才導致如此低的覆蓋率。1.3 本文的章節安排及內容概要本文的工作主要是針對突發公共事件網絡評論文本的情緒傾向性分類問題,全文內容共分五章:第一章為緒論,主要介紹了當前突發公共事件研究問題的背景,對相關研究領域主要問題的研究現狀進行總結。第二章為中文詞語的情緒傾向性研究,首先討論了情緒詞及其傾向性分類問題。然后分析了情緒詞的研究狀況和傾向性分類的主要算法,接著討論了基于知網hownet的語義相似度計算問題和基于hal空間的語義相關度計算問題,并在此基礎上,給出本文的詞語情緒傾向性分類算法hal-ii。最后,從評論文本中抽取形容詞作為測試集,對本章使用的算法進行測試分析 。第三章討論了評論文本的情緒分類問題。首先分析了評論文本中情緒修飾詞對文本情緒的影響,并研究情緒加強詞、消弱詞和否定詞的特征抽取方案,給出基于情緒修飾詞的評論文本分類算法。然后研究評論文本中短語模式的抽取方案和hal空間中概念的組合算法,提出基于hal空間的評論文本情緒傾向性分類算法hal-so,并研究其數據并行方案。最后構建了兩個數據集,測試本章使用的算法。第四章為第二、三章工作的軟件實現,首先,分析軟件系統的功能需求和結構框架,然后對各個模塊進行詳細設計并介紹功能界面,最后基于proactive并行環境,實現了評論文本情緒傾向性分類的數據并行方案。第五章對全文的研究工作進行了總結,并指出了進一步研究改進的方向592 中文詞語情緒傾向性分類突發公共事件發生后,民眾往往使用能夠表達他們內心感受的詞語來發表評論,這些詞語能夠反映民眾為對事件的支持、贊成或者反對的態度,具有情緒傾向。詞語的情緒傾向,是評論文本傾向性分類的前提條件和根本依據。本章分別從語義相似度的角度和基于hal空間的信息推理方面研究中文詞語的情緒傾向性。2.1 詞語情緒傾向性概述普通心理學認為:“情緒是指伴隨著認知和意識過程產生的對外界事物的態度,是對客觀事物和主體需求之間關系的反應。是以個體的愿望和需要為中介的一種心理活動?!?1在突發公共事件中,人們對事件的情緒反映主要體現于其發表的評論文本中。比如,評論1:英勇的孩子!祖國的希望!祝她好運!評論2:沒人性的家伙們,太可惡了!一定要嚴懲不待!這兩條評論是網友分別對于四川5.12地震中幸存著勇于營救他人事跡和不法分子偷竊救災物資兩個事件的評論。評論1中“英勇”、“希望”和“好運”等詞反映了網友對該事件贊成和支持的情緒,而評論2中的“沒人性”、“可惡”和“家伙”等則表達了網友對不法分子的憤怒與斥責。這些詞語是他們內心情緒的外在表達,體現了他們對事件的態度。這樣的詞,人們可以直接用來表達自己的情感:贊成/反對,憤怒/高興,喜歡/討厭等。尤其是當人們對某-事物作出評價是,往往可以通過這類詞語鮮明的表達自己的觀點。本文稱這樣的詞為情緒詞(sentiment word)。2.1.1 情緒詞的傾向性情緒詞是人們表達情緒態度的直接描述工具,如果評論中沒有出現情緒詞,那么可以認為該評論是一般的客觀性描述,不具有情緒傾向,這類文本不屬于本文的研究范疇。當然,情緒詞只是表達情緒傾向與態度的重要元素之一,其他諸如標點符號、語氣詞、上下文語境和修辭等都對評論文本的情緒傾向起到一定的輔助作用。心理學22研究表明,情緒空間中包含兩個單極的主導維度,即積極情緒(positive affect)和消極情緒(negative affect),二者相互獨立。比如“優秀 精英 最好 最佳 幸?!钡葘儆诜e極情緒詞“流氓 虛假 殘酷 變態 脆弱”等屬于消極情緒詞情緒詞的傾向性一般用兩個維度來表示32,一個是偏離方向(direction),一個偏離強度(strength)。偏離方向指該詞匯表達的意義是屬于積極的還是消極的,在突發公共事件評論文本中即指一個詞語是贊成的還是反對的。偏離強度指該情緒詞所表達的積極或消極意義的強度,在評論文本中指該詞對事件中相關元素的贊成/反對或者喜歡/厭惡的強烈程度。以反義詞為例。對于每一對反義詞,雖然它們可以修飾同一事物,但其表達的意義和傾向性是完全相反的。比如優和劣,這兩個詞雖然都可以修飾產品的質量,但卻反映了評論者對事物完全相反的看法與傾向。對這樣的詞來說,它們具有的情緒傾向是完全相反的。2.1.2 情緒詞的研究現狀目前,針對詞語傾向性的分類方法,一般都是先手工標注一部分典型情緒詞,從而建立一個種子詞集合,然后根據新詞(極性未知的詞,下同)與情緒詞集合中的元素的某種關系,計算該新詞的極性方向和強度。hatzivassiloglou和mckeown首先提出了英文形容詞的傾向性問題33。他們首先手工標注一部分形容詞的極性,分別以“”、“”表示積極和消極傾向;然后,根據句子中的連接詞(and/or/but/either-or/neither-nor),決定其他形容詞的傾向性,比如,w1和w2為同一個句子中出現的形容詞,并且已知w1為積極傾向的,若w2和w1之間出現連接詞“and”或“or”則,記w2也為積極傾向的;若w2和w1之間出現連接詞“but”,則,w2為消極傾向的。基于這種思想,他們從一大型的未標注的語料庫中抽取具有連詞,并手工標注了657個積極傾向的形容詞和679個消極傾向的形容詞作為種子詞,使用有監督的機器學習方法對語料庫中抽取的形容詞對進行傾向性判別,準確率達到了78.08%。turney和littman利用altavista搜索引擎提供的near運算符,計算待分類的情緒詞與種子詞集合的逐點互信息(pointwise mutual information, pmi)34。他們共選擇了14個種子詞,如下:積極傾向種子詞sp=good, nice, excellent, positive, fortunate, correct, superior消極傾向種子詞sn=bad, nasty, poor, negative, unfortunate, wrong
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 45414-2025草果
- 護理札記讀后感:細節與本質的再思考
- 長江藝術工程職業學院《食工儀表自動化》2023-2024學年第二學期期末試卷
- 護理文件書寫規范及要求
- 江蘇省百校2024-2025學年高三下學期期初開學聯考物理試題含解析
- 南充科技職業學院《中學生物課程資源開發與應用》2023-2024學年第二學期期末試卷
- 四川西南航空職業學院《化工熱力學實驗》2023-2024學年第二學期期末試卷
- 江蘇航運職業技術學院《城鄉空間分析與規劃新技術》2023-2024學年第一學期期末試卷
- 中華女子學院《食品工廠設計概論》2023-2024學年第二學期期末試卷
- 十堰市茅箭區2024-2025學年小升初總復習數學測試題含解析
- 北京市朝陽區2025屆高三下學期一模試題 數學 含答案
- 運輸公司安全管理制度
- 2025屆吉林省長春市高三下學期4月三模政治試題(原卷版+解析版)
- 2025屆江蘇省揚州市中考一模語文試題(含答案)
- 2025年河北省唐山市中考一模道德與法治試題(含答案)
- 2025年一級注冊計量師考試題庫大全及答案
- 放療皮膚反應分級護理
- 工程造價咨詢服務投標方案(專家團隊版-)
- 2024年廣東省中考生物+地理試卷(含答案)
- 小小科學家《物理》模擬試卷A(附答案)
- 勞務派遣勞務外包服務方案(技術方案)
評論
0/150
提交評論