




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
基于概念的語義傾向計算方法
近年來,文本的性別分析越來越受到重視。文本傾斜度分析是指通過分析和分析文本中的立場、觀點、觀點、情感、好、惡等主觀信息來判斷文本的情感趨勢的類別。文本傾角分析可以包括三個粒度:詞匯級、句子級和文檔級。詞匯的傾斜分析是后兩種粒度的基礎(chǔ)。單詞的一般傾斜計算方法基于詞匯。國外科學(xué)家哈茲納西羅夫、mc地殼、t谷滾動和japkamps的研究具有很大的啟發(fā)意義。在這個過程中,兩個詞是動詞或意義的同義詞或意義,它們?nèi)Q于連接詞的轉(zhuǎn)換關(guān)系。雖然它是形容詞的極性,但這項研究與趨勢的測量無關(guān)。文獻(xiàn)使用詞匯和分?jǐn)?shù)強烈的贊美語言(如excellen)的相互信息來減少與其與強烈分散的貶義詞(如android)的相互信息來計算詞匯的趨勢。文獻(xiàn)使用搜索引擎的關(guān)鍵字來進(jìn)行類似的研究。在中國,劉毅和王素格在文本趨勢分析方面進(jìn)行了全面研究。此外,朱芳蘭、楊玉英和熊德使用概率分析了文獻(xiàn)中的趨勢。這些研究基于詞匯和詞匯之間的一定關(guān)系。然而,該方法使用了目標(biāo)詞和參考詞之間的相似性差異,實驗結(jié)果的準(zhǔn)確性并不高。同時,一旦單詞遠(yuǎn)離單詞,則會離開更純粹的贊美和貶義詞(而不是混合許多概念的贊美和貶義詞)。為了提高傾向性分析的精度和效率,在前人的成果和HowNet工具的基礎(chǔ)上,提出了一種基于概念的詞匯語義傾向度分析方法.該方法將HowNet當(dāng)中存在的褒貶義概念進(jìn)行聚類分析,將聚類中心作為基準(zhǔn)概念進(jìn)行詞匯的語義傾向計算.1相關(guān)背景知識1.1/語義傾向度/相似度HowNet創(chuàng)始人董振東提到,HowNet是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫.關(guān)系是詞匯語義的靈魂,只有通過“關(guān)系”才可能教會計算機(jī)懂得或在某種程度上懂得“語義”,也只有通過“關(guān)系”才可能教會計算機(jī)對語義進(jìn)行運算.在此要特別提到HowNet中2個主要的概念:“概念”與“義原”.“概念”是對詞匯語義的一種描述,又稱為義項.每一個詞可以表達(dá)為幾個概念.“概念”是用一種“知識表示語言”來描述的,這種“知識表示語言”所用的“詞匯”叫做“義原”.“義原”是用于描述一個“概念”的最小意義單位.除了義原,HowNet中還用了一些符號(如!、#、%等)來對概念的語義進(jìn)行描述.現(xiàn)今國內(nèi)利用HowNet的語義傾向度識別方法通常都是基于相似度的,因此先介紹基于HowNet的相似度度量方法.劉群提出了2個層面的相似度度量——概念與概念間的相似度和詞匯與詞匯之間的相似度.對概念S1、S2,它們的相似度可表示為式中:βi(1≤i≤4)是可調(diào)節(jié)的參數(shù),且有:β1+β2+β3+β4=1,β1≥β2≥β3≥β4,Sim1(S1,S2)、Sim2(S1,S2)、Sim3(S1,S2)、Sim4(S1,S2)分別表示第一獨立義原描述式、其他獨立義原描述式、關(guān)系義原描述式和符號義原描述式.而對于2個漢語詞語W1和W2,如果W1有n個義項(概念):S11,S12,…,S1n,W2有m個義項(概念):S21,S22,…,S2m,則W1和W2的相似度為各個概念的相似度之最大值:1.2基準(zhǔn)詞的語義傾向值文獻(xiàn)根據(jù)若干對褒貶義基準(zhǔn)詞,利用HowNet的相似度分析進(jìn)行詞匯的傾向計算,在思路上同樣是沿用了Turney的方法:設(shè)共有k對基準(zhǔn)詞,每對基準(zhǔn)詞包括一個褒義詞和一個貶義詞.褒義基準(zhǔn)詞表示為key_p,貶義基準(zhǔn)詞表示為key_n,單詞w的語義傾向值用orientation(w)表示,則式中:Similarity(key,w)即是利用式(1)來計算.式中的傾向度以0作為默認(rèn)的閾值,大于0即為褒義,小于0即為貶義.2基于概念的意義趨勢識別方法2.1結(jié)論:基準(zhǔn)詞與候選詞的相似度文獻(xiàn)提出的方法的實驗效果并不十分理想,因此本文作了如下思考:在HowNet的定義中,詞匯包含了若干概念,對于一個基準(zhǔn)褒貶義詞,它可能包含了具有褒貶義傾向的概念,也可能包含不具褒貶義傾向的中性概念,舉例如表1所示.基于詞匯的語義傾向計算,實際是希望利用基準(zhǔn)詞具有褒貶義傾向的概念來進(jìn)行計算的,更確切地說,是希望利用褒義詞包含的褒義概念,以及貶義詞包含的貶義概念來進(jìn)行計算,如圖1所示.圖1中,左右兩邊各是褒義基準(zhǔn)詞和貶義基準(zhǔn)詞,求候選詞的語義傾向正如虛線箭頭所示,是2組詞與候選詞的相似度之差,但當(dāng)褒/貶義基準(zhǔn)詞中包含了貶/褒義概念和中性概念時,就會造成效率的損失(不必要的求取相似度)以及對實驗效果的負(fù)面作用.于是設(shè)想:當(dāng)基準(zhǔn)詞與候選詞進(jìn)行相似度計算時,這樣的中性概念或者反義概念(即褒/貶義詞中的貶/褒義概念),會不會對語義傾向的計算產(chǎn)生負(fù)面的效果,并使得實驗不得不進(jìn)行許多無意義的、冗余的相似度計算,能否有一種更純粹的使用褒義和貶義概念,避開無意義甚至對實驗結(jié)果有反作用的概念的方法呢?在HowNet這種基于世界知識的工具出現(xiàn)之前,是不能做到的,因為概念的出現(xiàn)必須以詞匯為載體.但在HowNet出現(xiàn)后,概念可以脫離詞匯而獨立存在,使這樣的方法變得切實可行.此外還需要解決一個問題,即如何沿襲前人的研究思路,尋找若干對基準(zhǔn)概念.概念之間的相似度給定之后,可以將相似度看作是距離的反比,利用聚類的方法尋找出若干個聚合,再從每個聚合中找出聚類中心的方法來獲取基準(zhǔn)概念.因此,問題轉(zhuǎn)化為下2個子問題:1)如何利用聚類算法尋找基準(zhǔn)概念;2)如何利用基準(zhǔn)概念進(jìn)行詞匯語義傾向度分析.對以上2個問題的解決方案分別在2.2和2.3章節(jié)進(jìn)行詳細(xì)的介紹.大體思路如圖2所示,先使用聚類算法在褒義概念空間和貶義概念空間中各找出n個聚類中心(如白色圖標(biāo)所示),再通過這些聚類中心來對候選詞的語義傾向進(jìn)行計算(如虛線箭頭所示).2.2基準(zhǔn)概念獲取方法聚類分析指的是將一種模式的集合(通常表示為向量或者多維空間中的點),基于相似性分成多個組別的過程.常用的聚類算法如K-MEANS算法、K-MEDOIDS算法、CURE算法、DBSCAN算法等.概念是一個分布在未知高維度空間中的點,無法用一系列的屬性來表征一個概念.由于K-MEANS算法在每次迭代中都需要構(gòu)造新的聚類中心,這個聚類中心是嚴(yán)格意義上類內(nèi)各樣本距離最小的點,有可能是之前未出現(xiàn)過的點,然而在概念空間中是無法構(gòu)造出之前未出現(xiàn)過的點,因此類似K-MEANS的算法不適用.相反,K-MEDOIDS算法的聚類中心是聚類中與每一個類內(nèi)樣本點的相似度總和最高的點,是從已有樣本點中選取出來的,因此是適用的.另一方面,雖然類似于DBSCAN算法這樣的基于密度的聚類算法也能夠使用,但存在一個明顯的缺陷就是很難控制聚類的數(shù)量.綜上,借鑒K-MEDOIDS的思路,設(shè)計一個基于K-MEDOIDS算法的基準(zhǔn)概念獲取方法.一般的K-MEDOIDS算法過程如下(算法1):根據(jù)HowNet的特點,利用算法1提出了基于K-MEDOIDS算法的基準(zhǔn)概念獲取方法(算法2):2.3語義傾向度的計算公式在獲得基準(zhǔn)概念對之后,接下來的工作是如何利用它們進(jìn)行詞匯的語義傾向度分析.本文沿襲了前人的研究思路,提出了2個公式:對于一個詞匯W和一個概念S,如果W有n個義項(概念):S1,S2,…,Sn,它們之間的相似度是當(dāng)concept_p1,concept_p2,…,concept_pn為褒義基準(zhǔn)概念,concept_n1,concept_n2,…,concept_nm為貶義基準(zhǔn)概念時,對于一個詞匯W,它的語義傾向度計算公式為3結(jié)果與分析3.1廢義詞表組成為實驗方便且易于比較,本文僅考慮中文,不考慮其他語言.且需要兩大類數(shù)據(jù)源,一是褒貶義詞表,二是褒貶義概念表.實驗中使用的褒貶義詞表是HowNet免費對外提供的4份褒貶義詞表,如表2所示.其中前2份表組成貶義詞組,共計4559個詞;后2份表組成褒義詞組,共計4739個詞.在HowNet概念中有一欄專門的屬性S_C,指明該概念的中文語義傾向(相應(yīng)還有屬性S_E,指明英文的語義傾向,在此先不作考慮).它共有4種值:MinusFeeling、MinusSentiment、PlusFeeling、PlusSentiment.此外對中性的概念該屬性為空.故將S_C值為前2個值的概念全部作為貶義概念,共計355個概念,將S_C值為后2個值的概念全部作為褒義概念,共計305個概念.3.2基準(zhǔn)概念計數(shù)實驗實驗利用算法2和式(2)進(jìn)行,根據(jù)不同的基準(zhǔn)概念對數(shù)進(jìn)行實驗并作比較.需要注意的是,由于K-MEDOIDS的初始中心點是隨機(jī)的,對于不同的基準(zhǔn)概念對數(shù),本文采用10次實驗求取平均數(shù)作為最后的結(jié)果.在評價部分,實驗不僅根據(jù)總體準(zhǔn)確率來評價實驗效果,還將比較褒義詞和貶義詞的準(zhǔn)確率,如果兩者自身的準(zhǔn)確率越高,彼此的差距越小,就說明實驗效果越好.3.3結(jié)果與討論3.3.1語義傾向度分析方法與基于概念的語義傾向度分析方法的對比為與基于詞匯的語義傾向度分析方法進(jìn)行比較,先對文獻(xiàn)中提到的40對基準(zhǔn)詞進(jìn)行統(tǒng)計,發(fā)現(xiàn)褒義基準(zhǔn)詞中包含99組概念,貶義基準(zhǔn)詞中包含127組概念,故實驗1將基準(zhǔn)概念對數(shù)設(shè)置在90~140(這樣的話比較次數(shù)相當(dāng),時間消耗差不多),并與基于詞匯的語義傾向度分析方法的準(zhǔn)確度進(jìn)行比較,結(jié)果如表3所示.對于總體準(zhǔn)確率,運用基準(zhǔn)詞的方式獲得了73.9%的準(zhǔn)確率,而使用基準(zhǔn)概念的方式下最好結(jié)果達(dá)到了81.9%,比傳統(tǒng)方式高出了8%.基于概念的語義傾向度分析方法效果明顯好于基于詞匯的方法.出現(xiàn)上述結(jié)果有2個主要的原因:1)基于概念的語義傾向度分析方法使用的都是帶有褒貶含義的概念,針對性更強,對傾向度分析的作用更大、更直接.2)在HowNet知識庫中,一個褒義詞可能不僅包含褒義概念,還包含貶義概念和無褒貶含義的概念,在進(jìn)行傾向性分析的時候,僅它的褒義概念會起正面作用,而貶義概念和無褒貶含義的概念則有可能會有反作用或是沒有作用;同樣的問題也存在于一些貶義詞中.使用基于概念的語義傾向度分析方法,可以消除反作用,同時避免不必要的時間損耗.對于褒義詞和貶義詞各自的準(zhǔn)確率,不管何種方式褒義詞準(zhǔn)確率明顯高于相應(yīng)的貶義詞準(zhǔn)確率,基于相似度的方法似乎很難避免褒、貶義詞準(zhǔn)確率偏斜現(xiàn)象的出現(xiàn).但是相對基于詞匯的方法貶義詞僅有57.7%準(zhǔn)確率,基于概念的方法在準(zhǔn)確率上有明顯的改進(jìn),在一定程度上糾正了準(zhǔn)確率偏斜現(xiàn)象.此外,與基于詞匯的語義傾向度分析方法相比,基于概念的語義傾向度分析方法還體現(xiàn)出2個優(yōu)點:其一是自動化程度高,在利用聚類算法尋找基準(zhǔn)概念的過程中,基準(zhǔn)概念是從HowNet所提供的所有褒貶義概念中自動地選取,而非人為指定基準(zhǔn)詞,在認(rèn)同HowNet是一種通用工具的情況下,尋找基準(zhǔn)概念的過程可認(rèn)為是一種只需指定若干參數(shù)即可自動化的過程;其二是分析速度更快,在所使用的概念數(shù)大致相同,且認(rèn)為每次HowNet計算2個詞相似度的時間復(fù)雜度相同的情況下,基于概念的語義傾向度分析方法減少了分析詞匯、提取概念的過程,因此分析的速度更快.3.3.2聚類相似度分析根據(jù)表3,基準(zhǔn)概念方法的準(zhǔn)確率隨著基準(zhǔn)概念數(shù)的增加而逐漸提高.下面對產(chǎn)生這一現(xiàn)象的原因進(jìn)行深入的分析.對使用改進(jìn)的K-MEDOIDS聚類方法得到的整個概念空間的聚類結(jié)果進(jìn)行統(tǒng)計,得到概念空間的稀疏向量,記為centroids(n),其中n表示基準(zhǔn)概念數(shù),即聚類中心個數(shù).為了減少K-MEDOIDS方法中隨機(jī)初始化帶來的影響,每次聚類重復(fù)m次,在本實驗中m設(shè)為10.centroids(n)中每一維向量,即候選概念的權(quán)值按如下方式確定:首先將向量centroids(n)每一維初始化為0,對于每次的聚類結(jié)果,在每個聚類中心所代表候選概念上的權(quán)值增加1/m,重復(fù)m次實驗.通過上述方式得到的向量centroids(n)中每一維的權(quán)值區(qū)間為,該向量表征了整個空間中每個概念選為基準(zhǔn)的概率.按上述方法統(tǒng)計之后,對相鄰2個聚類個數(shù)的聚類中心結(jié)果分別進(jìn)行如下分析:首先計算兩者的相似度,在此使用余弦相似度的計算方法;其次統(tǒng)計在centroids(n)中出現(xiàn)頻數(shù)較centroids(n-10)增長最多的10個概念,以及它們在centroids(n)之前的出現(xiàn)次數(shù).統(tǒng)計結(jié)果如表4所示,其中△Pcur表示當(dāng)前出現(xiàn)頻數(shù)增長最多的10個概念的平均增加值,Ppre為這10個概念在之前的幾個維度出現(xiàn)的平均次數(shù).例如,△Pcur=0.46,即表示出現(xiàn)頻數(shù)增長最多的10個概念在該維度平均多出現(xiàn)了0.46次,而Ppre=0.16,即表示這10個概念在之前幾個維度中分別只出現(xiàn)0.16次.從表4中可以看出,相鄰基準(zhǔn)概念數(shù)的相似度非常高,都達(dá)到了90%.這說明隨著基準(zhǔn)概念數(shù)的增加,每組基準(zhǔn)概念除了保持與前一組基準(zhǔn)概念的大致相似之外,都會
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 新能源汽車商業(yè)模式與技術(shù)融合研究試題及答案
- 新能源汽車高效利用可再生資源的技術(shù)研究試題及答案
- 市一模生物試題及答案
- 建筑施工意外事故案例題目
- 家具設(shè)計中的情感價值與品牌忠誠度的關(guān)系研究試題及答案
- 施工現(xiàn)場安全責(zé)任體系建設(shè)的探索試題及答案
- 五年級數(shù)學(xué)(小數(shù)四則混合運算)計算題專項練習(xí)及答案
- 小學(xué)教師對反思工具的使用與應(yīng)用研究試題及答案
- 學(xué)習(xí)2025年商務(wù)英語考試試題及答案
- 幼兒園數(shù)字與顏色的有趣接觸體驗題試題及答案
- 布魯氏菌病培訓(xùn)課件
- 2025年古董拍賣收藏品買賣協(xié)議書
- 【托比網(wǎng)】2024中國工業(yè)品數(shù)字化發(fā)展報告
- 砌石截水墻施工方案
- 海岸工程學(xué)設(shè)計計算書
- 大學(xué)美育知到智慧樹章節(jié)測試課后答案2024年秋長春工業(yè)大學(xué)
- 創(chuàng)新設(shè)計前沿知到智慧樹章節(jié)測試課后答案2024年秋浙江大學(xué)
- 《城市級實景三維數(shù)據(jù)規(guī)范》
- 厚積薄發(fā) 行穩(wěn)致遠(yuǎn)-六年級期中家長會【課件】
- 《中西藥物的合理配伍與禁忌探究》6400字(論文)
- 2024年10月高等教育自學(xué)考試14169設(shè)計基礎(chǔ)試題及答案
評論
0/150
提交評論