數據挖掘電商情感分析_第1頁
數據挖掘電商情感分析_第2頁
數據挖掘電商情感分析_第3頁
數據挖掘電商情感分析_第4頁
數據挖掘電商情感分析_第5頁
已閱讀5頁,還剩23頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、泰迪杯大學生數據挖掘競賽論文報告www ty drnorg第三屆“泰迪杯”全國大學生數據挖掘競賽優 秀 作 品作品名稱:基于電商平臺家電設備的消費者評論數據挖掘分析 榮獲獎項:一等獎作品單位:華南師范大學作品成員:趙曉榮葉呈成黃佳鋒指導老師:耘基于深度學習的電熱水器評論數據挖掘分析摘要,近年來.隨著互聯網的廣泛應用和電子商務的迅速發展.網絡文本及 用戶評論分析意義日益凸顯因此網絡文本挖掘及網絡文本情感分析技術應運而 生.通過對文本或者用戶評論的情感分析,企業能夠進行更有效的管理等。本文 針對電商平臺的電熱水器的評論數據.利用基干半監替遞歸自編碼(RAE)的深 度學習模型進行評論的情感分析。為了

2、保證評論數據挖掘分析的質量和全面性. 我們重新從京東和蘇寧易購平臺爬取了評論數據集對數據進行預處理評論 去空、去重=中文分詞、停用詞過濾等.再利用半監督RAE深度學習模型對 這些評論進行情感分析。之后.本文主要進行兩個方面的數據挖掘分析工作:一 方面是根據不同品牌電熱水器的評論數據情感分析結果,提煉出各個品牌產品的 差異化賣點;另一方面是根據不同電商平臺的評論數據情感分析結果.進行不同 電商平臺的服務質量比較.進而可以使電商平臺根據自身優勢吸引消費者。關鍵詞,深度學習.情感分析,RAE差異化賣點第2貝泰迪杯大學生數據挖掘競賽論文報告www ty drnorgData Mining on Com

3、ments of Electric water heaterBased on Deep LearningAbstract: Recently, with the wide application of Internet and the rapid development of electronic commerce、network text and user review analysis is of gieat significance, text mining ancl seiitiinent analysis of network text arise at the liistoric

4、moment, and the emotional analysis of the text or user conunents is more effective in enteiprise management and so on Elecbic business platform, tliis paper apply a deep leaiiiing method based on semisupeivised reclusive encoding (RAE) on tmnlysis of the einution of conunents whiuli users delivered

5、about electric waler heater, hi order to ensine the quality of the data milling analysis, we crawled the relevant comments data sets fiom Jingdong and Suniiig platform Tlien we preprocessed comments data on wiping "empty and heavy" out, Cliinese word segmentation, filtering stop words, wor

6、d fiequency statistics, etc. Next we analyze sentiineiit on these comments using a method based on semisq)ervised RAE Later, tliis paper analyzed mainly conunents in two aspects of data milling work: on the one hand, according to sentiment analysis result of the conunents of different brand electiic

7、 water heater, extiacting differentiation of various brand products selling point: On the otlier hand, according to the conunents of different electiic business platform data sentiment analysis results, and con甲are different electric business platform of service quality; and electric business platfo

8、rm can take measmes to attiact coiisumers according to their own advantages Key words: deep learning; sentiment analysis; RAE; differentiation of selling point目錄1挖掘目標12. 分析方法與過程12.1. 總體流程12.2. 具體步驟22.3. 結果分析183. 結論20參考文獻21第2貝泰迪杯大學生數據挖掘競賽論文報告wwwtqjdmorg1. 挖掘目標本次建模針對電商平臺上關于電熱水器的評論數據.釆用基于半監督RAE深度學習模型的數

9、據挖掘方法.達到以下兩個目標:1)利用半監督RAE模型對同一品牌電熱水器的評論進行情感分析.根據分析 結果得到用戶針對各屬性的滿意度.從而提煉出該產品的優勢和劣勢。分析 不同品牌電熱水器的評論數據.提煉出其差異化賣點。2)對不同電商平臺對應相同電熱水器的評論數據進行情感分析.根據分析結果 得出各個電商平臺服務的優勢與劣勢。2. 分析方法與過程21 總體流程評論文本預處理圖1總體流程圖 第1頁泰迪杯大學生數據挖掘競賽論文報告wwwtq)cimorg本用例主要包括以下幾個步驟:步驟一:爬取網絡評論數據.評論數據的獲取是本次數據挖掘分析的第一步。本 文中利用火車頭數據采集器,對評論文本進行抽取最后將

10、評論文本批量存進txt 文件中,得到實驗數據。步驟二:數據預處理.直接從網上爬啟的評論數據中往往不能直接分析需要進行 數據預處理。第一步要“去空、去重”;第二步對評論數據進行中文分詞,將一句 評論分成多個詞語進一步分析;第三步進行停用詞過濾.去除掉評論中與情感判 定不相關的詞。步驟三:文本矩陣轉化.使用基于半監督RAE深度學習模型進行情感分析.需 要將文本詞語全部轉換為詞向量.本論文中構建了一個詞表和詞向量表.詞表中 為全部文本詞語和詞語的編號,詞向量表中為全部詞語的詞向量。步驟四:情感分析.構建基于半監督RAE的深度學習模型.利用選岀的積極、 消極評論各占一半左右的數據集訓練情感分析模型.并

11、進行測試.得到符合要求 的模型。利用構建的模型分析得出評論數據的情感傾向。步驟五:屬性提取并統計.將所有提及到電熱水器的某些屬性的評論數據從實騎 數據集中篩選出來,統計各個屬性相關評論數據的積極評論和消極評論占該產品 的積極評論和消極評論的百分比。步驟六:結果分析.根據分析結果提取產品的差異化賣點或者每個電商平臺的競 爭優勢和劣勢.進而制定合適的營銷策略.22 具體步驟步驟一,爬取網絡評論數據隨著電子商務的迅速發展.網購的消費者越來越多.他們不再只是被動的獲 取網絡知識,而是可以通過網絡發表產品評論來分享自己的用戶體驗,而評論中 所包含的豐富信息,對企業管理具有重要的價值。通過數據挖掘等技術手

12、段實現 對客戶評論的智能分析.商家可以獲得客戶對產品的意見和態度獲取網絡評論 數據中的有價值的信息.做出相應的營銷策略和產品改進方案等。而網絡數據挖 掘分析的第一步就是爬取網絡評論數據。本次論文中采用火車頭數據采集器爬取網上評論數據.將批量的URL存放進采集隊列中.設置采集內容的規則.從評論網頁上爬取實驗需要的評論文本數 據.詳細步驟如下:1) 采集網址規則93%好訐 g% 中丹(4%>1愛評(E|我們首先采集美的F50-21W6的評論數據.打開它的評論頁面我們要采集的 評論共有6065條.分203頁顯示.如圖2所示:乂M創 *9 iBJXFHH 口 不0上門*他'<fl;

13、a r出広矽農髙八切全 MWACGOCS) 好耿5657) VR241) *VFU67)20102014 08r 宀 熱水HIP if 加終速廈快 很齊用 眼務不錨遏丨美的京東Bi號擰靈慎,這左崗朝製給方,肩電-M ®:21W6*列 I 漫揑) 版 本 期 RXBM: 201&6»16TT(O)回負(0)【鮮昭訃尬】1237| 203 J下艮圖2美的F50-21W6評論頁面為采集該商品的所有評論數據.這里采用批量網址采集.將203個網址導入進行數據采集.如圖3所示:第3頁泰迪杯大學生數據挖掘競賽論文報告wwwtydmorg添力吠始采#«扯石|可a|I單粲網

14、址批量/多頁|文本導入|Rss地如其它網址格珂地址格式:http:club. jd coa/review/858469-0- (*)-0. html (*)9尊差數2首項.項數!03公差1n補零倒斤v苓比數2笞項項數i公比2補零倒序V©字母變化u 到z (區分大小互 倒序添加3jhttp:/club. Jd. coB/review/858469-0-3-0. htali5http:/club. jd. coa/review/858469-0-4-0. htul http:/cJ.ub. Jd. con/review/858469-0-5-0. htul http:/club. jd.

15、 cob/review/858469-0-6-0. html=http:/club. jd. con/review/858469-0-7-0. htmlhttp:/cli】b. jd.色皆/858469-O203-0. him】V全部地址(從上面多種方式添加,一次怦加入起始地址,編輯請融益http:/club. jd. co»/revie»/858469-0-<0,1, 203,1, False, False>-0. i圖3批量網址采集規則設置2) 設置采集內容規則為了抽取出網頁中有用的網絡商業評論信息還需要對采集內容規則進行設 置。首先在京東網上打開美的F50

16、-21W6的評論頁面.可以看到在京東網上評論 的標簽為“心得”.接下來打開該頁面的源代碼.搜索到“心得”部分.可以發現它 的結構如下:<dl><爐心 得:</dt>vdd>不錯!性價比非常高! v/dd></dl>其中的“不錯!性價比非常高! ”就是我們想要的網絡商業評論文本。最后. 根據評論在HTML文檔中的結構分布,設置采集內容規則,如圖4所示標簽鐮鐳標簽名:內容y該標簽循環匹配該標筌在分頁中區 從網址中采童9文件下栽選項將相對地址補全為絕對地也下殺圖片探測文件頁冥地址但不下裁探測文件井下錢)誦討采集得到數抿©自定義回定格式的

17、數據提取數據萬式、。前后截匸正剛提耳可視化提;正文提取標簽纟E合所屋多丙默認頁 Q<dl><dt>心得:</dt>幕宇符</dl>(*)確定取消圖4釆集內容規則設置3)結果發布為了后續研究工作的方便本文選擇將采集到的網絡商業評論存儲在同一個 txt文件中,文件編碼為,TUTF-8".最終得到一個存儲全部評論文本的txt文件。 美的F50-21W6的評論示例如下:美的電熱水器質量不錯.價格比店里要便宜。物流給力機子不錯很好很好看也很實用.配送很快.安裝師傅人也很好的。頭天下單.第二天就到貨安裝好了.非常滿意本文實驗中:從京東上選擇了三個品

18、牌的電熱水器的評論數據進行抓取 美的F50-21W6.海爾EC5OO2-D、格蘭仕G50E302T.用于提煉不同品牌產品的 差異化賣點;從蘇寧易購上爬取了美的F50-21W6電熱水器的評論數據.用于比 較和京東電商平臺的服務特點。本次實驗數據見附件。步驟二,數據預處理與數據庫中的結構化數據相比.從網頁上爬取的數據屬于半結構化或者非結 構化數據.即具有有限的結構.或者根本就沒有結構,即使具有一些結構,也是 著重于格式,而非文檔內容,不同類型文檔的結構也不一致。此外.網頁數據缺 乏機器可理解的語義.而數據挖掘的對象局限于數據庫中的結構化數據.并利用 關系表格等存儲結構來發現有價值的信息,因此有些數

19、據挖掘技術并不適用于網 絡文本挖掘.即使可用也需要建立在對網絡文本數據進行預處理的基礎之上。如 果要對網絡評論數據進行情感分析.就必須先將文本數據進行預處理,轉化為結 構化的數據。該步驟中,從以下幾個方面對步驟一中從網頁上爬取的評論數據進 行預處理。1)法重”、“去空”對于存儲了全部網絡商業評論的txt文件.每行代表了一個評論文本但是難 免會岀現兩個完全一樣的文本和一些空行。所以本文首先進行了 “去重”、“去 空”的預處理工作。在導入評論文本時.同時進行了是否為空的判斷.只導入不為空的文本.從 而過濾掉了空白文本,“去空”的程序段如圖5所示:StreamReader sr = new Stre

20、amRcader("C:/Users/IBl/Desktopq 熱水劈故據丿 京東 /F50-21W6.txtf Encoding.UTFS);String line:while (line = snReadLineO) != null)if Hine ToStringQ != ,M,) 去擅空文本CommentsLi3t.Add<line.loStringO)J:丿圖5詵空”程序段將非空的評論文本導進List后,再進行去除重復處理.過濾掉重復的評論文本“去重啲程序段如圖6所示:第7頁泰迪杯大學生數據挖掘競賽論文報告wwwtqjdmorg2)中文分詞中文分詞(Chinese W

21、ord Segmentation)也可稱為中文切詞?指的是通過某種 特定的規則.將中文文本切分成一個一個單獨的詞本文使用NLPIR漢語分詞 系統(又名ICTCLAS 2015 )進行分詞它是中科院張華平博士主持開發的中文 漢語分詞工具.主要功能包括中文分詞;詞性標注;命名實體識別;用戶詞典功 能;支持GBK編碼、U1F8編碼、BIG5編碼。新增微博分詞、新詞發現與關鍵 詞提取功能。本文用到了在NLPIR官網上下載到的NLPntdll程序包.在 Microsoft Msual Studio 2012編程壞境中用C#高級語言程序對NLPIRdll C卄程序 包進行調用.實現對網絡商業評論文本進行批

22、量分詞處理和詞性標注。主要程序 段如圖7所示:(!NLPIR_InitCT: 1CTCLAS2015", 05 "")System.Console.WriteLmeCInitICTCLAS failed!"); return;elseSYStem.Console.WiiieLiiieCIniiICTCLAS success!h);Console .WriteLineO:System. Console. WriteLme("分詞處理中一");for (int i = 0; i < content.Count; i+*)zIntPt

23、r intPtr* XITIR_ParagraphPr ocess(coiitenti):String str = Marshal.PtrToStringAnsi(intPti);content_seg.Add(str)因7批量中文分詞程序段分詞結果示例:分詞前:物流快!服務好!物品嘉!分詞后:物流/n快/a ! Avt服務/v好/a ! /wt物品/n嘉/b ! /wt從上述結果可以看岀.本文己經將網絡商業評論文本切分成一個個的詞語. “/”后面是對應詞語的詞性標注(如:代表動詞,可對照中科院計算所漢語 詞性標記集).3)停用詞過濾評論文本在經過去重、去空、中文分詞后.并非所有的剩下的詞語都

24、可以作 為特征詞.里面還有一些包含的信息量很低甚至沒有信息量的詞語.需要將它們 過濾掉,否則將會影響下文的分析的正確率。在信息檢索中.為節省存儲空間和 提高搜索效率.在處理自然語言之前會自動過濾掉某些字或詞,這些字或詞即被 稱為Stop Words (停用詞)。本文采用了“詞性+停用詞表”的過濾方法。在上文己經提到了中文分詞后的 詞語還帶有詞性的標注.所以本文根據中科院(計算所漢語詞性標記集將上述 停用詞詞性都寫進StopworclPropsList里面.如圖8所示.然后對每個分詞后的 文本進行遍歷掃描,把對應詞性的詞語全部過濾掉。S topwordPropsLi s t.Add(!Tplf)

25、;StopwordPropsLi s t. Add(fFpba,!): L 把S topwordPropsLi 51. Add( ,fpbci11);亦初八連詞StopwordPropsList. Add(rcB);StopwordPropsList. Add(wCw);廠并列連詞<J圖8停用詞詞性列表(部分)為了把評論文本中包含的停用詞過濾干凈本文還利用了哈工大停用詞表 進行輔助過濾.在詞性過濾后再把文本中存在亍停用詞表的詞語過濾掉,進一步 過濾掉評論文本中的停用詞。停用詞過濾結果示例:分詞后:第一/m次/qv在/p蘇寧/nz易/ad購/vg購買/v/wd購買/v和/cc 售/v后/f

26、都/d很/d滿意/v/wd兀僅/c優惠/vn事/n/wd卜次/t 繼續/v合/v又/c省/n作/v停用詞過濾后:第一蘇寧易購購買購買售后都很滿意優惠事 下次繼續合省作經過上述步驟的數據預處理后.實驗數據的數量如下表1所示:表1預處理后的評論數據數量京東美的京東海爾京東格蘭仕蘇寧美的F50-21W6EC5002-DG50E302TF50-21W61381129316362775步驟三,文本矩陣轉化目前.在文本情感分析中,主要的研究方法還是基于機器學習的方法。如果 想利用機器學習的方法進行情感分析第一步就是要找一種方法將文本數據特征 符號數學化,將文本數據轉化為計算機可以識別的數字信息。最初的學者

27、利用傳 統的One-hot Representation的方式實現文本矩陣轉化.建立一個詞庫向最維度 等于詞表大小,某句文本評論中出現某個詞語,該詞語對應的維度的值為1不 出現則為0用這種方法建立的文本矩陣是一個維數較大且稀疏的向量矩陣.使 后面情感分析的計算量大大增加.且準確率不高。本文中是將詞語用一個口維實 數向量去表示,其基本的思想是通過訓練將語料中的詞語映射到n維實數向量. 這種詞語的表示方式優于Onehot Representation方法.11維向最不但包含了詞 語間的潛藏語義關系同時也避免了維數災難。Rona 11 Collobei t和Jason We ston 于2008年推

28、出SENNA系統,使用詞向量方法去完成自然語言處理中的各種 任務.例如.詞性標注、命名實體識別、短語識別、語義角色標注等。本文中也 利用詞向量的方法將文本數據轉化為結構化的向量矩陣,進一步進行情感分析。 1)向量化概述文本矩陣轉化的第一步就是詞向量化,顧名思義.詞向量化即用空間向量模 型表示各個詞語,進而提高計算機對自然語言的處理能力.詞向量具有良好的語 義特性.是表示詞語特征的常用方式。情感分析中把對文本內容的處理簡化成對 一定長度的向量的處理時.通常使用較低維度的空間向量來表示詞語的特征,避 免數據維數災難。詞向量中每一維的值代表一個具有一定的語義和語法上解釋的 特征。詞向量化后便可以將評

29、論的文本數據轉化向量矩陣了。通常情況下,我們將 詞語w映射到I】維空間向量,即wcRn, 一個文本或者句子中含有m個詞語,把 這m個1】維空間向量堆放在一起.就得到整個文本或句子的空間向量模型一 個詞向量矩陣LeRw例如給定句子c含有m個詞語,lVi Sn,、苦為句子C的空 間向星矩陣L中的第$列.即可肝四疋口除了第K個分量為其余分星均為0.將一個文本或者一句評論映射成一個詞向量矩陣后.即將中文文本數據轉化 成計算機可以識別的信息格式繼而利用基于遞歸自編碼的深度學習方法進行情感分析。2)文本矩陣轉化過程通過編寫程序產生隨機的向量詞表,每個詞對應一個唯一的詞標識號和詞向量.如圖9和圖10所示.例

30、如人識”的詞標號為3.在詞向量表中.列號為3 對應的列向量便是標識“學會”的詞向量。詞向量表生成后,通過掃描,將每句評論轉化成一個詞向量矩陣將中文文本數據轉化成數字數據計算機可以識別 的數據信息.進而進行文本情感分析。此步驟的詳細實現程序見附件。ocabubry.txt記棗本文件(卜)編輯化)怡式(O)色看(V)轄助(H)1(0) 要 退貨(3)認識(4)書寫(5)影子(6)明確(7)容量(8)大空 (11)大走(12)女喜(13)好事(14)螺紋(15)敬請(16)端端正正(17)正大自 (21)3 (22)540(23)2(24)1(25)0(26)7 (27)6(28) M 總賬 (29

31、)5(3(31)9(32)上崗(33)保證(34)8(35)549(36)愛理不理(37)=(38)1S18(41)觀(42)見(43)工人(44)筆記本(45)0 (46) J )覺(48)相交(生 (51)免得(52) Q (53)角(54) limes (55)不少(56) S (57)50L(58)裂開(61)公寓(62)大大(63)兩頭(64)觸(65)送貨(66)解(67)條例(68) j (71)w (72)欣喜(73)52.(74)501(75)如下(76) s (77)情愿(78)發音(121) 10-500(122)1800(123)180.(124)之潔(125)講解(1

32、31)不安(132)追蹤(133)譏荒(134)購物券(135)追問 (14DA字(142)術語(143)有時候(144)好使(145)計費 (151)掛鉤(152)柜收(153)故事(154)轉嫁(155)老年人 (161)最少(162)小姨子(163)金友(164)原則(165)掉價)地段(82)z (83)當年(84) x (85)不對(86)沖動(87)獨一無二(88): (91)GHF (92)18.5 (93)耐心 (94)長此以往(95)580 (96)萬歲(97)055338; (101)不容(102)敲詐(103)鉆空子(】04)昱苗(105)® 價(106)0.2

33、m (107: 仃11)心肛(112)信誓旦旦(113)習慣性(114)明示(115)測試(116)二十 (126)好久(127: (136)西(137)6 (146)疑蚩(147: (156)加熱(157: (166)被(167)彷(171)不起狼(172)外層(173)勇氣(174) ok (17!(181)車子(182)清清楚楚(183)無話可說(遷4)省事(185)9. 21(186)9. 22(201)訂購(202)形容(203)強悍(204)預先(205)天天(206)凌亂(207)(191)東大(192)超長(193)近乎(194)廠商(195)裸(196)農(197)反饋IH因

34、9詞表第11頁泰迪杯大學生數據挖掘競賽論文報告wwwtydmorg凸 Variable Editor - We2gFile Edit View Graphics Debug Desktop Window HelpX2八1n Stack: Base 國 No valid plots for . 田 CD 日(?!3B We2 <50x7651 double1234567891011-0.0472(0.02550.0059-0.04980.0498-0.01970.03270.0401-0.0401-0.00480J >20.03210.02740.04410.01910.02040.

35、02640.0470-0.01400.02030020330.01070.0132-0.04550.02340.02460.0429-0.0216-0.04060.01923.4490e.-o.C40.00650.00880.00920.0173-13339.0.03100.01930.02060.01320.0060o.<5-0.00780.0068-0.01640.02990.0144-0.03610.02000.00630.03580.0149-9.2660.02520.01050.00530.0448-0.0413-0.0121-0.01880.01320.0365-0.0209

36、-0.(70.03020.00650.00970.0462-0.02940.00910.03740.03260.03440.0497O.<8-0.00630.02050.04630.02180.02830.01730.00300.04370.03710.0223O.<1 9-0.0410-0.02160.03160.0331-0.01050.00760.0247-0.04910.0131-0.0101O.<in0.04970.04860.00500.01130.01450.0296001760.01850.02420.0476O.<n 0.01720.03820.003

37、60.01070.02730.04670.01470.02000.00150.03190.(1 ?0 09194 l-0 01490.0900OOAQQ.n.niQ?q.OXQn.ei"omr-n.n?7Qomz-6.(圖10詞向最表步驟四,情感分析情感分析自從2002年由BoPang提出之后,獲得了很大程度的關注,特別是 在在線評論的情感傾向性分析上獲得了很大的發展文本情感分類在情感分析研 究中占有舉足輕重的地位,在信息爆炸的21世紀.海量數據的情感分類研究吸 引了很多的研究者,如何深入學習文本的語義信息.準確表達語義特征.提高情 感分類的準確性是研究的目標。目前,情感分析的主要研

38、究方法還是一些基于機器學習的傳統算法,例如.SVM、信息炳、CRF等.機器學習的第一次浪潮是淺層學習.深度學習則是機 器學習的第二次發展浪潮。以往的情感分析主要是采用淺層學習.但是無法學習 文本語義信息.隨著技術的發展和科技的進步,人們的要求也隨之越來越髙。在 大數據的分析和處理上淺層學習存在的弊端導致情感分析遇到了瓶頸因此人們 將焦點轉移到了可以改善這一弊端的深度學習的研究。2003年Bengio等人提出 用神經網絡構建二元語言模型的方法;2006年.機器學習領域的泰斗,加拿大 多倫多大學教授Geoffrey Hinton和他的學生Riislan Salakhiitdinov在科學 上發表文

39、章,從此開啟了在學術界和工業界對深度學習的研究浪潮,他們提岀來 兩個觀點:其一.多隱層的人工神經網絡具備著優異的學習特征的能力.它學習 到的特征對樣本數擁有著更加本質的刻畫使其更加有利于圖像可視化或者文本 等的分類任務;其二.深度神經網絡在訓練的時候存在一定的難度.這些可通過 噫層初始化M (layer-wise pre-tiaiiiing)的方法來有效的克服掉.在文章中是采用 無監督學習來完成逐層初始化的工作的。2006年.Hinton等人基于深信度網絡 (DBN Deep Behef Nets)提出了非監督學習的貪心逐層訓練算法,給解決深層 結構中相關的優化難題帶來了希望.之后提出了多層自

40、動編碼器的深層結構。后 來.Lecun等人采用的是卷積神經網絡(CNNs ConvolutionalNeiiral Networks) 這是第一個真正具有多層結構的學習算法,它使用空間的相對關系來減少參數數 冃進而提高BP訓練性能。2011年.Socher提出基于遞歸自編碼器(Recursive AiitoEncoder, RAE)的樹回歸模型用來分析句子的情感傾向性.本文引用Socher 提岀的半監督RAE的深度學習模型進行情感分析。1)半監督RAE的情感分析模型概述a. 傳統的遞歸自編碼(簡稱RAE)傳統的遞歸自編碼(簡稱RAE)是自編碼方法的一個變種.它屬于深度學習 一種方法.近年來被S

41、ocher等人應用于情感分析領域.這種深度學習的方法是 多隱層的神經網絡結構.可以逐層分析,優化每一層學習得到的特征向量表示. 因此它抽取的文本特征向量可以更準確的表達語義信息.提高分類結果。自編碼的作用是學習輸入數據隱含的特定結構,傳統的自編碼會對輸入給定 一個樹結構.圖11表示的就是一個給定的遞歸自編碼的樹狀結構.此時假設我 們給出一個句子的詞向量的列表一(加),錯誤!未找到引用源上 一層節點以及二叉樹結構的輸入用一個包含一個父節點和兩個子節點的三元組 表示PF")。每個子節點可以是一個輸入字向量比或者是樹中的非終端節點。 以圖11為例.我們有以下三元組:(&T嚀4),&

42、#174;Ty円),(y3Ty2xJ).其中隱層 表示必須與詞向量入的維度相同。(0000) (oooojV2=f(W(,)x2;yi + b)CoooHoooo(wf)y3=f(W(1,x1;y2 + b)XX2OGOOyi=f(W(:,x3;x4 + b)X3 X4圖11遞歸白編碼的樹結構從這種樹狀圖中.我們可以計算父節點的表示。這第一個父節點向量人通 過子節點(22)"対4):(1)其中.丿帳於是參數矩陣是偏差.n為空間向量的維度。我們乘以J)詞+瀘)兩個并置子節點參數矩陣J 亡心錯誤!未找到引用源加入偏差項之后. 我們把每個結果帶入函數中如雙曲正弦中去評估所得到的向量.此外,

43、通過增加 重構層(因中空心部分)垂構該父節點的子節點的方式判斷得到的父親節點是否 能夠很好的表示子節點信息評估的方法之一就是如何更好的用n維向最表示為 了重構在重構層的子節點。= w(2)p + b(2)訓練過程中.目標是最小化重構子節點與原來的子節點之間的誤差.即重構 誤差。圖中矩形框中的部分是RAE方法中的一次迭代計算.在每次迭代中.采 用歐氏距離衡量衡量重構誤差.如公式所示1Erec%c"-2(3)至此.一個三元組的向量表示確定.而樹形結構中的其他三元組的計算也采第15貝泰迪杯大學牛.數據挖掘競賽論文報告wwwtqjdmorg用相同的計算方法,實質上,就是重復上述動作直至重構誤

44、差達到設定的閾值。b. 基于半監督RAE的深度學習模型傳統的RAE遞推自編碼是完全無監督和一般情況下多字詞組的語義捕捉, 他的一個缺點就是詞與詞之間沒有建立聯系。我們擴大傳統無監督RAE的應用 范圍到半監督RAE引入半監督RAE的機制.預測句子或者短語的情感分布。它的核心思想在于計算文章中的交叉墻誤差(cross-entropy eiTor)和重構誤差(reconstruction eiror) 在半監督RAE中.在每一個父節點上增加一個簡單的softinax層.輔助預測類分布:rd(p; 6) - soft max(wlabelP)(4)第#貝泰迪杯大學牛.數據挖掘競賽論文報告wwwtqjd

45、morg假設有K個情感標簽.是K維向量分布而且(如果只有兩類情 感分布:積極和消極,此時便是2位向量分布0,1或者1, 0)。圖12表示的-gjk 嗨 dk(p;&)就是一個半監督RAE過程,讓如成為多項指標標簽t中的第k個元素項.這 softmax層的輸出作為條件概率P(klh,c的表示,因此,交叉爛誤差是(5)Reconstruction error Cross-entropy error圖12半監督RAE的非終端樹節點半監督的RAE最終用下式表示語料庫中的每對(句子標簽):1XN (x,t)2E(x, t; 0) + 0(6)每個實體的誤差由貪婪RAE方法構造的二叉樹上的所有節點

46、的誤差的總和構成:sgT(RAE&(X)E(ci;C2s,Ps,t,&)每個非終端節點的誤差由它的重建誤差和交叉嫡誤差構成:E(k;CqL, Ps,t,"=應e&q;c2s;)+(l- «)EcE(Ps,t;0)(g)上式中的°為超參數,表示節點的重構誤差在總誤差中所占權重。使用這個模型時預測句子的情感分布時,利用樹的的頂節點的向量表示,并 訓練簡單的邏輯回歸分類器。2)情感分析過程a.構建半監督RAE的模型通過人工標記,得到積極、消極評論各占一半左右的數據集用于模型的構建. 將經過預處理和文本矩陣轉化的數據集作為輸入.通過以下步驟構建半監

47、督 RAE深度學習模型(本實驗中的訓練集和測試集是在模型訓練過程中按照分別 占60%和40%隨機分配的)。訓練模型:訓練數據集作為輸入.利用L-BFGs算法訓練模型.實現程序見 附件;么乙評價模型:將隨機生成的測試集用來測試上一步中構建的半監替RAE模型 并進行評價在情感分析研究中.常用的評價指標有準確率.召回率F值等.本文中采用的是準確率。本次建模的測試結果如圖13所示,用測試集測試 模型.達到了 85.13%的準確率;圖13模型測試結果情感分析:利用上一步中構建的半監督RAE深度學習模型.分析本次實驗 的實驗數據.分析得到每句評論的情感傾向性.結果如圖14所示:第k列 的情感標簽表示相應停

48、用詞過濾后的評論數據中第k行的評論的情感傾向 性,0表示消極1表示積極。京東美的F50-21W6、京東海爾EC5002-D、 京東格蘭仕G50E302T、蘇寧美的F50-21W6的評論情感分析結果分別存在圖14情感分析結果步驟五,屬性提取并統計本步驟主要是結合步驟三得到詞表和步驟四得到的情感分析結果.進行統 計.得到包含某屬性的評論數據中積極、消極評論所占的百分比。繼而分析用戶 對產品的某個屬性或者電商平臺的服務的滿意程度。1)根據步驟三中生成的詞表提取岀屬性相關詞并分類.結果如圖15所示.每 個屬性對應的是步驟三中的詞表中屬性相關詞的編號。前面11個是電熱水第19貝泰迪杯大學生數據挖掘競賽論

49、文報告wwwtq)cimorg器的屬性.后3個是電商平臺的服務質量的屬性。莊性及狽號.txt記審衣6 203 6 034733 10796 -22008853 S310?33399 5 501 3416417557444 保 格后耗熱流全肌料裝稅能全逹后 L 一昨S水蓋材安外性疾旳*2689 2458 2427 3972 39923288 2859 2192 2226 21313148 4259 5060 5654 61326531 4281 4531 4261 44664866 7399 6541 4360 45315654 5727 6850 4114453 4529 75854337 5

50、936 5921 7637 25754012 4283 4391 4399 4398 6399 6518 6: 4133 4393 4490 4549 4715 4730 4912 54(6539 74724520 4S37 5496 646945312867 4042 1088 4460 4597 4659 4051 4516152 41796007 6517 1867 437743432939 3854 4556 45654228 5093 5206 56914393 4549 4715 473071614645 5347 49124985 5146 5971 6503 73816277

51、6748 6748 76405467 3306 5519 5554 6468 6518文件(F)云58(E) Tfi式(O) SS(V) fffRtJ(H)第18貝泰迪杯大學生數據挖掘競賽論文報告wwwtq)cimorg第18貝泰迪杯大學生數據挖掘競賽論文報告wwwtq)cimorg圖15屬性相關詞提取結果2)利用程序遍歷.統計分析得出包含某個屬性相關詞的評論數據中的積極評論 與消極評論的數量.和各自占該商品的與該屬性相關的所有評論數量的比 重。具體實現程序見附件。23 結果分析將上述步驟五得到的結果進行以下幾個方面的詳細分析:1)同一電商平臺銷售的同一產品的不同屬性分析.提煉該商品的競爭優勢

52、與劣 勢,并提出產品改進方案。a.京東美的F50-21W6的各個屬性的積極百分比值比較結果如圖16所示,該電 熱水器最大的特點就是能耗較低.而對于美的公司來說.電熱水器的加熱和 控制方面需要進一步的技術改進.以更好的吸引消費者。第18貝泰迪杯大學牛.數據挖掘競賽論文報告wwwtqjdmorg圖16京東美的F50-21W6的各個屬性的積極百分比值b.京東海爾EC5OO2-D的各個屬性的積極百分比值比較結果如圖17所示海爾 的這款電熱水器能耗、價格、加熱等方面較有優勢,為了提高該產品的銷售 額.吸引更多消費者.海爾公司應該在產品的外觀和使用控制方面進一步的 改進。京東海 爾EC5002-D圖17京東海爾EC5OO2-D的各個屬性的積極百分比值c. 京東格蘭仕G50E302T的不同屬性的積極百分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論