《基于商品屬性和用戶評價數據的筆記本產品電商競品分析》5700字_第1頁
《基于商品屬性和用戶評價數據的筆記本產品電商競品分析》5700字_第2頁
《基于商品屬性和用戶評價數據的筆記本產品電商競品分析》5700字_第3頁
《基于商品屬性和用戶評價數據的筆記本產品電商競品分析》5700字_第4頁
《基于商品屬性和用戶評價數據的筆記本產品電商競品分析》5700字_第5頁
已閱讀5頁,還剩9頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

0基于商品屬性和用戶評價數據的筆記本產品電商競品分析[摘要] 1[關鍵詞] 1引言 11緒論 11.1研究背景 11.2研究意義 21.3國內外現狀 21.3.1國外現狀 21.3.2國內現狀 32相關理論的概述 32.1網絡爬蟲 32.2文本挖掘 43基于京東筆記本用戶評價與購買量等分析 43.1京東筆記本用戶評價 43.1.1數據采集 43.1.2數據的預處理 53.2商品分析 73.2.1戴爾G7 73.2.2聯想T490s 94總結與建議 114.1總結評價 114.2政策建議 11參考文獻: 12附錄A 13[摘要]互聯網數據大爆炸的時代,消費群體在電商平臺上留下了數不清的“足跡”,本文通過簡單的爬取用戶評論的數據,做一些簡單的分析和推斷,旨在能夠給廣大用戶在購買筆記本的時候有所參考,也可以讓商家知道自己應該往哪些方向出力。[關鍵詞];文本挖掘、用戶評價、商品屬性、電子商務引言在現如今網上購物,如此便捷的時代,人們對于線下購物的需求在慢慢減少,用戶們在平臺上留下了海量的用戶“足跡”,其中用戶評價又有著不一樣的作用,它不僅可以給商家明確的反饋自家商品的不足,還能更好的了解競爭對手的商品,以此來改進和發展自家的產品。對于用戶來說呢,通過其他用戶的直觀評價,能更好的讓消費群體了解產品的其它特性,以此來決定是否要購買。1緒論1.1研究背景在互聯網大數據的時代,用戶評價的文本數據呈現爆發式的增長。如何通過海量的、雜亂無章的數據抓取出具有價值的信息,可以找出并深入分析其與相關問題及各項屬性之間的深入關聯。在這些海量的用戶評價數據中,電商領域的用戶評價數據也逐漸增多。通過對用戶評論進行挖掘,并通過分詞、比較,可以很直觀的通過用戶評價,了解到商品的實際表現力如何,能更好的為消費群體購買提供建議1.2研究意義通過分析京東電商上筆記本電腦的瀏覽量、購買量、收藏量等與用戶評價的文本數據,尋找消費者在京東商城選購不同品牌的筆記電腦時,最直觀的關注熱點及看法,以便從海量的用戶評價中挖掘出有價值的信息,對于筆記本電腦制造商而言,可以通過用戶群體的角度發現自身產品以及配套服務設施的優點與缺點,這對于改進產品方向和提高配套服務上具有一定的參考意義與價值;另一方面,通過分析不同筆記本電腦品牌的用戶評價數據,挖掘出不同品牌的筆記本電腦的側重點所在,這對于即將購買筆記本電腦的潛在消費群體具有一定的參考意義與價值。1.3國內外現狀通過分析用戶在電商平臺上留下的的評價數據,找出消費群體的對于各個品牌筆記本電腦的看法,并通過對比各個品牌筆記本電腦之間各項商品屬性的差異,提高消費群體對商品、商家對消費群體的了解,同時也為商家吸引潛在消費軀體提供了一些參考。深入研究各個品牌筆記本電腦的瀏覽量、購買量、收藏量等與用戶評價之間的相關聯系目前對于用戶評價數據的采集是文本挖掘領域中的重要研究方向之一。近些年,隨著網購成交量的逐年遞增,人們對用戶評價的文本數據日益上心,國內外的研究人員在這方面進行了大量的研究和探索,想方設法從這些海量的、雜亂無章的網絡用戶評價數據中發現更多具有研究價值的信息,并加以利用和分析用戶的評價數據,通過觀察和比較各個商品之間的評價量、評價文本、購買量等來提高消費群體對商品的認知,幫助提高商家對消費群體的了解程度。因此,在這方面的研究,目前已經在多個領域得到了發展,包括影視業、服務業、金融業、電子商務以及網絡社交平臺等領域。1.3.1國外現狀 關于國外的相關研究,CharuC[]等(2012)提供了關于文本采集問題的詳細調查,研究了文本挖掘問題的關鍵挑戰,討論了用于文本挖掘的關鍵方法及其相對優勢,并在社交媒體和鏈接數據的背景下討論了該領域的一些最新進展。Tarique[](2014)提出了一種文本挖掘框架,可以應用于網絡評論的抓取和分析,國外的研究起步很早,并且在2014年就已經開始對網絡評價數據的研究,而國內要相對晚一些。1.3.2國內現狀對于國內的相關研究起步較晚,張娜等(2019)[]首先爬取了社交媒體相關的用戶評論,接著完成數據清洗、文本預處理、分詞以及停用詞去除的相關處理工作,然后建立了基于貝葉斯相關原理的文本挖掘模型,完成對用戶評論觀點的挖掘,計算出了相應的感情值。劉玉林等(2018)[]通過建立用戶的情感指數,完成了天貓網站的碧根果用戶評論的數據挖掘工作,研究發現,通過對消費群體在線評論的挖掘和分析,通過比較商品的購買量、瀏覽量、收藏量、評價量,能夠很好地了解商品的購買量與用戶評價量的關系,分析銷售靠前的產品,找出銷售好的產品是不是用戶的評價零更加活躍積極。從上述文獻研究現狀可以看出,隨著電子商務的迅速發展,用戶在網購時留下的在線評論數據量也越來越龐大,國內外“慕名而來”的相關學者越來越多,他們都對這方面做了比較深入的研究。然而對于不同領域的用戶評論文本,找到適合自己研究內容與目標才是最重要的,本文根據研究的內容與目的,選取了合適的主題提取算法,將其應用到了電商平臺筆記本電腦的相關領域。2相關理論的概述2.1網絡爬蟲網絡爬蟲,即WebSpider,是通過一定的操作手段從網上爬取自己需要的數據集,根據網頁的鏈接地址來檢索符合條件的相關網頁。從一個首頁開始,采集網頁內源碼,檢索出網頁內存在的其它鏈接;之后再依據這些地址去檢索下個網頁,一直循環下去,直至爬取完網站中全部的網頁。本文使用的是Spyder軟件進行商品文本評論的爬取[],在這里簡單說一下Spyder進行網絡爬蟲的工作原理:首先從初始的URL開始,Scheduler會把它交給Downloader進行下載,下載完成之后再交給Spider進行分析,并通過正則表達式來匹配,Spider分析的結果會出現兩種情況:一種是需要進一步抓取的鏈接,比如之前分析的“下一頁”的鏈接,它們會被傳回到Scheduler中;另一種是需要保存的數據,將會被送到ItemPipeline,它能夠對數據進行后期處理2.2文本挖掘文本挖掘是從文本數據中獲取有研究價值的信息和知識的方法,文本挖掘是數據挖掘中的一種方法。文本挖掘中最重要最基本的應用是實現文本的分類和聚類,前者是有監督的挖掘算法,后者是無監督的挖掘算法。文本挖掘在實際生活工作中可以進行文本分類、文本聚類、信息檢索、信息抽取等文本挖掘是一個多學科相互融合的領域,涵蓋了多種技術,包括數據挖掘技術、信息抽取、信息檢索,機器學習、自然語言處理、計算語言學、統計數據分析、線性幾何、概率理論甚至還有圖論。圖1網絡爬蟲結構3基于京東筆記本用戶評價與購買量等分析3.1京東筆記本用戶評價3.1.1數據采集通過在京東商城以銷售額為篩選條件,爬取了2020年5月-2021年5月京東商城銷量前100的筆記本電腦的相關屬性數據,通過查閱相關文章把筆記本電腦價格分為三個區間[0,3000]、[3000,6000]、[6000,+∞],并按照這個價格區間將各品牌筆記本電腦相關屬性展現出來。表1各價位筆記本電腦屬性[0,3000](元)[3000,6000](元)[6000,+∞](元)商品屬性Inteli3、i5無顯卡、集成顯卡、14寸、1.9~2.7kg4~6gb內存、128gb~512gb固態、無機械硬盤Inteli5、i72gb、4gb獨立顯卡13.3~15.6寸、1.4kg~2.8kg8gb內存、128gb~512gb固態500gb~1T機械硬盤Inteli5、i74gb、8gb獨立顯卡13.3~15.6寸、1.4kg~2.8kg16gb內存、512gb~1T固態500gb~1T機械硬盤通過表1不難看出,價格在3000元以下的是沒有獨立顯卡的,而購買3000到6000元價位的筆記本電腦是性價比最高的,因為它的性能能流暢的體驗各種日常生活了,但日常生活中想要極致體驗、玩大型3A大作和需要經常使用高性能軟件的話,還是考慮購買6000元以上的筆記本電腦。通過比較各品牌筆記本數據,最終爬取了戴爾G7和聯想T490s的用戶評價數據,這兩款筆記本電腦是當下熱銷的品牌,且價格分別在[6000,+∞]、[3000,6000](元),對于廣大消費群體來說更具性價比,我們使用Spyder軟件分別對這兩個品牌的用戶評論內容進行爬取。其中,一共爬取到2253條評論數據,爬取的數據經過簡單的處理,把不需要的信息剔除掉,并保存在txt文檔中備用。部分數據如下。完整數據在附件。表2部分原始數據評價類型評價內容好評可以正常使用,暫時沒有發現質量問題。整體感覺不錯!好評五一下單的,當天晚上就送到手里了,京東快遞還是一如既往的快,目前用了幾天感覺還可以,價格也算適中,買來辦公用的,還算比較流暢的,再用用看希望不卡不發熱3.1.2數據的預處理用戶評價的文本數據中,包含著各種各樣的信息,有的評論內容對文本分析來講,利用價值微乎其微,因此,在正式進入分析工作之前,首先是要對評論內容進行數據清洗,包括文本去重、壓縮去詞、短句刪除。文本去重就是將用戶評論中重讀出現的給刪除掉。壓縮去詞是把評論中連續重復表達的詞語進行剔除,比如像“很好很好很好”“值得推薦值得推薦”可以壓縮成“很好”“值得推薦”。經過處理后會出現很多無意義語句,需要進一步做短句刪除工作。短句刪除是把評論語句長度很短的進行刪除,例如“質量OK”“蠻不錯”“棒棒噠”等,這些短的語句表達的意思含糊不清,利用價值不大,將其刪除后會清洗掉很多沒有利用價值的評論語句。處理結果如下表1所示:表3品牌電腦評論數據清洗結果爬取數量文本去重短劇刪除合計聯想T490s12051188161172戴爾G710351021131008數據清洗工作完成后,接下來對用戶評論進行中文分詞、去停用詞等過程。這一過程是利用Spyder軟件調用“jieba”分詞包實現,部分分詞結果如圖1所示:圖2戴爾(左)聯想(右)的評論數據分詞結果從圖1分詞圖可以看出,存在很多像“的”、“了”、“呢”這類沒有實際價值的語氣詞,在分詞結果中還通常會出現“但是”、“然而”這類的轉折詞,又比如是一些特殊的字母、符號,這些都統稱為停用詞。現在需要將停用詞刪除掉,本文采用的是哈工大、川大合成的停用詞典,去除停用詞后的結果如圖3所示:圖3戴爾(左)聯想(右)的評論數據去除停用詞結果3.2商品分析3.2.1戴爾G7(1)收藏量、購買量等分析 圖4購買量、收藏量等折線圖通過觀察折線圖,我們可以看到2月份、3月份的購買量、收藏量、瀏覽量、評價量都有很明顯的上升、這是因為2月份有京東年貨節,3月份是開學季,在這些時間節點商家和平臺會有大量的現金紅包抵用券,所以2月份、3月份的購買量、收藏量、瀏覽量、評價量都遠高于于1月份和4月份。(2)好、中、差評分析圖5戴爾G7好、中、差評圖總共爬取了1183條評論,戴爾G7的好評率為84.5%,中評率為5.5%,差評率為10%,沒有到達90%的好評率,還有待提高,通過分析差評集和中評集,我們可以知道,客服的服務態度差,沒有相應的專業知識導致一部分消費群體給了差評和中評,還有一部分是因為物品在運輸過程中受到了破壞,還有一小部分是因為系統自帶的office激活不成功,而導致了差評,這就提醒了商家,要提升客服服務態度和一些專業知識的儲備,當客服的服務態度提高了,有了一定專業的知識儲備,在給消費者群體解答的時候,才能更加從容,也能夠給消費者群體帶來更好的售前體驗。(3)詞云圖分析 圖6戴爾G7詞云圖通過生戴爾G7的評論詞云圖,可以直觀的看到,戴爾G7在消費者眼中有著很不錯的評價,諸如“速度”、“輕薄”、“不錯”之類的,總的來說戴爾G是一款有顏值,有特色的筆記本電腦3.2.2聯想T490s(1)收藏量、購買量等分析。圖7購買量、收藏量等折線圖通過觀察折線圖,我們可以看到2月份、3月份的購買量、收藏量、瀏覽量、評價量都有很明顯的上升、這是因為2月份有京東年貨節,3月份是開學季,在這些時間節點商家和平臺會有大量的現金紅包抵用券。所以,2月份,3月份的購買量、收藏量、瀏覽量、評價量都遠高于于1月份和4月份的。(2)好、中、差評分析圖8聯想t490s好、中、茶評總共爬取了1052條評論,聯想T490s的好評率為95%,中評率為2%,差評率為3%,好評率超過了90%的好評率,是很好的,通過分析差評集和中評集,我們可以知道還存在物流不能及時送達消費者手上,同時也存在一小部分商品,在運輸過程中出現破損的現象。這就需要商家能及時的處理,同時也應該加強跟物流公司的溝通,爭取快遞包裹能按時的送到消費者手中。(3)詞云圖分析圖9聯想t490s詞云圖通過生成聯想T490s的評論詞云圖,我們可以直觀的看到消費者對它有很高的評價,“好評”、“散熱”、“輕薄”等,聯想T490s是一款值得購買的筆記本電腦。3.2.3兩個商品的對比分析表4相關信息對比表好評率價格好評詞差評詞戴爾G784%7099(元)物流快、性能強打游戲順暢客服服務差聯想T490s95%5999(元)輕薄、散熱快、客服態度好物流慢圖10戴爾G7和聯想T490s好、中、差評對比圖圖11戴爾、聯想購買量等比較圖通過分析表中的數據,要是對大型3A大作沒有最求的話,我推薦購買聯想T490s,因為其優惠的價格,極高的好評率,優質的性能、輕薄等這些都是我推薦購買它的i理由。而要是對大型3A大作有需求,且喜歡個性有顏值的筆記本的話,極其推薦購買戴爾G7,戴爾G7富有特色的外觀還是很值得期待的。4總結與建議4.1總結評價隨著“互聯網+”時代的到來,電子商務得到了長足的發展,同時在電商平臺上,每時每刻都有海量的用戶評價數據產生。定期對各個商品的用戶評價做分析,能夠有效的了解產品存在哪些不足,同時也為后續發展方向提供了一定的參考依據,也能讓自己本身更加了解競爭對手的產品好在哪,不好在哪,以此來改進自身。為生產商不斷提高商品質量滿足用戶需求提供可行性意見。4.2政策建議針對京東等電商平臺,電子商務總部企業集聚度不高的短板,出臺相應的鼓勵政策,作為電子商務重大項目加以推進。重點引進能夠強力帶動產業升級或擴大市場銷售的B2C、B2B行業龍頭企業。同時加大對電子商務獨角獸企業支持和服務、強化對在專業領域有發展潛力的電子商務龍頭企業[]、大型電子商務應用企業的扶持力度,營造以龍頭企業為核心的電子商務生態圈,發揮其引領和帶動作用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論