




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
摘要:隨著信息技術的不不停進步和互聯網的普遍應用,作為新興的媒體形式的體育流媒體服務迅速崛起。用戶的在線評論不僅可以影響其他潛在用戶的選擇,還可以為服務運營商改善服務品質提供寶貴的信息。本文采用在線評論文本挖掘技術,首先對體育類app的在線評論進行了數據預處理,包括去重、分詞等操作。然后結合詞典法和支持向量機算法,對評論進行情感分類,以判斷用戶對服務的態度,最后利用NPS指標客觀地反映了用戶對體育流媒體服務的態度和喜好,為評估用戶滿意度提供了客觀依據。研究表明,體育流媒體服務的優化,應著重考慮用戶反饋和情感特征,以及服務特性與用戶需求的匹配度。研究不僅可以為流媒體服務平臺提供優化的戰略依據,而且對于其他在線服務供應商理解和提升用戶滿意度同樣具有參考價值。關鍵詞:在線評論;體育流媒體服務;用戶滿意度;情感分析1引言研究背景及研究意義信息技術和互聯網飛速發展的時代下,體育流媒體作為新媒體正逐漸成為人們日常生活的重要組成部分。隨著社會經濟的不斷發展,人們的物質生活得到了一定的保障和提高,對體育的關注度也是只增不減。傳統的電視媒體受限于時間和空間,而體育流媒體則通過互聯網技術實現了內容的即時傳播和全球范圍的觀看,極大地擴大了受眾群體。在大眾的監督和評價之下,體育流媒體平臺必須不斷吸取經驗教訓,改進自身的服務質量,以提高用戶滿意度。了解用戶的想法和建議對于提升服務質量至關重要。爬取在線評論是直接獲取用戶對平臺服務反饋和建議的最直接方法,收集的在線評論信息更加真實,能夠直觀地反映用戶的心理和對服務的滿意度。因此,分析和研究在線評論對于評估和改進體育流媒體服務的質量具有重要意義。隨著人工智能和大數據分析等技術的應用,為在線評論的分析提供了更多可能性。通過機器學習算法和自然語言處理技術,可以對大量的在線評論進行快速、準確的分析,發現用戶的偏好和需求,為服務提供商提供更有針對性的改進建議。因此,體育流媒體服務必須不斷地借助技術手段,對用戶的在線評論進行及時分析和反饋,以不斷完善自身的服務體系,提高用戶的滿意度和粘性。只有這樣,體育流媒體才能在巨大的科技浪潮中保持競爭力,贏得用戶的信賴和支持,為大眾提供更高質量的服務。國內外研究現狀劉冉等為了探究影響音樂流媒體服務滿意度的因素,以在線用戶評論為研究對象進行文本挖掘,對爬取的文本數據進行特征分析,利用LDA主題模型,通過可視化方法確定最優主題個數,通過IPA模型探究用戶對不同主題的關注度和滿意度[1]。汪夢欣以在線產品評論為數據來源,采用了情感分析技術訓練學習產品各個屬性評論的情感性,并采用了基于直覺模糊MARCOS的多屬性決策方法進行顧客滿意度評價,將產品的屬性作為評價指標,直覺模糊數形式的評論信息作為評價值。最后以新能源汽車為例進行顧客滿意度評價研究,驗證該方法的可行性和有效性[2]。趙文博通過八爪魚軟件獲取抖音平臺縣長直播助農活動的在線評論,首先整體性分析提取高頻詞,構建語料庫了解消費者關注方向。采用LDA聚類模型提取主題特征詞,總結十大主題維度。通過SnowNLP和情感詞典比較,選擇SnowNLP進行情感值量化,結合LDA聚類分析消費者關注點。將情感值轉化為五分制作為滿意度指標。基于SOR理論和扎根理論構建了縣長直播助農活動在線評論消費者滿意度概念模型,明確各維度因素對滿意度的具體影響機制,提出了從聚類主題和抽取情感到扎根建立消費者滿意度概念模型的框架,為通過在線評論了解滿意度提供新參考[3]。杜飛霞采用LDA對在線評論進行主題詞提取,通過篩選主題詞找到評論文本中的產品特征,發現用戶主要需求。利用情感詞典進行情感分析,通過依存句法技術提取特征-情感詞對,識別主觀句并進行情感傾向分析,得到不同需求對應的情感傾向。并基于Kano模型,以用戶滿意度和關注度對需求進行分類,區分為必備需求、期望需求、魅力需求和無差異需求[4]。王雪介紹了網絡爬蟲的進展情況,然后討論了網絡爬蟲架構,最后介紹了實現功能模塊設計、采集電影信息功能模塊設計、數據可視化處理等內容,以期為用戶了解網絡爬蟲機制、實現簡單的功能提供一定的參考。綜合驗證了方法的有效性[5]。郭麗等提出一種基于K-means和支持向量機的電網數據流量識別方法,基于半監督的K-means聚類算法對少量標記或大量未標記樣本數據進行預處理,然后生成未標記樣本的類別信息,最后基于支持向量機分類算法實現對電力通信網大規模流量數據的實時和準確分類[6]。陳寧結合CNA報文的結構特點,探究了基于特征、信息熵的異常檢測技術和基于支持向量機的異常檢測技術?;谔卣?、信息熵的異常檢測技術,將CANID作為特征,統計包含該特征的所有報文并計算信息熵。根據信息熵確立閾值標準,對比CAN總線報文的熵值是否在閾值范圍內,從而檢測是否存在異常[7]。賈少迪等人通過采集60名年輕吸煙者和與之在性別、受教育程度等方面相匹配的60名年輕非吸煙者的擴散張量成像數據中各向異性分數。方法使用基于纖維束的空間統計學分析方法和一種基于支持向量機的分類方法,在大腦白質50個區域對兩組被試在體素水平上對其分類預測,為檢測大腦的吸煙狀況以及在區分成癮患者和健康組之間提供生物標志物[8]??梢娧芯空邆冞\用文本挖掘、情感分析等技術深入分析了音樂流媒體、產品評論、酒店服務等領域的在線用戶評論。并通過TF-IDF、詞云、LDA,支持向量機等方法,成功挖掘了評論中的主題和用戶關注點,并對用戶滿意度進行量化評估。本選題數據采集、情感分析、主題提取、滿意度評價指標構建、數據分析與比較、用戶群體分析等步驟。最終的目標是為提升服務質量、優化用戶體驗提供指導,并為市場競爭、投資決策、學術研究和社會影響等方面做出貢獻。本選題將文本挖掘和情感分析技術應用于體育流媒體服務評價,旨在為優化用戶的娛樂體驗,提升平臺服務質量提供決策支持。2在線評論分析技術2.1情感分析方法情感分析又稱為意見挖掘,是一種自然語言處理技術,用于研究文本或者語音數據中表達者的情感傾向。在基于在線評論的體育流媒體服務滿意度研究中,情感分析方法用于分析體育流媒體服務用戶對其服務的情感態度。常見的方法包括字典匹配、機器學習方法、深度學習方法等。情感分析在基于在線評論的體育流媒體服務滿意度研究中發揮著至關重要的作用。在實際應用中,可以根據具體需求選擇合適的情感分析方法,以便于進一步提高體育流媒體服務的用戶滿意度。下面重點介紹本文所采用的分析方法。(1)詞典匹配法詞典匹配法是一種簡單有效的情感分析方法。這種情感分析方法通過建立情感詞典來確定文本的情感傾向,將每個單詞與情感極性(如積極、消極等)相匹配,然后再對其進行情感標注。具體來說,文本的情感傾向可以通過累積計算文本中出現的單詞,從情感詞典中單詞和單詞的情感極性評分中推導出來。(2)機器學習方法機器學習方法是基于數據模型的情感分析方法。這種方法通過訓練情感分類器來實現情感分析。訓練集通常由已經用情感傾向注釋的文本數據組成。在訓練階段,通過提取文本特征(如單詞頻率、詞性等)將其與注釋的情感傾向相匹配來訓練情感分類器。在實際應用中,先從需要分析的文本中提取相同的特征,然后使用訓練有素的分類器進行預測,從而確定文本的情感取向。2.2用戶滿意度量化用戶滿意度量化是基于在線評論的體育流媒體服務滿意度研究的一個重要方面。為了進行用戶滿意度的量化分析,需要采用一系列的方法和指標來評估用戶對體育流媒體服務的滿意程度。本文結合凈推薦值與四分圖法進行滿意度量化。(1)凈推薦值(nps),又稱凈促進者得分,是一種計量某個用戶將會向其他人推薦某個服務的可能指數。它是最流行的用戶忠誠度分析指標,專注于用戶口碑和服務成長的相關性。通過密切跟蹤凈推薦值,可以讓自己自己的服務或產品更加成功。
凈推薦值是推薦者所占的百分比減去批評者所占的百分比。即
凈推薦值(NPS)=(推薦者數/總樣本數)×100%-(貶損者數/總樣本數)×100%
根據愿意推薦的程度讓用戶在0-10之間來打分,然后你根據得分情況來建立客戶忠誠度的3個范圍:
①推薦者(得分在9-10之間):是興趣非常強的人,他們會繼續使用并且推薦給身邊有需要的人。
②被動者(得分在7-8之間):是一般滿意,將可能會選擇同類型競爭者的產品。
③批評者(得分在0-6之間):使用不滿意或者對你的產品沒什么好感,不會推薦。
NPS計算公式的邏輯是推薦者會繼續使用并且推薦給他人來加速你的成長,而批評者則能破壞你的名聲,并讓你在負面的口碑中阻止成長。NPS的得分值在50%以上被認為是不錯的。如果NPS的得分值在70-80%之間則證明服務擁有一批高忠誠度的好用戶。調查顯示大部分公司的NPS值還是在5-10%之間徘徊。(2)四分圖法(QuadrantAnalysis)是一種常用的數據分析技術,通常用于探索數據集中的模式、趨勢和關系。該方法將數據分成四個象限,每個象限代表了不同的情況或情境。通常這四個象限是基于兩個維度的正負方向。通過以上量化方法,可以全面客觀地評估用戶對體育流媒體服務的滿意度,了解用戶的需求和期望,并為提高體育流媒體服務的質量和用戶滿意度提供科學依據。3用戶滿意度評價指標
體育流媒體服務的用戶滿意度評估是衡量服務質量和有效性的重要指標之一。用戶滿意度的評估指標可以從多個角度進行考慮和分析。(1)用戶的觀看體驗。體育流媒體服務的目的是為用戶提供高質量的體育賽事直播和相關媒體內容。因此,用戶對直播的畫質、聲音效果、流暢度等等一系列觀看體驗的滿意度是衡量體育流媒體服務的重要指標之一。我們可以通過用戶的觀看體驗評估指標來了解用戶對服務質量的滿意度。例如,通過觀察用戶對圖片清晰度的評估指數來查看該服務是否提供高清實時直播。(2)用戶對體育流媒體服務的內容選擇和個性化推薦的滿意度。體育流媒體服務通常會根據用戶的興趣和喜好向用戶推薦相關的體育賽事或相關媒體內容。用戶對這些建議是否符合他們的興趣和期望的滿意度可以反映個性化推薦算法的有效性和準確性。例如,用戶對推薦給他們的比賽的關注就可以作為評估指標之一。高關注度意味著他們對推薦的內容感到滿意,而低關注度可能意味著需要進一步優化推薦算法。(3)用戶對服務穩定性和可靠性的滿意度。體育流媒體服務通常需要確保在高并發的情況下,用戶可以正常觀看直播和觀看相關內容,而不會出現干擾和斷開連接等問題。因此,通過觀察用戶的評估指標來衡量用戶對服務穩定性和可靠性的滿意度,以確定是否存在卡頓或斷開連接。(4)用戶對體育流媒體服務的交互式體驗和用戶界面設計的滿意度。體育流媒體服務通常為用戶提供用戶界面,用戶可以觀看直播,搜索活動,查看相關新聞和其他操作。用戶對這些操作的便利性和界面的美學將直接影響用戶對服務的滿意度。因此,通過觀察用戶界面的可用性評估指數來衡量用戶對交互式體驗和界面設計的滿意度。用戶滿意度評估指標的考慮因素涵蓋了用戶的觀看體驗、內容選擇和個性化推薦、服務穩定性和可靠性,以及交互式體驗和界面設計。通過對這些指標的詳細分析和評估,可以了解用戶對體育流媒體服務的滿意度,并幫助提務質量和用戶體驗。4體育流媒體服務滿意度分析4.1數據采集本文使用Python編程語言網絡爬蟲模塊,通過訪問體育流媒體服務平臺的評論頁面和appstore的用戶評論,自動獲取大量用戶評論數據。通過模擬用戶瀏覽器的行為,爬取不同頁面上的評論,并將其保存為csv文件。共爬取了6002條評論以及評分,數據形式如圖1所示。其中包括重復的,廣告等無效評論。圖1爬取的初始數據樣例4.2數據處理為了滿足分析要求,需要對數據進行預處理,以便后期詞頻統計和建模分析。過程包括:(1)數據清洗:為了提高評論的有效性和準確性,必須首先刪除惡意評論和開發人員刷單評論。對于重復的評論,只保留一個有效評論并刪除重復部分。與此同時,過濾掉一些包含特殊字符或廣告信息的無效評論。如圖2所示。圖2去重后的數據樣例(2)刪除停用詞:刪除一些常用的停用詞,如“是”、“這個”等。這些單詞對后續分析沒有太大幫助,且會增加計算負擔,并在情感分析詞典中占據一定的分量,(3)分詞:對于中文評論,可以使用中文分詞技術進行處理。本文選擇的中文分詞工具jieba,通過正向最大匹配或逆向最大匹配算法,從左到右或從右到左地遍歷待分詞的文本,每次取最長的匹配詞語進行分詞。這種方法可以在一定程度上提高分詞的準確性。jieba還引入了隱馬爾可夫模型(HiddenMarkovModel,HMM),用于處理未登錄詞或歧義詞,通過統計相鄰詞語之間的轉移概率和發射概率,對分詞結果進行調整。分析結果如圖3所示。圖3分詞后的數據樣例(4)詞性標注:本文通過詞典法進行標注,由于已經爬取了評分,在標注是大于3分記為積極情緒的標為pos,低于3分記為負面情緒的標為neg,以便后期情感分析。標注結果如圖4所示。圖4情感標注后的文本(5)數據存儲:將預處理的注釋數據存儲在數據庫中,以便于進行后續數據分析和建模。4.3模型構建本文基于支持向量機模型對文本數據進行消極,積極以及中立的情感詞分類。支持向量機(SupportVectorMachine,SVM)是一種常用于分類和回歸的監督學習模型。其核心思想是通過尋找一個最優的超平面,將不同類別的數據點分開,并使得兩側距離最近的數據點到超平面的距離最大化,從而實現最大間隔分類器。在線性可分的情況下,SVM的目標是最小化間隔,其原始優化問題可以通過拉格朗日乘子法轉化為對偶問題,并利用核技巧處理非線性可分的情況。支持向量機通過最大化間隔和利用支持向量,實現了對數據的有效分類,具有較強的泛化能力。算法實現如下:首先使用TF-IDF進行特征提取,將文本數據轉換為TF-IDF特征向量。TF-IDF是一種常用的文本特征表示方法,用于衡量一個詞對于文檔的重要程度,根據預定義的情感詞典,對評論進行情感標記。然后根據評論中出現的積極詞語和消極詞語的數量,決定評論的情感標簽是正面還是負面。再使用train_test_split函數將數據集劃分為訓練集和測試集,其中用20%的文本數據作為訓練集,以便模型訓練和評估,其準確率達到0.849816。依據公式:TF-IDF(t,d)=TF(t,d)×IDF(t)其中,TF(t,b)TF(t,d)表示詞語t在文檔d中的詞頻(TermFrequency),IDF(t)表示詞語t的逆文檔頻率(InverseDocumentFrequency)。由決策函數判定:f(x)=sign(w*x+b)f(x)=sign(w*x+b)其中,w是法向量,b是截距。對于一個新的數據點x,如果f(x)>0則預測為正類,否則預測為負類。對分類后的正面和負面評價集計算單詞頻率,建立每個單詞與其情感極性之間的映射關系(如圖5)。其中pos為積極正面評價,pos為消極負面評價。圖5單詞與情感的對應4.4滿意度量化(1)在完成模型的構建后,選用nps算法對用戶的滿意度進行計算:NetPromoterScore(NPS)是用于衡量客戶忠誠度和滿意度的指標。它的計算方法是通過將推薦者(高度可能推薦產品或服務的客戶)的百分比減去批評者(不太可能推薦產品或服務的客戶)的百分比。計算NPS的公式為:NPS=%推薦者?%批評者具體來說,檢查每個詞語是否屬于積極情緒詞語列表或消極情緒詞語列表,然后根據檢查結果為每個詞語分配情緒類別,包括積極、消極和中立。如圖6所示,橫坐標為最高頻率詞,縱坐標為出現次數,將nps計算結果可視化。圖6評論中頻次較高的詞語圖6中出現例如“廣告“,”閃退“,”內容“等對app的評價,根據詞頻將用戶對app的評論大致分為兩類,如表1所示。表1出現頻率最高的前十詞匯表分類依據評論詞使用感受閃退、更新、廣告、會員內容質量垃圾、惡心(2)四分圖:通過調用calculate_sentiment_scores函數,計算了每個主題下評論數據的情感得分。使用Matplotlib(輸出情感得分)繪制一個綜合的四分圖,分別展示每個主題下評論數據的情感得分的分布情況,以及每個主題中情感的整體傾向。四分圖的呈現,將量化的滿意度可視化,更直觀的感受到用戶的態度,紅色圖像代表被打上負面情感標注的用戶,綠色則是積極的,對比得出對服務滿意度不高。圖7情感分析象限圖(極性)在綜合評價中,使用了VADER情感分析器的'compound'(VADER是一種用于情感分析的工具,通過計算文本中每個單詞的情感得分來評估文本的整體情感傾向。VADER將情感分為積極、消極和中性三個維度,并為文本中的每個單詞分配一個情感得分,VADER會根據情感詞的得分和文本中的語法結構、否定詞、程度副詞等因素,對每個情感詞的得分進行調整和加權,然后計算歸一化的加權和作為文本的compound得分,其文本數據的情感分數分布見四分圖8。橫坐標表示情感分數(SentimentScore),該分數表示文本在情感極性上的傾向性,范圍通常在0到1之間,0表示負面情緒,1表示正面情緒??v坐標表示頻率(Frequency),表示對應情感分數的文本數量。由圖所示,評分為負面的人數約1750人,表示對流媒體服務的強烈不滿。圖8VADER評分(3)LDA與VADER相結合。LatentDirichletAllocation(LDA)是一種用于主題建模的概率生成模型,常用于分析文本數據。LDA假設文檔的生成過程是一個多重過程,首先選擇文檔的主題分布,然后為每個詞選擇一個主題,最后根據選擇的主題生成詞匯。通過將文檔表示為主題的分布和將主題表示為詞匯的分布,LDA能夠幫助我們理解文本數據中的主題關系,進行主題分析和文本挖掘。具體來說,LDA通過使用了貝葉斯方法和概率分布來描述文檔生成的過程。在LDA中,文檔、主題和詞匯之間的關系被建模為概率分布。參數估計通常使用EM算法或變分推斷等方法來實現。LDA模型的訓練和推斷過程通常通過計算和優化模型的似然函數來進行。本文首先利用CountVectorizer將文本數據轉換為詞袋向量,然后使用LatentDirichletAllocation(LDA)進行主題建模。提取每個文本的主題并添加到DataFrame中,按照不同主題對評論進行分類,并利用NLTK中的VADER情感分析器計算每個主題下評論數據的情感得分。同時,提取CountVectorizer中的單詞列表,并獲取每個主題的前十個關鍵詞,以進一步了解主題內容。利用主題建模和情感分析技術,結合詞頻統計和可視化方法,深入分析文本數據的主題內容和用戶情感反饋。主題抓取,見圖9選取了“會員”,“閃退”等詞。從圖10中看出,如關于主題一(藍色部分),在-0.75的情感分數附近有一個小小的峰值,表示可能有一些略微負面的情緒表達,而大部分集中在0附近,還有少量在0.75,說明大部分是中立或積極情緒,總體情緒傾向是明顯正面的。圖9LDA主題提取詞圖10綜合情感分析圖5總結與展望5.1分析與建議本文通過分析用戶對體育流媒體服務評論的文本挖掘與情感分析,獲得了以下結論:(1)從nps滿意度量化結果可見,用戶對流媒體平臺滿意度很低,甚至最后算出的結果是負的,說明用戶已經不推薦這些服務。(2)通過對其情感評分以及主題提取,可以看出大部分用戶對服務不滿意的關鍵在于平臺廣告和閃退等原因。(3)會員廣告等詞匯在評論中出現次數過多,說明體育流媒體服務商業化嚴重。對體育流媒體服務評論不可以刀切,仍有可取之處如對內容的好評層出不窮說明服務內容豐富,得到用戶認可的服務涵蓋了豐富的體育賽事直播、賽事回放、新聞報道等。認為這些內容
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 足球協議合作協議書
- 起訴履行諒解協議書
- 鄰居房屋修繕協議書
- 酒店直營轉讓協議書
- 設備安裝使用協議書
- 道路保潔人員協議書
- 門店合作銷售協議書
- 業務員推廣合同協議書
- 超市顧問聘用協議書
- 鏈家賣方委托協議書
- 2021年上海市高考英語試卷(春考)(解析卷)
- 大數據平臺建設及運營合作協議書
- 工程車駕駛員安全培訓
- 跨國公司經營與管理課件
- 《水滸傳演講》課件
- 《中國政法大學》課件
- 《湯姆索亞歷險記》測試題(含答案)
- MySQL數據庫設計與應用知到智慧樹章節測試課后答案2024年秋昆明理工大學
- 《“珍牡腎骨膠囊”對維持性血透患者鈣磷代謝紊亂的影響》
- 工廠實驗室規劃和建設
- 2025年國家保密基本知識考試題庫及答案
評論
0/150
提交評論