




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
摘要:伴隨互聯網技術普及與短視頻行業發展,不斷有用戶涌入各類網絡視頻創作平臺,既為網絡信息爆炸式增長貢獻力量又試圖從中獲取所需信息。本文通過網絡爬蟲技術獲取某關鍵詞下推送內容評論區內容相關數據,利用數據處理與可視化技術開展主要關注點、情感分析等工作,探究大眾對有關內容的態度,實現大數據有關技術在體育行業應用新方向。關鍵詞:中長跑;數據;分析;可視化;技術;引論研究背景中考體育作為一項貼合我國國情實際需要,由我國提出的深化體教融合的社會工程,對推動我國青少年學子文化學習與體育鍛煉協調發展具有重要指導意義。新課程改革背景下的體育與健康課程以發展學生核心素養和增進學生身心健康為主要目的,要求學生學會相應必備的健康與安全的知識與技能,積極參與體育鍛煉,掌握與應用體能和運動技能;與之對應的是在體育中考中要體現對學生運動能力、健康行為、體育品德等方面的考核,然而在實際政策推行過程中難免存在橫向評價維度片面問題,單一考核標準難以界定學生參與體育活動深度;鑒于場地限制與偏重“身體素質”的考核評價,學校體育課程大部分精力耗費在枯燥的身體素質訓練上而忽視運動技能及技巧的訓練。伴隨現代社會互聯網普及,越來越多人選擇通過互聯網及衍生流媒體平臺獲取信息[1]。如此龐大的群體涌入互聯網平臺對應的產生供需市場,面對群眾獲取各類信息的需求,越來越多博主活躍于各大視頻創作社區或流媒體平臺自行創作分享內容。以嗶哩嗶哩這一PUGC社區為例,截至2023年第三季度數據顯示,該網站日均活躍用戶為1.03億人。對于體育中考項目訓練安排,學生及家長往往更傾向于選擇練習時間較短、成效更為顯著的方式。學者從科學角度論述各項目體現的運動能力需要及科學的訓練安排通常是從提升學生長久身體素質與運動能力角度出發,需要長期堅持才可看見效果,也不似一般博主創作能夠說明某次訓練是為解決何種問題。此外得益于互聯網與有關可視化、信息化等技術發展,受眾還可及時與博主分享或接受線上指導。綜上大眾從互聯網平臺瀏覽博主分享視頻獲取有關信息的方式還有待開發,且極具應用前景。研究意義從前文可知,本次論文研究主要以某個具體視頻為例展開相關程序試運行,尋求是否某種可廣泛推廣的模式。通過爬取某關鍵詞下平臺自動推送的熱點視頻評論區觀眾留言,利用Python進行分析,尋找視頻受眾主要關注點、情感態度等信息。觀眾關注的內容可以反映出在實踐活動中觀眾普遍、迫切需要解決的“痛點”問題,幫助有類似需求的觀望者快速獲取解決辦法;也可作為視頻創作者的“風向標”,幫助創作者明確市場需求,生產符合大眾實際需要的高質量內容。由于短視頻博主創作水平良莠不齊,平臺審核工作繁瑣難以面面俱到等眾多原因難以保證每條視頻都能解決學生的實際需要。除此以外,各平臺上有關視頻數量眾多,觀眾反饋褒貶不一等因素無疑也為有需求者挑選方案帶來更多干擾選項。借助數據挖掘處理等技術篩選出評論區觀眾積極情感態度詞占多數的視頻將有利于為潛在受眾個性化推薦接受度較高的訓練方法。該項研究能為大數據有關技術跨界服務大眾提供實踐檢驗,相關模式也可進行跨界推廣。相關技術理論基礎本次論文主要在Python環境下完成,使用到的有關模塊為pandas、request、snownlp、matplotlib、jiebe等[2],其優勢在于(1)具“偽代碼”特性,可使使用者僅關心完成什么樣的工作任務,而不必糾結于語法;(2)其是開源的,與最受歡迎的開源大數據平臺具有很好的兼容性,還擁有相當多的第三方拓展庫,可廣泛應用于數據分析、網絡爬蟲等多個領域。數據有關技術本文數據主要來源于網絡爬蟲,這是一種按照既定規則在網絡上自動爬取信息的程序腳本。其工作流程大致可分為四步:=1\*GB3①確定初始URL作為入口;=2\*GB3②發送請求下載對應網頁;=3\*GB3③分析網頁內容,提取所需要的信息;=4\*GB3④提取頁面中的鏈接作為新的URL,然后循環執行上述流程直到滿足條件。本次論文數據爬取過程中主要調用Request庫,它是一個較為實用的PythonHTTP客戶端庫,編寫爬蟲和測試服務器響應數據時經常會用到。可用于發送HTTP請求和處理相應,提供簡潔且簡單易用的API,使得HTTP請求變得更加便捷。相比urllib庫,它的語法模塊會更加簡單,而且它是有中文官方文檔可作參考的。在數據處理階段主要應用到Pandas庫,其基于數組形式提供了極其豐富的數據操作,本文主要應用其讀取數據采集文件并進行數據清洗和預處理,包括去除重復值、正則清洗和分詞。作為Python的核心數據分析支持庫,能夠簡單直觀地處理關系型、標記型數據,主要數據結構為一維數據和二維數據,可處理金融、統計、工程等領域內的大多數典型用例,該庫可參與數據分析的整理與清洗、分析與建模、可視化與制表等階段。可視化技術數據可視化是為了數據更高效的反映情況,便于讀者高效閱讀。利用該項技術能夠以圖形圖片的形式直觀展現出關鍵特征與某種規律,還可根據需要從不同維度觀察進行深入研究。本文主要使用Python中的一個2D繪圖庫——Matplotlib,以多種硬拷貝格式和跨平臺的交互式環境生成出版物質量的圖形,例如線性圖、散點圖等。文本分析技術本次論文對有關文本內容的分析主要借助LDA模型。其是一種用于主題建模的概率生成模型,是一種無監督學習算法,用于從文本集合中發現隱藏的主題結構。LDA假設每個文檔是由多個主題組成的,而每個主題又由多個單詞組成。通過對文檔和單詞的統計分析,LDA可以推斷出每個文檔中各個主題的概率分布以及每個主題中各個單詞的概率分布。該項算法可用于=1\*GB3①主題識別:確定評論中討論的主題或話題,從而了解用戶關心的具體問題或感興趣的內容。=2\*GB3②情感分析:識別不同主題下用戶的情感傾向,包括正面評價、負面評價或中性態度,以便更好地理解用戶對特定話題的看法。=3\*GB3③關鍵詞分布:發現主題相關的關鍵詞及其在不同主題中的分布情況,有助于理解用戶對某一話題的關注點和重點內容。=4\*GB3④用戶興趣挖掘:根據不同主題下的評論內容,分析用戶對產品、服務或話題的興趣和偏好,可用于個性化推薦或定制營銷。=5\*GB3⑤趨勢分析:根據主題的變化和演化,了解用戶關注的話題隨時間的變化趨勢,有助于制定相應的業務策略。文本處理技術Jieba分詞作為Python中的分詞庫,在使用時通過importjieba導入。主要利用中文詞庫確定漢字之間的關聯概率,將使用者提供的一段中文文本切分為獨立詞語;除分詞外用戶還可自定義添加詞組。Jieba分詞主要有三種模式:=1\*GB3①精確模式:可對文本內容進行精確劃分,使得所得結果內不存在冗雜詞匯;=2\*GB3②全模式:該模式下可將文本中所有可能構成的詞語掃描出來,速度非???,該模式下無法解決歧義;=3\*GB3③搜索引擎模式:是在精確模式的基礎上對長詞再次切分,能夠提高召回率,主要適用于搜索引擎分詞。TF-IDF是一種用于信息檢索與數據挖掘的常用加權技術,常用于挖掘文章中的關鍵詞,而且算法簡單高效,常被工業用于最開始的文本數據清洗。TF-IDF技術相較其他而言簡單快速,有關技術原理容易理解。但在實際使用過程中用詞頻來衡量文章中的一個詞是否重要稍顯片面不夠有理有據;某些時候重要的詞出現的可能不夠多。除此以外這種計算無法體現位置信息,無法體現某一詞在文章結構中的重要性。Gensim是一款開源的第三方Python工具包,用于從原始的非結構化的文本中,無監督地學習到文本隱層的主題向量表達。主要優勢在于可高速處理大規模文本數據,它支持包括TF-IDF,LSA,LDA和word2vec在內的多種主題模型算法。語料庫制作主要包含兩個過程:=1\*GB3①獲取詞袋:本文主要來自于jieba分詞結果;=2\*GB3②向量轉換:對獲取的詞袋進行向量轉換。前期調研為獲得相對客觀的體育中考實施情況,探求在體育中考這一政策中廣泛采用的項目設置,筆者實地探訪海南白沙金波實驗學校,并委托在海南省各地實習的同學與當地體育教師交流,收集學生實際參考體育項目情況。結合論文研究需要,通過訪問中國知網、各省市教育局官方網站、各地政務服務平臺等途徑檢索了有關體育中考項目設置的有效政策、文件及相關論文等文獻資料,對收集到的資料進行匯總歸納整理。利用Excel軟件對收集到的數據進行簡單預處理后對相關數據進行整理歸類匯總,利用統計軟件SPSSAU分析得出我國部分城市體育中考項目設置[4]。本次總共收集來自我國31個行政區(除澳門香港特別行政、臺灣省外,部分省份僅采用省會城市體考方案或2023年體育考核方案)體育中考項目設置信息。本次統計篩選出入選頻次較高的身體素質類項目與運動技能,具體如下圖。圖3-1各省體育中考項目設置據此發現中長跑(男子1000m,女子800m)在多地出臺的考核標準中均作為必考項目,多地學生也反饋該項目在體育中考項目中分數占比較大,難度較大,在項目上的練習時間較長。以某視頻為例的分析數據處理導出爬蟲獲取的數據后首要是進行數據清洗工作,主要包括去重和正則清洗兩個步驟:首先,通過使用drop_duplicates函數對原始數據進行去重操作。在代碼中,根據評論內容這一列進行去重,并將去重后的結果重新賦值給新的DataFrame。這樣可以確保每條評論內容的唯一性,避免出現重復的數據。接下來,進行正則清洗的步驟。正則清洗主要是針對評論內容這一列的內容,去除除了中英文字符和數字以外的其他字符。具體實現通過使用正則表達式的方式,調用re.sub函數進行替換。在代碼中,使用正則表達式[^\u4e00-\u9fa5^a-z^A-Z^0-9^,.,。?。篯|,將評論內容中除了中英文字符、數字和部分標點符號(逗號、句號、感嘆號、冒號)以外的字符都替換為空格,從而實現清洗效果。清洗后的結果保存為新的DataFrame,并將其寫入Excel文件。通過這樣的數據清洗過程,可以確保數據的準確性和一致性,使得后續的數據分析和處理更加可靠和有效。主要關注點分析在該環節需要使用到前文所訴TF-IDF技術。TF計算公式如下:tfTF其中是ni,j該詞在文件dj中出現的次數,分母則是文件djIDF其中D表示文件總數,Di實現評論內容主要關注點的詞頻分析可以按照以下步驟進行:首先讀取經過數據清洗的評論內容數據。使用jieba庫對每條評論內容進行分詞處理,得到分詞后的結果。創建一個空的列表或字典用于存儲詞頻統計結果(本次文章數據主要利用groupby函數進行統計)。遍歷分詞結果列表,對每個詞語進行詞頻統計,將詞語及其出現次數添加到詞頻統計結果中。對詞頻統計結果進行排序,可以按照詞頻降序排列。本次論文共爬取到有關數據六千加,為減少不必要工作量,設定閾值,過濾掉低頻詞語,只保留出現頻率較高的詞語;此外采取手動錄入與實際應用無關的“停用詞”保證分析范圍的有效性。最后將詞頻統計結果進行可視化展示如下。圖4-1主要關注點詞云圖從圖中可以看出在該自動推送視頻評論區下觀眾多在描述表達自己有關情感感受、關注該項目體育考試成績及尋求某具體問題解決方案。LDA主題分析LDA主題分析的實現過程如下:首要準備好經過數據清洗和預處理的文本數據。使用gensim庫構建語料庫和詞袋模型,將文本數據轉換為可用于LDA模型的格式。設置LDA模型的參數,包括主題數量、迭代次數、詞頻閾值等。使用LDA模型訓練語料庫,并得到主題-詞語分布和文檔-主題分布。根據需求,選擇合適的方法獲取每個主題的關鍵詞,可以是按照權重排序或者設定閾值篩選??梢允褂胮yLDAvis庫對LDA模型進行可視化,生成交互式的主題模型可視化圖表,并保存為HTML文件。分析LDA主題分析結果,根據關鍵詞和文檔-主題分布了解每個主題的含義和特點,理解文本數據中不同主題的分布情況??梢赃M一步對文本數據進行主題分析,根據文檔-主題分布確定每個文檔最可能的主題,并將主題信息添加到原始數據中。本次論文有關分析基于余弦相似度進行,主要是通過計算兩個夾角的余弦值來評估它們之間的相似度,與歐氏距離相比,更加注重兩個向量在方向上的差異。該算法將向量根據坐標值繪制到向量空間中,計算兩向量的夾角θ,通過θ的大小去判斷兩向量的相似程度。夾角越小說明越相似,反之則不相似。假設存在兩個n維向量A和B,A=[A1,A2...,An],B=[B1,B2...,Bn],則A與B的夾角的余弦由確定。余弦值總是在[1,1]之間,余弦值越趨近于1,代表兩向量方向越接近;越趨近于1,代表兩向量方向越相反;接近于0,代表兩個向量近乎正交。一般情況下,需要將相似度歸一化到[0,1]區間內,由確定。通過計算,篩選后數據最佳主題數為3圖4-2評論LDA主題數尋優情感分析本文適用snownlp庫進行情感分析,對所獲取的六千加評論內容列進行情感分計算,將大于0.7分定為積極,介于0.3-0.7定為中性,小于0.3定為消極。本文采用的情感評分算法公式為:情感評分=(積極詞個數×積極詞的權重)-(消極詞個數×消極詞的權重)+(中性詞個數×中性詞的權重),完成計算后統計輸出結果。圖4-3評論情感分析占比評論區消極詞匯多為觀眾在表達自己對該項體育項目測試的悲觀態度,表明考生在日常參與訓練時往往對該項目存在抵觸甚至于厭惡心理,無法排解自身對該項目的恐慌情緒。從側面說明除必要的身體素質訓練外相關從業者需要關注受試者的心理素質狀況,適當安排趣味化訓練以激發學生學習熱情,克服負面情緒情感。積極詞匯多為觀眾感謝視頻創作者的內容分享及互相鼓勵,說明該視頻實現了較為良好的雙向交流平臺建立。從側面反映該條視頻內容質優且適合尋求認同感或需要情緒價值提供的小伙伴。總結與展望總結與反思筆者作為非大數據專業學生對Python語言及各項大數據有關技術的認識和實際應用難免會有所缺失,在分析環節會由于缺乏完整的技術理論體系支撐而使所做研究略顯片面單薄。在當前各種世界發展趨勢下,大數據技術仍可跨界應用于多領域的數據分析,本文旨在通過一個實例研究探求有關技術與體育短視頻創作行業的跨界融合的可能性,并完成一些力所能及的前期準備。展望由于本科階段知識儲備能力有所限制,筆者僅能對單一視頻進行分析與探究,且途中所采用的各類算法還有待優化。目前單一短視頻推薦容易存在推薦模式固化,無法結合學生個性化需求和偏好來提供符合個體差異的個性化方案。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 承攬合同和制作協議書
- 打人被拘留私下協議書
- 道路開口協議書
- 綠植寄賣協議書
- 簽約老師協議書
- 職工殯葬協議書
- 按摩店上班合同協議書
- 廣告位補充合同協議書
- 簽約律師協議書
- 職權授權協議書
- 技術學徒合同協議書
- 語文教學法與評價2025年試卷及答案
- 人工智能在醫療領域的測試卷
- 《生態環境的密碼:竺可楨的科學研究課件》
- 車位回購協議書范本
- 中國的耕地與糧食安全課件高二下學期地理魯教版(2019)選擇性必修3
- 2025年服裝進貨合同范本下載8篇
- 勞務糾紛案例分析:提供勞務者受害責任糾紛
- 2024年江蘇省寶應縣事業單位公開招聘緊缺人才37名筆試題帶答案
- 保險公司保全試題及答案
- 交通過程中的大數據應用試題及答案
評論
0/150
提交評論