第四章“項目挑戰(zhàn):影評數(shù)據(jù)分析”課件【高效課堂精研】浙教版(2019)高中信息技術(shù)選修3_第1頁
第四章“項目挑戰(zhàn):影評數(shù)據(jù)分析”課件【高效課堂精研】浙教版(2019)高中信息技術(shù)選修3_第2頁
第四章“項目挑戰(zhàn):影評數(shù)據(jù)分析”課件【高效課堂精研】浙教版(2019)高中信息技術(shù)選修3_第3頁
第四章“項目挑戰(zhàn):影評數(shù)據(jù)分析”課件【高效課堂精研】浙教版(2019)高中信息技術(shù)選修3_第4頁
第四章“項目挑戰(zhàn):影評數(shù)據(jù)分析”課件【高效課堂精研】浙教版(2019)高中信息技術(shù)選修3_第5頁
已閱讀5頁,還剩20頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

項目挑戰(zhàn):影評數(shù)據(jù)分析年級:高二年級學(xué)科:高中信息技術(shù)(浙教版)一、項目情境

學(xué)校影評協(xié)會向全校學(xué)生征集一份影評數(shù)據(jù)分析報告,期望這份報告能夠盡量多地挖掘出影評數(shù)據(jù)背后的信息,如我國電影業(yè)的發(fā)展狀況、趨勢、電影人之間的關(guān)系及影響等。二、項目分析1.獲取數(shù)據(jù)的途徑二、項目分析1.獲取數(shù)據(jù)的途徑收集數(shù)據(jù)名稱豆瓣IMDb1905電影網(wǎng)貓眼……片名

評分

上映時間

題材類型

出品方

演職員

同類排名

評論

……

二、項目分析2.預(yù)測可以分析出的結(jié)果可能的結(jié)果1:

依據(jù)數(shù)據(jù)1:

可能的結(jié)果2:

依據(jù)數(shù)據(jù)2:……

Top250的影片類型及未來發(fā)展趨勢預(yù)測影片類型、影片排名、數(shù)量、評分情況等演員之間的關(guān)系和影響演職員表、影片時間等三、合作探究1.獲取數(shù)據(jù)網(wǎng)絡(luò)爬蟲軟件(八爪魚采集器)

網(wǎng)絡(luò)搜索關(guān)鍵詞獲取

編寫代碼實現(xiàn)抓取

三、合作探究1.獲取數(shù)據(jù)為了更好地處理數(shù)據(jù),我們可以使用MySQL數(shù)據(jù)庫進行數(shù)據(jù)的存儲和處理

三、合作探究2.數(shù)據(jù)分析及可視化創(chuàng)建數(shù)據(jù)庫t_douban_movie_top_250

字段描述類型和長度主鍵外鍵是否可空ididint(20)是是否movie_rank電影名次varchar(200)否否是movie_name電影名varchar(200)否否是movie_director電影導(dǎo)演varchar(200)否否是movie_writer電影作家varchar(200)否否是movie_starring電影明星text(0)否否是movie_type電影類型varchar(100)否否是movie_country影片制片國家varchar(100)否否是movie_language影片語言varchar(100)否否是movie_release_date影片上映日期varchar(100)否否是movie_run_time影片片長varchar(100)否否是movie_second_name影片又名varchar(200)否否是movie_imdb_hrefIMDb鏈接varchar(200)否否是movie_rating影片總評分varchar(20)否否是movie_comments_user影片評論人數(shù)varchar(20)否否是movie_five_star_ratio影片5星占比varchar(20)否否是movie_four_star_ratio影片4星占比varchar(20)否否是movie_three_star_ratio影片3星占比varchar(20)否否是movie_two_star_ratio影片2星占比varchar(20)否否是movie_one_star_ratio影片1星占比varchar(20)否否是movie_note影評varchar(200)否否是?三、合作探究2.數(shù)據(jù)分析及可視化數(shù)據(jù)清洗:例如我們發(fā)現(xiàn)有兩個字段是空值沒有內(nèi)容,可能是因為有的電影沒有又名的原因,所以沒有獲取到相應(yīng)的數(shù)據(jù),這里就可以將沒有電影又名的信息用電影名賦值或是刪除。實現(xiàn)代碼如下:

三、合作探究2.數(shù)據(jù)分析及可視化影片類型出現(xiàn)的次數(shù)

通過電影類型movie_type字段對其影片的類型做統(tǒng)計繪制出以影片類型為X軸,出現(xiàn)的次數(shù)為Y軸的柱狀圖。三、合作探究2.數(shù)據(jù)分析及可視化影片類型出現(xiàn)的次數(shù)

通過對電影的類型的統(tǒng)計圖中我們可以看出劇情類的電影占據(jù)了頭位,愛情喜劇類的也不在少數(shù)。電影類型是觀影者選擇是否觀看此影片的重要因素之一。“劇情”、“愛情”、“喜劇”是受眾主流,電影制作方可以多制作些愛情喜劇劇情類型的電影,可增加播放量。三、合作探究2.數(shù)據(jù)分析及可視化影片時長分布

首先將片長數(shù)據(jù)賦值給Y軸,然后將X軸的參數(shù)設(shè)置為1,設(shè)置其標題屬性等信息后使用plt.show()方法即可。就得到了250部影片在同一標準值下的影片片長分布圖。三、合作探究2.數(shù)據(jù)分析及可視化影片時長分布

通過片長分布圖所示,可以看出大部分優(yōu)秀的電影的時長在80-130分鐘之間,時間過短顯得沒有內(nèi)容,時間太長會有種拖劇情的感覺,一部好的電影的時長盡量在這個區(qū)間,內(nèi)容劇情剛剛好。三、合作探究2.數(shù)據(jù)分析及可視化相關(guān)系數(shù)用來觀察兩個變量之間的相關(guān)程度。Pearson相關(guān)系數(shù)是統(tǒng)計學(xué)中常用的三大相關(guān)系數(shù)之一,Pearson(皮爾遜)相關(guān)系數(shù)是衡量線性關(guān)聯(lián)程度的指標。具體的求算公式如下:皮爾遜相關(guān)系數(shù)的經(jīng)驗解釋如下:①當(dāng)r=±1時,各個點完全在一條直線上,這時兩個變量是完全線性相關(guān)。②當(dāng)r=0時,兩個變量不相關(guān),這時散點圖上的n個點可能毫無規(guī)律。③當(dāng)r>0時,兩個變量為正相關(guān);當(dāng)r<0時,兩個變量為負相關(guān)。④當(dāng)|r|≥0.8時,兩個變量為高度相關(guān);當(dāng)0.5≤|r|<0.8時,兩個變量為中度相關(guān);當(dāng)0.3≤|r|<0.5時,兩個變量為低度相關(guān);當(dāng)|r|<0.3時,兩個變量之間的相關(guān)程度極弱,可視不相關(guān)。三、合作探究2.數(shù)據(jù)分析及可視化在Python中使用corr函數(shù)可以計算兩個數(shù)據(jù)序列之間的相關(guān)系數(shù),可以使用pandas庫中的corr()函數(shù),使用pandas中的corr()函數(shù)時,需要先將需要計算相關(guān)系數(shù)的兩個數(shù)據(jù)序列放入DataFrame中,再調(diào)用corr()函數(shù),如下面的示例:importpandasaspd

#將數(shù)據(jù)放入DataFrame中df=pd.DataFrame({'x':[1,2,3,4,5],'y':[5,4,3,2,1]})

#計算相關(guān)系數(shù)corr=df['x'].corr(df['y'])print(corr)三、合作探究2.數(shù)據(jù)分析及可視化評分與排名關(guān)系

首先定義plt對象設(shè)置其規(guī)格大小,X、Y軸標題等等一些初始的信息,然后將評分的數(shù)據(jù)傳給X軸,排名數(shù)據(jù)傳給Y軸,通過兩者的數(shù)據(jù)相交的點組成兩者的關(guān)系散點圖。將Y軸的數(shù)據(jù)倒置效果更佳。最后通過使用.corr函數(shù)求出兩個列值的相關(guān)系數(shù),并以此來判斷兩者的相關(guān)性。三、合作探究2.數(shù)據(jù)分析及可視化評分與排名關(guān)系

通過評分對影片排名的關(guān)系圖所示,我們可以看出評分大多是集中在8.3-9.2之間,隨評分的升高,豆瓣Top250排名名次也提前,但是通過觀察得知評分并不是決定排名的唯一要素,通過輸出的Pearson相關(guān)系數(shù)為-0.739,可以判定評分與排名之間為中度相關(guān)性。三、合作探究2.數(shù)據(jù)分析及可視化基本圖表可視化

位置數(shù)據(jù)可視化

文本數(shù)據(jù)可視化

層次數(shù)據(jù)可視化

網(wǎng)絡(luò)數(shù)據(jù)可視化

時序數(shù)據(jù)可視化

三、合作探究2.數(shù)據(jù)分析及可視化三、合作探究3.數(shù)據(jù)分析結(jié)果的檢驗(1)分析結(jié)果的價值(2)數(shù)據(jù)依據(jù)的說服力(3)可視化效果的解釋力

三、合作探究4.撰寫數(shù)據(jù)分析報告(1)目標:此數(shù)據(jù)分析報告的背景與意欲達到的目標(3)數(shù)據(jù)來源:簡述支撐數(shù)據(jù)分析報告的數(shù)據(jù)來源及采集方法。(4)關(guān)鍵發(fā)現(xiàn):這一部分是數(shù)據(jù)分析報告的關(guān)鍵,由若干關(guān)鍵發(fā)現(xiàn)組成。

每一個關(guān)鍵發(fā)現(xiàn)都應(yīng)該包括發(fā)現(xiàn)、數(shù)據(jù)依據(jù)、可視化圖片、此分析的特點和優(yōu)缺點等。(5)結(jié)語:簡述此報告的意義、潛在問題和未來進一步探究的方向。

(2)研究過程:描述小組成員為了達到預(yù)期目標所采用的方法與步驟。四、交流評價評價條目

說明評分(1~10分)評分主要依據(jù)闡述后續(xù)完善方向收集數(shù)據(jù)數(shù)據(jù)來源、收集方法、數(shù)量大小、技術(shù)難度處理數(shù)據(jù)參與程度、格式符合、清洗技術(shù)、輸出種類分析數(shù)據(jù)結(jié)論科學(xué)、角度多樣、技術(shù)應(yīng)用、自主探究呈現(xiàn)方式多樣準確、報告形式、技術(shù)難度、發(fā)布方式個人能力技術(shù)掌握、學(xué)習(xí)方式、編程能力、交流能力五、項目拓展

協(xié)同過濾算法有基于用戶的協(xié)同過濾和基于物品的協(xié)同過濾。現(xiàn)有某網(wǎng)站的評分數(shù)據(jù)集,包含觀眾觀影后的評分記錄,其數(shù)據(jù)格式如下所示:"張文":{"王牌保鏢":7.0,"追擊":7.3,"繡春刀Ⅱ":7.4,……},"魯建":{"王牌保鏢":7.2,"追擊":6.9,……},"劉思義":{"追擊":7.5,"繡春刀Ⅱ":7.0,……},"李京一":{"王牌保鏢":6.9,"繡春刀Ⅱ":7.4,……}},……

編寫一個簡易的評分預(yù)測程序,實現(xiàn)從鍵盤上輸入某個已經(jīng)注冊用戶的姓名和電影名,輸出預(yù)測這個用戶給這部電影的打分。

五、項目拓展2.特征工程:(1)形成電影特色的特征集合。(2)對硬特征進行特征降維。(3)對軟特征進行編碼。

編碼后的硬特征和軟特征通常可以作為訓(xùn)練用戶組中的特征,

用于用戶群體編輯(群體過濾)篩選出相似的用戶群體。1.準備數(shù)據(jù):對

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論