




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
課程負責人:陳清華【數據挖掘應用】課程觀影數據回歸分析歸一化處理任務實施掌握數據歸一化處理的方法了解要進行數據歸一化處理的情況會使用sklearn對數據進行歸一化處理能力目標對票房等數據進行歸一化處理主要內容任務工單引導問題任務評價標準任務解決方案代碼解析任務工單教學難點使用sklearn中的數據預處理模塊對放映天數、日均票房做歸一化處理。在數據標準化的基礎上,重新訓練一元線性回歸模型,并對電影日均票房進行預測。任務概述
任務描述:010010011001101010100100110110100101110101000100001011011101001010101101010011010010film.txt(1)為什么需要對數據進行歸一化處理?(2)什么情況下要對數據進行歸一化處理?(3)歸一化處理方法有哪些?sklearn已經封裝哪幾種?(4)寫出歸一化后的一元線性回歸方程,比較與前一任務的結果有何不同?”
問題引導:任務概述
任務評價:任務概述評價內容評價要點分值分數評定自我評價1.任務實施數據歸一化處理2分數據正確處理得2分,每1項得1分
模型再訓練1分代碼正確且順利執行得1分
模型可視化1分展現結果清晰得1分2.效果評估對比不同模型得指標,并得出評估報告4分能正確展現評估結果得1分,模型指標有提升得3分
3.任務總結依據任務實施情況總結結論2分總結內容切中本任務的重點要點得2分
合計10分
第1行:導入minmax_scale第2行:歸一化fromsklearn.preprocessingimportminmax_scaledf['日均票房/萬元']=minmax_scale(df['日均票房/萬元'])df['放映天數']=minmax_scale(df['放映天數'])df.head()第3行:顯示數據任務解決方案步驟一:歸一化處理。步驟二:查看日均票房與放映天數范圍(最后兩列)縮放后的數據步驟三:范圍縮放后的一元線性回歸分析結果任務解決方案為什么要歸一化評判依據:身體指數=3*身高+2*體重0.310例如:
身高
體重1.51.6110115結論:體重變化的影響
>>身高變化的影響身高(米)體重(斤)1.2951.31001.41051.51101.61151.7120以身體指數評判為例為什么要歸一化評判依據:身體指數=3*身高+2*體重體重110身高1.51.6體重110115身高(米)體重(斤)1.2951.31001.41051.51101.61151.7120以某身體指數評判為例為什么要歸一化身高(米)體重(斤)1.2951.31001.41051.51101.61151.7120以某身體指數評判為例評判依據:身體指數=3*身高+2*體重原因:兩個特征值的單位不同解決辦法:歸一化,讓特征值處在同一個數量級上歸一化的作用
在機器學習領域中,不同評價指標(即特征向量中的不同特征就是所述的不同評價指標)往往具有不同的量綱和量綱單位,這樣的情況會影響到數據分析的結果,為了消除指標之間的量綱影響,需要進行數據歸一化處理,以解決數據指標之間的可比性問題。
歸一化是將有量綱的表達式,經過變換,化為無量綱的表達式,成為標量。
如果不對數據進行歸一化處理,則會導致梯度下降,復雜度增加或損失函數(lossfunction)只能選擇線性,從而導致模型效果不佳。歸一化:Normalization歸一化的方法:
1)最大最小標準化(Min-MaxNormalization)2)Z-score標準化方法3)非線性歸一化歸一化:歸一化的好處:1)歸一化后加快了梯度下降求最優解的速度;2)歸一化有可能提高精度(如KNN)。注:沒有一種數據標準化的方法放在每一個問題、每一個模型,都能提高算法精度和加速收斂。歸一化是將有量綱的表達式,經過變換,化為無量綱的表達式,成為標量。sklearn中的歸一化處理sklearn中的preprocessing用于數據預處理minmax_scale()函數通過將每個特征縮放到給定范圍來轉換特征,官方定義如下:minmax_scale(X,feature_range=(0,1),*,axis=0,copy=True)參數:X:形狀類似數組(n_samples,n_features),指定要變換的數據feature_range:元組(最小值,最大值),默認=(0,1),指定所需的轉換數據范圍axis:整數,默認=0。指定用于縮放的軸。如果為0,則獨立縮放每個特征,否則(如果為1)縮放每個樣本copy:布爾,默認=真。設置為False以執行就地縮放并避免復制(如果輸入已經是一個numpy數組)返回:X_tr:ndarray形狀(n_samples,n_features),為轉換后的數據minmax_scale()規模化特征到一定的范圍內,使得特征的分布在一個給定最小值和最大值的范圍內。一般情況下是在[0,1]之間,或者是特征中絕對值最大的那個數為1,其他數以此標準分布在[-1,1]之間。minmax_scale()給定了一個明確的最大值與最小值。示例:df['放映天數']=minmax_scale(df['放映天數'])minmax_scale()使用方法
給定的票房數據中不同特征的數值范圍變化大,如放映天數和票房。因此,將特征縮放到合理的范圍是非常重要的。范圍縮放
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 青浦高三語文一模作文
- 玻璃纖維增強塑料的注射成型技術考核試卷
- 紙漿改性技術對紙張性能的影響分析考核試卷
- 磷肥產業環保責任與綠色生產考核試卷
- 小學三年級上冊口算練習500題
- 液體外滲的預防與處理 2
- 四川司法警官職業學院《Excel統計實踐》2023-2024學年第二學期期末試卷
- 四川省巴中學市平昌縣市級名校2025屆初三下-開學考試物理試題試卷含解析
- 江西科技師范大學《制圖》2023-2024學年第二學期期末試卷
- 吉林農業大學《馬克思主義發展史》2023-2024學年第二學期期末試卷
- GB/T 14388-1993木工硬質合金圓鋸片
- 衛生院B超、心電圖室危急值報告制度及流程
- 腫瘤化療-課件
- 第三節鋼筋混凝土排架結構單層工業廠房結構吊裝課件
- 普通高中學生綜合素質評價檔案
- 產品路標規劃-綜述2.1
- 2023年鄭州工業應用技術學院單招考試面試題庫及答案解析
- 《電子制造技術-電子封裝》配套教學課件
- 二月份循證護理查房課件
- 粉筆國考行測模考大賽第八季
- JJF(湘) 09-2018 純水-超純水系統監測儀表(電導率)計量校準規范-(高清現行)
評論
0/150
提交評論