《大數據預處理》課程教學大綱_第1頁
《大數據預處理》課程教學大綱_第2頁
《大數據預處理》課程教學大綱_第3頁
《大數據預處理》課程教學大綱_第4頁
《大數據預處理》課程教學大綱_第5頁
已閱讀5頁,還剩2頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

《大數據預處理》教學大綱課程編號:121412B課程類型:□通識教育必修課□通識教育選修課□學科基礎課eq\o\ac(□,√)專業核心課□專業提升課□專業拓展課總學時:32講課學時:16實驗(上機)學時:16學分:2考試類型:□考試eq\o\ac(□,√)考查適用對象:數據科學與大數據技術專業□是eq\o\ac(□,√)否適合作為其他專業學生的個性化選修課先修課程:統計編程基礎一、教學目標本課程是在其他統計方法課程前的一門先行課,主要教會學生在建立模型之前如何提出問題,如何準備數據,整理數據,清洗數據等,以便于后續模型的建立。著重培養學生面對實際數據時,提出問題和解決問題的基本能力,特別是能夠使用某種計算機語言來準備數據。學完該門課程后,學生應該具備基本的數據準備能力,包括:目標1:理解數據預處理的含義和目的目標2:掌握各種常用的數據預處理方法目標3:在“三全育人”理念下培育有堅定理想信念、深厚愛國主義情懷、高尚道德情操,求真務實的科學品質,扎實的統計專業學識的社會主義新青年二、教學內容及其與畢業要求的對應關系教學內容主要包括大數據預處理概述、缺失值及其處理方法、數據糾錯及其處理方法、數據離散化、低頻分類數據處理方法、高偏度數據處理方法、異常值處理方法、不平衡數據處理方法、數據特征縮放方法和數據歸約方法對擬實現的教學目標所采取的教學方法、教學手段;課堂PPT演示與軟件操作演示,上機實驗,課后實驗項目等方法;對實踐教學環節的要求;教師采用案例教學,軟件操作演示;對課后作業以及學生自學的要求;學生完成教師布置的課后實驗項目,并依據完成情況給分;該課程從哪些方面促進了畢業要求的實現;課程實踐環節以解決實際問題為導向,培養學生提出問題的能力、解決問題能力和上機實操能力,同時基于課程思政切入點,提升學生的思想品質和綜合素質,促進學生達到畢業要求。三、各教學環節學時分配教學課時分配序號章節內容講課實驗其他合計1大數據預處理概述20022缺失值及其處理方法23053數據糾錯及其處理方法11024數據離散化22045異常分布數據處理I:低頻分類數據、高偏度數據、異常值34076異常分布數據處理II:不平衡數據22047數據特征縮放22048數據歸約2204合計1616032四、教學內容第1章 大數據預處理概述 1.1 大數據預處理的目的和主要內容1.2 本書主要使用的數據集 教學的重點和難點:了解大數據預處理的含義;了解大數據預處理的三個目的;了解大數據預處理的主要內容。課程考核要求:理解大數據預處理的含義;理解大數據預處理的三個目的;理解大數據預處理的主要內容。第2章 缺失值及其處理方法2.1 本章概述 2.2 缺失值的填補2.3 缺失值信息的提取 教學的重點和難點:缺失值含義、缺失值填補方法、缺失值信息提取方法課程考核要求:了解數據缺失的含義;了解完全變量與不完全變量的概念;理解完全隨機缺失、隨機缺失和非隨機、不可忽略缺失的含義;理解造成數據缺失的原因和數據缺失的影響;了解Python中缺失值的形式;了解缺失值信息的含義;理解缺失值填補的基本思路;掌握使用簡單統計量對缺失值進行填補的方法;掌握建立聚類分析模型對缺失值進行填補的方法;掌握建立線性回歸、GBDT模型對缺失值進行填補的方法。理解缺失值信息提取的思想,掌握缺失值信息提取的方法。課程思政切入點:結合缺失值產生的原因和內涵,樹立學生在調查研究中堅持實事求是的基本素養,寧缺毋濫的工作態度,真實準確的數據觀念。第3章 數據糾錯與格式處理3.1 本章概述3.2 數據的邏輯糾錯3.3 數據的格式糾錯3.4 日期時間型數據特征及其應用教學的重點和難點:數據糾錯的思路、日期時間型數據的特點和操作方法。課程考核要求:了解數據錯誤的含義;了解日期時間型數據的特點;掌握數據邏輯糾錯的思路;掌握地址格式糾錯的思路;掌握數值格式糾錯的思路;掌握分類格式糾錯的思路;掌握日期時間型數據的轉化和提取信息的方法。課程思政切入點:結合數據中常見的錯誤情況向學生展示數據準確的重要性。使用日期時間型數據處理工具對我國建國后至今、改革開放至今和黨的“十八大”至今三個時間段所包含的年、月、星期、日、小時數進行計算,讓學生體會從不同尺度看待這些時間跨度,進而體會“當前我國偉大成就是在這樣一個相當短的時間里實現的”這一事實;同時讓學生體會“時不我待”的緊迫感。第4章 數據離散化 4.1 本章概述 4.2 數據離散化的方法 4.3 定性變量形式的轉換教學的重點和難點:數據離散化的方法和定性變量形式轉換的方法。課程考核要求:理解數據離散化的基本概念,包括數據離散化的含義和作用;掌握使用客觀法進行數據離散化的原理和操作方法,包括等寬法和等頻法;掌握使用主觀法進行數據離散化的原理和操作方法,包括離散化為二分類變量和離散化為順序變量;掌握定性變量形式轉換的原理和操作方法,包括定性變量轉換為啞變量(one-hot碼)、順序變量轉換為得分和定性變量的平滑化。課程思政切入點:結合變量形式轉換的學習,培養學生從多個角度全面看問題的意識和能力;通過對反映國民經濟建設成就的連續型數據進行離散化處理,從而更加清晰的反映出成就的偉大性。第5章 異常分布數據處理I:低頻分類數據、高偏度數據、異常值 5.1 本章概述 5.2 低頻分類數據處理5.3 高偏度數據處理5.4 異常值檢測與處理教學的重點和難點:數據糾偏方法、異常值識別與處理方法、低頻分類數據處理方法。課程考核要求:了解低頻分類數據、高偏度數據和異常值的含義;掌握低頻分類數據的觀察方法;掌握低頻分類數據的處理方法;掌握數據偏度的觀察及偏度系數的計算方法;掌握數據偏度的糾正方法;理解數據偏度對于模型預測的影響;掌握異常值的識別和標注方法;掌握異常值截斷處理的方法方法;理解異常值對數據分析效果的影響。第6章 異常分布數據處理II:不平衡數據 6.1 本章概述6.2 不平衡數據的配平6.3 不平衡數據配平的影響教學的重點和難點:向下抽樣方法、向上抽樣方法、混合抽樣方法。課程考核要求:了解不平衡數據的含義;掌握向下抽樣方法;掌握向上抽樣方法;掌握混合抽樣方法;理解數據配平對模型預測效果的影響。課程思政切入點:結合不平衡數據的含義,理解一個群體中“關鍵少數”對群體的意義和影響。第7章 數據特征縮放 7.1 本章概述 7.2 數據特征縮放方法 7.3 數據特征縮放的效果教學的重點和難點:數據標準化;Min-Max縮放;Max-ABS縮放、Robust縮放。課程考核要求:了解數據特征縮放的概念;了解箱線圖的概念;掌握數據中心化的方法;掌握數據標準化的方法;掌握Min-Max縮放的方法;掌握Max-ABS縮放的方法;理解Max-ABS縮放與Min-Max縮放的差異;掌握Robust縮放的方法;理解數據特征縮放的效果。第8章 數據歸約8.1 本章概述8.2 變量選擇 -8.3 樣本歸約 8.4 偽自變量的識別與影響 教學的重點和難點:變量選擇方法、樣本歸約方法、偽自變量識別方法。課程考核要求:了解數據歸約的概念與意義;掌握使用統計量選擇變量的方法;掌握使用決策樹選擇變量的方法;掌握使用Lasso算法選擇變量的方法了;掌握樣本歸約的方法;理解數據偏度對于模型預測的影響;掌握偽自變量的識別方法。課程思政切入點:基于偽自變量的概念,引導學生理解本質與現象之間的辯證關系,即本質是事物的內部聯系,是決定事物性質和發展趨向的東西。現象是事物的外部聯系,是本質在各方面的外部表現。本質和現象是對立統一關系。偽自變量即是只看現象而未見本質。五、考核方式、成績評定本課程主要采用上機作業的考試方式進行最終成績的評定;一般采用平時考勤*10%+六次作業*90%的分配比例;六、主要參考書及其他內容課程數據來源:AustinReese.UsedCar

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論