《大數據采集與預處理》課程標準_第1頁
《大數據采集與預處理》課程標準_第2頁
《大數據采集與預處理》課程標準_第3頁
《大數據采集與預處理》課程標準_第4頁
《大數據采集與預處理》課程標準_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

《大數據采集與預處理》課程標準一、課程基本信息1、課程名稱:大數據采集與預處理2、課程類型:專業技能核心課3、學時學分:48學時,3學分(其中:實踐24學時)4、適用專業:大數據二、課程定位本課程是大數據技術專業的一門重要的大數據專業核心課,主要定位于數據采集等相關崗位。本課程主要從爬蟲數據采集、日志數據采集等多個方向講解了不同類型數據的采集方法,從軟件數據預處理、Python數據預處理兩個方面講解了數據預處理的方式方法。通過學習,使學生對數據采集與預處理有全面了解,系統學習和練習數據采集和數據預處理的操作,并具有相應能力。三、課程目標(一)總體目標注重培養學生動手能力,培養學生解決問題的能力,通過對本課程的學習,學生能夠掌握數據采集和預處理的基本概念和方法。本課程主要包括數據采集與預處理的基本知識,態網頁數據采集、動態網頁數據解析、基于框架實現動態網頁數據采集與存儲、動態網頁訪問日志數據采集和動態網頁數據預處理的相關知識,為后續企業應用做鋪墊。通過本課程的學習學生能夠掌握更多的數據采集方式和基本操作方法,可根據本課程的知識從事數據采集和預處理的相關工作。(二)具體目標1、知識目標通過本門課程的學習學生能夠了解數據采集與預處理的基本流程,熟悉Flume兩種文件通道的區別、熟悉Kafka集群環境搭建方法、掌握Scrapy框架配置及使用方法、熟悉ETL開源工具種類、熟悉Pandas的安裝方法。2、素質目標(1)具有發現問題、分析問題、解決問題的能力(2)具有良好的職業道德(3)具有吃苦耐勞和奉獻精神(4)具有愛崗敬業、誠信、務實、豁達、勤奮、謙虛好學的素質(5)具有較強現場管理和組織能力,能較好地處理公共關系(6)具有較強的人際交流能力,能有效地進行人際溝通以及團隊協作(7)具有健康的體魄、健全的人格和健康的個性(8)具有良好的行為習慣和良好的心理素質(9)具有較強的勞動組織能力、集體意識和社會責任心四、教學內容與要求(一)確定教學內容的原則1、以學生為本由于大數據采集與預處理是一門理論與實際相結合的課程,需要學生動手上機實操,在設計教學內容時以操作為主,理論講解為輔,讓學生多動手操作實踐。2、啟發創造原則最大限度地調動學生學習的積極性和自覺性,激發他們的創造性思維,從而使學生在融會貫通地掌握知識和技能的同時,引導學生發揮想象,在實例的基礎上進行個性化地創作,充分發展自己的創造性能力。3、聯系實際原則教學內容必須要與實際相結合,讓學生感受到課程的真實性,從而提高學生學習的積極性,激發學生的學習興趣。(二)課程學時安排本課程基本教學學時為48學時,其中包括實踐學時24學時,當教學計劃安排的學時超出本課程的學時范圍時,可根據就業面向的需要對超出部分的學時做適當調整。(三)課程學習內容設計與參考學時章節章節名稱教學內容教學方法建議學時項目一初識動態網頁數據采集與預處理1、3514認識大數據采集與預處理1.1認識數據來源181581.2認識大數據采集181581.3認識大數據預處理2、搭建數據采集與預處理開發環境2.1認識PyCharm181582.2安裝PyCharm181582.3使用PyCharm教學方法:互動提問,案例分析,視聽教學等理論4實踐4項目二動態網頁數據采集1、使用Urllib模塊完成“新聞動態”網頁數據采集1.1request模塊181581.2error模塊181581.3parse模塊2、使用Requests庫完成“浪潮云說”網頁數據采集2.1Requests簡介及安裝181582.2Requests基本使用181582.3Requests高級使用教學方法:互動提問,實操體驗,案例分析、操作等理論4實踐4項目三動態網頁數據解析1、使用Xpath解析“新聞動態”網頁數據1.1Xpath簡介181581.2定位181581.3數據提取2、使用BeautifulSoup解析“浪潮云說”網頁數據2.1BeautifulSoup安裝181582.2BeautifulSoup使用教學方法:互動提問、視聽教學、案例講解、操作等理論4實踐4項目四基于框架實現動態網頁數據采集與存儲1、使用Scrapy框架完成新聞公告頁面數據采集與存儲1.1Scrapy簡介及安裝181581.2Scrapy操作指令181581.3字段定義及Scrapy設置181581.4文本解析1.5內容存儲教學方法:互動提問、視聽教學、案例講解、操作等理論4實踐4項目五動態網頁訪問日志數據采集1、使用Flume采集某官網訪問日志數據1.1Flume簡介181581.2Flume數據采集配置1.3Flume啟動1.4Flume攔截器配置2、使用Kafka消費Flume中某官網訪問日志數據2.1Kafka簡介181582.2Kafka配置2.3Kafka腳本操作2.4KafkaPythonAPI教學方法:互動提問、視聽教學、案例講解、操作等理論4實踐4項目六動態網頁數據預處理1、使用Pandas實現新聞動態網頁數據預處理1.1Pandas簡介及安裝181581.2Pandas數據結構181581.3Pandas基本功能181581.4匯總和描述統計181581.5處理缺失數據2、使用Pig實現浪潮云說網頁數據預處理2.1Pig簡介181582.2Pig配置運行2.3PigLatin執行2.4運算符2.5內置函數3、使用ELK實現某官網日志數據預處理3.1Elasticsearch181583.2Logstash181583.3Kibana教學方法:互動提問,案例分析,視聽教學、操作等。理論4實踐4五、課程標準適用范圍本課程標準適用于高職計算機應用技術專業、大數據專業六、關于課程標準的說明1.該課程作為考試課,通過本課程的學習要求學生掌握大數據采集與預處理的基本操作,具備獨立分析業務需求并完成數據采集與處理的能力。2.本標準根據環境和條件變化可適時修訂。如有國家或行業出臺了新的課程標準,以國家或行業標準為準。七、考核及成績評定方式(一)考核方式:考試(二)成績評定辦法1、成績評定構成:單元測驗分數/作業分數*40%+實踐分數*20%+期末考試分數*40%=總成績(100分)2、成績評定細則:單元測驗/作業:4課時一次測驗/作業,根據完成情況給予評價。實踐:完成實訓/實驗指導書中規定的每個實訓項目,根據實訓/實驗報告給予評價。期末考試:理論考試,覆蓋各教學單元的基本技術原理及應用,著重考察對重點教學內容的綜合掌握情況。鼓勵將過程考核、實際能力考核、全面考核等理念貫徹到課程考核中來,重點著眼于科學全面地評價學生綜合素質,強化知識應用能力和創新

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論