




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上大數(shù)據(jù)技術(shù)與應(yīng)用基礎(chǔ)教學大綱學 時:60代 碼:適用專業(yè):制 定: 審 核:批 準: 一、課程的地位、性質(zhì)和任務(wù)大數(shù)據(jù)技術(shù)的發(fā)展,已被列為國家重大發(fā)展戰(zhàn)略。而在過去的幾年里,無論是聚焦大數(shù)據(jù)發(fā)展的促進大數(shù)據(jù)發(fā)展行動綱要,還是“十三五”規(guī)劃中都深刻體現(xiàn)了政府對大數(shù)據(jù)產(chǎn)業(yè)和應(yīng)用發(fā)展的重視。目前國內(nèi)大數(shù)據(jù)發(fā)展還處于加速期、轉(zhuǎn)型期,數(shù)據(jù)與傳統(tǒng)產(chǎn)業(yè)的融合還處于起步階段,各行業(yè)對大數(shù)據(jù)分析和挖掘的應(yīng)用還不理想。但隨著市場競爭的加劇,各行業(yè)對大數(shù)據(jù)技術(shù)研究的熱情越來越高,在未來幾年,各領(lǐng)域的數(shù)據(jù)分析都將大規(guī)模應(yīng)用。本課程在注重大數(shù)據(jù)時代應(yīng)用環(huán)境前提下,考慮大數(shù)據(jù)處理分析需求多樣復(fù)雜
2、的基本情況,從初學者角度出發(fā),以輕量級理論、豐富的實例對比性地介紹大數(shù)據(jù)常用計算模式的各種系統(tǒng)和工具。考慮到當前大數(shù)據(jù)發(fā)展處于起步并逐步趕超先進的階段,其應(yīng)用領(lǐng)域豐富廣泛,在教學過程中應(yīng)注重掌握大數(shù)據(jù)分析的實踐操作。本課程通過豐富簡單易上手的實例,讓學生能夠切實體會和掌握各種類型工具的特點和應(yīng)用。二、課程教學基本要求1. 了解大數(shù)據(jù)的發(fā)展和基本概念,理解并掌握大數(shù)據(jù)的特征及主要技術(shù)層面。2. 掌握Scrapy環(huán)境的搭建,了解網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)的過程,熟悉爬蟲項目的創(chuàng)建。3. 深刻了解hadoop的基礎(chǔ)理論,理解并掌握Hadoop單機及集群環(huán)境的部署方法。4. 掌握HDFS的基本概念和HDFS在h
3、adoop中的作用,理解并識記HDFS的使用,了解HDFS的JAVA API接口及數(shù)據(jù)流原理;讓學生明白Map過程與Reduce過程這兩個獨立部分各自的原理及合作途徑,知道如何獨立編寫滿足自己需求的MapReduce程序。5. 理解HBase中涉及的基本概念,掌握HBase的簡單應(yīng)用;讓學生了解數(shù)據(jù)倉庫的基礎(chǔ)概念,熟悉Hive與HDFS、MapReduce直接的關(guān)心。6. 熟悉Spark和RDD的基本概念,熟悉spark接口的使用,解決實戰(zhàn)時的步驟及思路。7. 明白Hadoop和Storm之間的差別,掌握對Storm的使用。理解Apex的工作過程并能簡單應(yīng)用。8. 了解Druid的基本概念、應(yīng)
4、用場景以及集群架構(gòu),掌握批量數(shù)據(jù)加載、流數(shù)據(jù)加載的操作。了解Flink的重要概念和基本架構(gòu),掌握Flink簡單的使用實例。9. 理解Elasticsearch的基本架構(gòu),掌握Elasticsearch的一些入門操作。了解并基本掌握怎樣利用所學的工具對目標實例進行數(shù)據(jù)分析。三、課程的內(nèi)容1大數(shù)據(jù)概述了解大數(shù)據(jù)的產(chǎn)生和發(fā)展,識記大數(shù)據(jù)的特征、數(shù)據(jù)類型和系統(tǒng),大數(shù)據(jù)的計算模式和技術(shù)層面間的關(guān)聯(lián)。2數(shù)據(jù)獲取識記基本概念,識記各功能應(yīng)怎樣用Scrapy爬蟲實現(xiàn),了解采集目標數(shù)據(jù)項定義,領(lǐng)會并掌握爬蟲運行和數(shù)據(jù)存儲技術(shù)。3Hadoop基礎(chǔ)領(lǐng)會Hadoop的主要特點,識記Hadoop HDFS、Hadoop
5、 MapReduce、Hadoop YARN的原理,了解其生態(tài)系統(tǒng)中重要組成的原理,熟悉Hadoop的配置。4HDFS基本應(yīng)用 熟悉HDFS所需的API接口,了解數(shù)據(jù)流的工作過程,能簡單操作HDFS的接口。 5MapReduce應(yīng)用開發(fā)了解所需的開發(fā)環(huán)境eclipse,領(lǐng)會Map過程與Reduce過程的工作原理,了解使用mapreduce解決實際問題時的步驟和思路,識記MapReduce代碼的不同功能。6分布式數(shù)據(jù)庫HBase 識記HBase的基本概念,熟悉安裝HBase集群的步驟,了解HBaseAPI的基本步驟。7數(shù)據(jù)倉庫工具Hive 領(lǐng)會Hive的作用,掌握Hive接口的使用,會利用Hiv
6、e解決實戰(zhàn)問題。8開源集群計算環(huán)境Spark 了解Spark的基本思想,熟悉Spark所需的環(huán)境及API等,熟悉Spark實戰(zhàn)的完整工作過程,領(lǐng)會其所需的代碼。9流實時處理系統(tǒng)Storm 識記Storm相關(guān)概念,掌握Storm環(huán)境的安裝配置,了解Storm的基本使用10企業(yè)級、大數(shù)據(jù)流處理Apex 識記Apex的基本概念,掌握Apex的環(huán)境配置過程,理解常見組件的原理和特點,會簡單的應(yīng)用Apex解決問題。11事件流OLAP之Druid 了解Druid的概念及其應(yīng)用場所,掌握Druid單機環(huán)境的安裝方法和步驟,并能利用Druid進行加載流數(shù)據(jù)處理數(shù)據(jù)查詢等。12事件數(shù)據(jù)流引擎Flink 識記Fl
7、ink的基本概念,明白Flink的基本架構(gòu),能夠安裝Flink的單機和集群環(huán)境。13分布式文件搜索Elasticsearch 了解Elasticsearch包含重要部分的基本概念,掌握Elasticsearch重要的安裝過程,掌握簡單的操作。14實例電商數(shù)據(jù)分析能夠通過已經(jīng)學習了解過的環(huán)境和工具等,有條理有步驟的對實例進行數(shù)據(jù)挖掘、數(shù)據(jù)處理和數(shù)據(jù)分析等,進而得出相關(guān)的結(jié)論。四、課程的重點、難點1大數(shù)據(jù)概述重點:大數(shù)據(jù)的概念和特征。難點:大數(shù)據(jù)的計算模式和技術(shù)層面間的關(guān)聯(lián)。2數(shù)據(jù)獲取重點:Scrapy環(huán)境的搭建。難點:網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)的過程。3Hadoop基礎(chǔ)重點:Hadoop的基礎(chǔ)理論及安裝。
8、難點:Hadoop單機及集群環(huán)境的部署方法。4HDFS基本應(yīng)用重點:掌握HDFS的兩種使用方法。 5MapReduce應(yīng)用開發(fā)重點:明白Map過程與Reduce過程的原理。難點:獨立編寫滿足自己需求的MapReduce程序。6分布式數(shù)據(jù)庫HBase 重點:HBase所包含的3個重要組件的工作方式。難點:如何通過HBase shell和HBase API訪問HBase。7數(shù)據(jù)倉庫工具Hive 重點:熟悉簡單的Hive命令。8開源集群計算環(huán)境Spark 重點:理解Spark的工作機制。難點:解決實戰(zhàn)時的步驟及思路。9流實時處理系統(tǒng)Storm 重點:Storm的實時處理。難點:利用Storm的特點對
9、數(shù)據(jù)進行合適的處理。10企業(yè)級、大數(shù)據(jù)流處理Apex 重點:Apex的流處理功能。11事件流OLAP之Druid 重點:使用Druid進行加載和查詢數(shù)據(jù)。12事件數(shù)據(jù)流引擎Flink 重點:明白Flink的基本架構(gòu)。難點:Flink系統(tǒng)中進程間處理信息的原理。13分布式文件搜索Elasticsearch重點:Elasticsearch的基本架構(gòu)。14實例電商數(shù)據(jù)分析難點:怎樣利用所學的工具對目標實例進行數(shù)據(jù)分析。五、課時分配表序號課程內(nèi)容總學時講課實驗習題課機動1大數(shù)據(jù)概述2222數(shù)據(jù)獲取4223Hadoop基礎(chǔ)4224HDFS基本應(yīng)用4225MapReduce應(yīng)用開發(fā)6426分布式數(shù)據(jù)庫HB
10、ase4227數(shù)據(jù)倉庫工具Hive4228 開源集群計算環(huán)境Spark8449流實時處理系統(tǒng)Storm42210企業(yè)級、大數(shù)據(jù)流處理Apex42211事件流OLAP之Druid42212事件數(shù)據(jù)流引擎Flink42213分布式文件搜索Elasticsearch42214實例電商數(shù)據(jù)分析422合計603228六、實驗項目及基本要求實驗一 通過爬蟲獲取數(shù)據(jù)要求:能安裝爬蟲所需環(huán)境,創(chuàng)建簡單的爬蟲項目。成功完成爬蟲核心實現(xiàn)。實驗二 Hadoop安裝與配置要求:Hadoop單機和集群模式的配置。實驗三 實戰(zhàn)HDFS的接口要求:能自主操作Java和命令行接口。實驗四 編寫簡單的Mapreduce程序要求
11、:完成MapReduce所需環(huán)境的配置,完成Mapreduce應(yīng)用實例實驗五 分布式數(shù)據(jù)庫HBase要求:安裝HBase集群模式,能簡單使用HBase shell和Hbase API。實驗六 Hive的使用要求:會進行簡單的Hive命令使用,熟悉Hive的復(fù)雜語句。實驗七 Spark簡單編程與聚類實戰(zhàn) 要求:了解Spark簡單的RDD創(chuàng)建,了解各個實戰(zhàn)的編程實現(xiàn)及解決過程。實驗八 Storm安裝與配置要求:了解Storm的概念及原理,了解Storm的安裝和基本使用。實驗九 Spark的使用和配置要求:掌握Apex的使用,了解Apex的基本配置。實驗十 Druid環(huán)境配置要求:了解Druid的概
12、念和使用,理解Druid的作用。實驗十 事件數(shù)據(jù)流引擎Flink的使用要求:了解Flink的概念和部署過程,理解Flink的使用。七、考核辦法1考試采用統(tǒng)一命題,閉卷考試,考試時間為120分鐘。2本大綱各部分所規(guī)定基本要求、知識點及知識點下的知識細目,都屬于考核的內(nèi)容。考試命題覆蓋到各部分,并適當突出重點部分,加大重點內(nèi)容的覆蓋密度。3不同能力層次要求的分數(shù)比例大致為:識記占20%,領(lǐng)會占30%,簡單應(yīng)用占30%,綜合應(yīng)用占20%4題的難度可分為易、較易、較難和難四個等級。試卷中不同難度試題的分數(shù)比例一般為2:3:3:25試題主要題型有:填空、單項選擇、多選、簡答、及綜合應(yīng)用等。八、使用說明 在本課程學習中,應(yīng)從“了解”、“識記”、“領(lǐng)會”、“簡單應(yīng)用”、“綜合應(yīng)用”五個能力層次去把握:1. 了解:要求概念的基本掌握,是最基本要求。2. 識記:要求能夠識別和記憶本課程有關(guān)知識點的主要內(nèi)容,并能夠做出正確的表達、選擇和判斷。3. 領(lǐng)會:在識記的基礎(chǔ)上,要求能夠領(lǐng)悟和理解本課程中有關(guān)知
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2031年中國氣壓維護裝置行業(yè)投資前景及策略咨詢研究報告
- 拉薩師范高等專科學校《用戶體驗與交互設(shè)計》2023-2024學年第二學期期末試卷
- 鄭州科技學院《日語新聞聽力》2023-2024學年第二學期期末試卷
- 湖南司法警官職業(yè)學院《英語短篇小說佳作欣賞》2023-2024學年第二學期期末試卷
- 江蘇醫(yī)藥職業(yè)學院《成型技術(shù)基礎(chǔ)》2023-2024學年第二學期期末試卷
- 2025某建筑勞務(wù)分包合同
- 索鞍安裝施工方案
- 2025綠化工程供料合同范本
- 2025年“1+N”全景式假期成長實踐作業(yè)設(shè)計模板
- 2025至2030年中國鐵藝貨架數(shù)據(jù)監(jiān)測研究報告
- 國家發(fā)展改革委低空經(jīng)濟司
- 課題申報書:醫(yī)學院校研究生“導(dǎo)學思政”創(chuàng)新實踐路徑研究
- 2025年游泳教練資格認證考試理論試題集(初級)
- 委托律師簽署協(xié)議書
- 圖文工廠轉(zhuǎn)讓協(xié)議書
- 貨物貿(mào)易的居間合同
- 2025-2030中國療養(yǎng)院行業(yè)市場深度分析及前景趨勢與投資研究報告
- 2025年國企山東濟南公共交通集團有限公司招聘筆試參考題庫附帶答案詳解
- 2024版《糖尿病健康宣教》課件
- 機油化學品安全技術(shù)(MSDS)說明書
- 《項脊軒志》公開課課件【一等獎】
評論
0/150
提交評論