42大數(shù)據(jù)處理基本思想與架構(gòu)教案-浙教版高中信息技術(shù)必修一_第1頁
42大數(shù)據(jù)處理基本思想與架構(gòu)教案-浙教版高中信息技術(shù)必修一_第2頁
42大數(shù)據(jù)處理基本思想與架構(gòu)教案-浙教版高中信息技術(shù)必修一_第3頁
42大數(shù)據(jù)處理基本思想與架構(gòu)教案-浙教版高中信息技術(shù)必修一_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

《大數(shù)據(jù)處理的基本思想與架構(gòu)》教案對象:高一年級課型:新授課課時:第一課時【教學(xué)目標(biāo)】理解大數(shù)據(jù)處理的基本思想與架構(gòu)。理解Hadoop的組成和功能。掌握大數(shù)據(jù)處理類型。【教學(xué)重難點(diǎn)】重點(diǎn):理解大數(shù)據(jù)處理的基本思想與架構(gòu)。難點(diǎn):理解Hadoop的組成與功能。【教學(xué)準(zhǔn)備】教學(xué)資源:多媒體網(wǎng)絡(luò)計算機(jī)、PPT課件。【教學(xué)過程】環(huán)節(jié)一新知導(dǎo)入【新課導(dǎo)入】教師講述:上節(jié)課我們學(xué)習(xí)了使用Excel處理數(shù)據(jù),也體會了Excel的方便快捷,但是現(xiàn)在是大數(shù)據(jù)時代,大數(shù)據(jù)的數(shù)量大、種類多等特點(diǎn)導(dǎo)致其數(shù)據(jù)的呈現(xiàn)方式不僅僅是簡單的數(shù)字,更無法用Excel來處理,所以這節(jié)課我們來學(xué)習(xí)如何進(jìn)行大數(shù)據(jù)處理。【教師活動】提問:之前我們已經(jīng)學(xué)習(xí)過大數(shù)據(jù)的基本概念和思想了,誰還記得大數(shù)據(jù)的四大特點(diǎn)是什么?回答:數(shù)據(jù)體量大、數(shù)據(jù)種類多、速度快、價值密度低。環(huán)節(jié)二新知講解【大數(shù)據(jù)處理的基本思想】提問:那么大數(shù)據(jù)處理的基本思想是什么呢?(讓學(xué)生查閱教材)回答:分治思想。提問:那什么是分治思想呢?教師講述:分治思想可以分解為三個字:分、治、合。分將問題分解為規(guī)模更小的子問題治將規(guī)模更小的子問題逐個擊破合將已解決的子問題合并,最終得出原問題的解比如一個數(shù)學(xué)問題,先將其拆分為三個比較短的表達(dá)式,然后算出答案,再將每個答案合并。教師講述:大數(shù)據(jù)處理的基本思想是統(tǒng)一的,但是正如“不同的鎖需要不同的鑰匙”,企業(yè)中不同的應(yīng)用場景中的數(shù)據(jù)采用不同的計算模式,需要使用不同的大數(shù)據(jù)技術(shù)。【大數(shù)據(jù)處理類型】教師講述:那接下來我們就來了解一下大數(shù)據(jù)中的三種鎖,第一把鎖是靜態(tài)數(shù)據(jù),所謂的靜態(tài)數(shù)據(jù),就是指在處理時已收集完成、在計算時不會發(fā)生改變的數(shù)據(jù)。提問:根據(jù)靜態(tài)數(shù)據(jù)的特征,你們能不能舉出靜態(tài)數(shù)據(jù)的處理實(shí)例呢?回答:讀取U盤數(shù)據(jù)、讀取硬盤數(shù)據(jù)。【Hadoop】教師講述:對于靜態(tài)數(shù)據(jù)采用的是批處理計算,批處理就是指一批數(shù)據(jù)同時處理,其中常見的架構(gòu)是Hadoop、Spark等。這節(jié)課我們主要來認(rèn)識Hadoop。教師講述:假設(shè)硬盤讀取速度永遠(yuǎn)滿足要求,你的硬盤目前容量為1T,讀取速度為100MB/s,這已經(jīng)是非常快的速度了,要把硬盤數(shù)據(jù)全部刷一遍,要兩個多小時,這也太可怕了。而Hadoop就是一個并行處理海量數(shù)據(jù)的工具,并行處理,就是結(jié)合我們之前說的大數(shù)據(jù)處理的基本思想,將讀取硬盤數(shù)據(jù)的工作分成幾份,比如說分成1024份,那么每份工作需要讀取多少數(shù)據(jù)?回答:1GB數(shù)據(jù)。教師講述:對,這1024個工作同時進(jìn)行,讀取速度為100MB/s,那么只需要1024/100=10.24s就足夠了,時間大大縮短。教師講述:Hadoop誕生于大搜索應(yīng)用,由于谷歌、Facebook等應(yīng)用的搜索量過大、數(shù)據(jù)不方便快速處理才誕生了Hadoop。提問:到底什么是Hadoop呢?【學(xué)生活動】讓學(xué)生自己翻閱教材P115P117,想一想Hadoop究竟是什么?講述:Hadoop是一個可運(yùn)行于大規(guī)模計算機(jī)集群上的分布式系統(tǒng)基礎(chǔ)架構(gòu),適用于靜態(tài)數(shù)據(jù)批處理計算。國外有很多企業(yè)正在使用Hadoop,它的主要架構(gòu)可以分為三部分:分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、分布式并行計算模型。【分布式文件系統(tǒng)HDFS】教師講述:分布式文件系統(tǒng)又叫做HDFS,主要功能是將大規(guī)模海量數(shù)據(jù)以文件的形式、用多個副本保存在不同的存儲節(jié)點(diǎn)中,并用分布式系統(tǒng)進(jìn)行管理。常見應(yīng)用比如網(wǎng)盤、云盤等。【分布式數(shù)據(jù)庫HBase】教師講述:分布式數(shù)據(jù)庫又叫做HBase,是一個高可靠、高性能、可伸縮、分布式的列式數(shù)據(jù)庫,是谷歌BigTable數(shù)據(jù)庫的開源實(shí)現(xiàn)。主要用來存儲非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),具有良好的橫向擴(kuò)展能力,可管理PB級的大數(shù)據(jù)。【分布式并行計算模型MapReduce】教師講述:分布式并行計算模型又叫做MapReduce,由Map(映射)和Reduce(歸納)組成,自動實(shí)現(xiàn)分布式并行計算,核心處理思想是將任務(wù)分解并分發(fā)到多個節(jié)點(diǎn)上進(jìn)行處理,最后匯總輸出。教師講述:這三個系統(tǒng)主要是針對數(shù)據(jù)存儲、管理和處理分析,我們需要明確它們各自的功能。【流計算】教師講述:大數(shù)據(jù)處理的第二把鎖就是流數(shù)據(jù),流數(shù)據(jù)是指不間斷地、持續(xù)地到達(dá)的實(shí)時數(shù)據(jù),隨著時間的流逝,流數(shù)據(jù)的價值會隨之降低,所以可以通過實(shí)時分析計算來得到更有價值的分析結(jié)果。提問:這反映了信息的什么特性?回答:時效性。提問:那同學(xué)們能不能根據(jù)流數(shù)據(jù)的概念舉例流數(shù)據(jù)處理的實(shí)例呢?回答:利用百度地圖導(dǎo)航、打車軟件。教師講述:由于流數(shù)據(jù)是以大量、快速、時變的流形式持續(xù)到達(dá)的,而Hadoop適用于靜態(tài)數(shù)據(jù),其性能明顯不足,因此誕生了專門處理流數(shù)據(jù)的計算平臺流計算。流計算可以簡單、高效、可靠地實(shí)現(xiàn)實(shí)時數(shù)據(jù)的獲取、傳輸和存儲,主要系統(tǒng)有Storm、Heron等。目前主流的流計算軟件系統(tǒng)有很多,比如。。。(此處根據(jù)課件講述)。提問:其中大家最熟悉的就是淘寶吧,能不能說一聲淘寶為什么是流計算處理?回答:因?yàn)樘詫毿枰獙?shí)時監(jiān)測用戶的購買、瀏覽情況,進(jìn)行推送、庫存變化等等處理。【圖計算】教師講述:大數(shù)據(jù)處理的第三把鎖就是圖數(shù)據(jù),現(xiàn)實(shí)中的數(shù)據(jù)大多以圖的形式呈現(xiàn),或者轉(zhuǎn)換為圖以后再進(jìn)行分析的,將社交網(wǎng)絡(luò)數(shù)據(jù)轉(zhuǎn)換成圖數(shù)據(jù)后如下圖所示,由于大規(guī)模的圖往往有數(shù)十億的節(jié)點(diǎn)和數(shù)千億的邊,節(jié)點(diǎn)之間的關(guān)系錯綜復(fù)雜,傳統(tǒng)的Hadoop架構(gòu)在處理時明顯不足,所以專業(yè)的圖計算軟件應(yīng)運(yùn)而生。目前通用的圖處理軟件主要包括兩類:一類是圖數(shù)據(jù)庫,另一類是并行圖處理系統(tǒng)(結(jié)合課件介紹圖處理軟件)。【實(shí)時處理與批處理的整合】教師講述:到了2014年,Twitter開源了其大數(shù)據(jù)處理系統(tǒng)Summingbird,該系統(tǒng)實(shí)現(xiàn)了批處理和流計算在一個平臺架構(gòu)下的整合。開發(fā)者在同一個平

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論