




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、大數據導論教學教案第1章 什么是大數據課時內容大數據的概念、發展歷程授課時間45分鐘課時1和主要特征一教學目標0 讓學生了解什么是大數據,以及大數據的社會價值體現在人類生活的哪些方面教學重點0 了解人類信息文明的發展歷程0熟悉大數據時代的來臨和具體發展表現0掌握大數據的主要特征0掌握大數據的社會價值教學難點0熟悉大數據的4V特征教學設計1、教學思路:(1)闡釋人類信息文明的發展歷程及其對人類生活產生的影響;(2) 講解信息技術主要解決的4個核心問題的具體發展表現;(3)理論闡述了數據生 產方式的變革歷程,以及各個階段的具體發展情況;(4)從數據、技術特征兩個 方面分析大數據的主要特征;(5)大
2、數據的社會價值體現在哪些方面。2、教學手段:(1)通過課堂討論提出問題,活躍課堂氣氛并激發學生的學習興趣; (2)從系統的角度出發,全面介紹了大數據技術的基礎知識,作為大數據技術的 基礎教材,以提升讀者對大數據的認知,每章結束都配有習題,幫助老師進行考查。教學內容一、導入新課:“大數據”的橫空出世半個世紀以來,隨著計算機技術全面融入社會生活,信息爆炸己經積累到一個開始引發變革的 程度。它不僅使世界充斥著以往更多的信息,而且其增長速度也在加快。信息爆炸的學科如天文學 和基因學,創造出了“大數據”這個概念。這個概念幾乎應用到所有人類智力與發展的領域中。“大數據”帶來的影響當人們還在津津樂道云計算、
3、物聯網等主題時,一個嶄新的概念“大數據”橫空出世。大數據 是名繼云計算、物聯網之后IT產業又一次顛覆性的技術革命,對國家治理模式、企業決策、組織和業 務流程,以及個人生活方式等都將產生巨大的影響。大數據的挖掘和應用可創造出超萬億美兀的價 值,將是未來IT領域最大的市場機遇之一,其作用堪稱是又一次工業革命。“大數據”產生的背景隨著網絡和信息技術的不斷普及,人類產生的數據量正在呈指數級增長。大約每兩年翻一番, 根據監測,這個速度在2020年之前會繼續保持下去。這意味著人類在最近兩年產生的數據量相當于 之前產生的全部數據量。大量新數據源的出現則導致了非結構化、非結構化數據爆發式的增長。信 息數據的單
4、位由TB、PB、EB,再到ZB的級別,這些由我們創造的信息背后產生的這些數據早己遠遠超越了目前人力所能處理的范疇。如何管理和使用這些數據,逐漸成為一個新的領域,于是大 數據的概念應運而生。從三個層面認知“大數據”大數據(Big Data)又稱為巨量資料,指需要新處理模式才能具有更強的決策力、洞察力和流程 優化能力的海量、高增長率和多樣化的信息資產。今第一層面:理論理論是認知的必經途徑,也是被廣泛認同和傳播的基線。從大數據的特征定義理解行業對大數 據的整體描繪和定性,從對大數據價值的探討來深入解析大數據的珍貴所在,洞悉大數據的發展趨 勢。從大數據隱私這個特別而重要的視角審視人和數據之間的長久博弈
5、。個第二層面:技術技術是大數據價值體現的手段和前進的基石。可以從云計算、分布式處理技術、存儲技術和感 知技術的發展來說明大數據從采集、處理、存儲到形成結果的整個過程。個第三層面:實踐實踐是大數據的最終價值體現,我們從互聯網的大數據,政府的大數據,企業的大數據 個人的大數據四個方面來描繪大數據己經展現的美好景象及即將實現的藍圖。二、內容大綱:具體可結合本章的PPT課件進行配合講解。人類信息文明的發展大數據時代的來臨信息技術的發展數據產生方式的變革大數據的主要特征大數據的數據特征大數據的技術特征大數據的社會價值三、討論問題1-1簡述人類信息文明的發展過程并展望未來的發展方向。1-2大數據的技術特點
6、和技術優勢在哪里?1-3簡單描述大數據的主要特征。1-4結合實際談談大數據的社會價值。一、 歸納小結隨著社交網絡、物聯網、云計算的飛速發展,大量非結構化數據呈指數級快速增 長,數據樣式高度復雜,為人類認識世界,改造世界提供了重要的資源,企業和個人 通過網絡可以大規模的收集和分析數據,也可以產生和發布數據,個體在互聯的網絡 中既是數據的消費者又是數據的生產者。大規模生產、分享、應用數據的大數據時代 己經來臨。與此同時,數量巨大,種類繁多的數據給傳統的數據獲取、分析、處理、 存儲、檢索技術帶來了挑戰,大數據成為廣泛關注且急需解決的熱點問題,并已經開 始影響社會的發展與人們的日常生活。思考及作 業大
7、數據時代已經來臨,各國將在這一新的領域展開新一輪的競爭,我國應當與 時俱進,及時轉型,適應大數據時代的到來,可以借鑒各國的做法,抓住大數據時代 關鍵點,從國家戰略制定、人才培養、基礎技術研究、信息安全保障體系建設等方面 展開相應的工作。二、拓展延伸:(1)大數據時代是在什么背景環境下產生的,它對我們的現實生活產生了哪些方面的 影響?(2)大數據時代的個人隱私如何保護?(3)結合實際生活,談一談大數據的社會價值主要體現在哪些方面。(4)大數據要解決的核心問題是什么?第2章 大數據技術基礎課時內容大數據技術基礎授課時間90分鐘課時2教學目標本章課程在注重大數據時代應用環境前提下,從初學者角度出發,
8、以輕量級理論、 豐富的實例對應性地介紹了大數據常用計算模式的各種系統和工具。將經典和核心的 行業技術作為本章的主要內容,講解計算機操作系統的基本知識,幫助讀者建立對大 數據技術基礎的整體印象。教學重點0掌握計算機操作系統的基礎知識0理解和掌握編程語言0掌握數據庫的主要數據類型0理解算法的涵義0掌握大數據系統0熟悉大數據應用開發流程教學難點0理解什么是大數據技術基礎0 熟悉Linux操作系統經歷的3個發展階段0熟悉編程語言的發展和種類0 掌握Python語言自身的優點和在實際應用方面的便捷性0 了解數據庫技術是信息技術的核心技術0重點關注傳統算法和大數據時代算法的區別0 Hadoop平臺和Spa
9、rk平臺的基本構成和特征0 掌握大數據的3種主要數據類型0熟悉典型的大數據應用開發流程0 了解典型的數據科學算法應用流程教學設計1、教學思路:(1)通過本章的學習,使讀者掌握計算機操作系統的基本知識,建立 對大數據技術基礎的整體印象;(2)介紹Linux操作系統經歷的3個主要發展階段和 目前Linux的主要應用場景;(3)回顧編程語言的發展,詳細介紹編程語言的種類, 并講解了當前流行的一門編程語言Python語言的特點和優勢;(4)簡述傳統SQL數 據庫的發展歷程,講解其技術特點;(5)比較NoSQL和NewSQL數據庫的技術特色 和特點;(6)分別講述Hadoop和Spark大數據平臺的基本
10、構架和工作原理;(7)簡 述大數據應用開發的一般流程及典型數據科學算法的應用流程。2、教學手段:(1)通過課堂討論提出問題,活躍課堂氣氛并激發學員的學習興趣; (2)深入講解知識點內容,理論與案例相結合,在教學過程中掌握大數據分析的實踐 操作,通過豐富簡單易上手的實例,讓學生能夠切實體會和掌握各種類型工具的特點 和應用。教學內容一、導入新課:大數據行業經過最近幾年跨越式的發展,產生了一批與之相關的核心行業技術,我們將其 統稱為“大數據技術”。這些經典的、核心的行業技術就是本書的主要內容。計算機作為促進當 代信息技術發展的重要工具,對社會、經濟發展的影響越來越顯著,越發受到人們的重視,其操作 系
11、統也越來越龐大和復雜。因此,理解計算機操作系統的基礎知識是學習并掌握大數據技術知識的 前提,熟悉各種操作系統經歷的發展階段對于更好的理解其理論和知識架構奠定了基礎。大數據有幾個特性,最著名的是數據量(volume),速度(velocity),多樣性(variety)。除此以外,還有就是準確 性(veracity),連通性(valence),和價值(value)。從操作系統的概念入手,簡要分析了操作系統程 序和一般的應用程序有什么區別和聯系,然后講解了誕生于網絡、成長于網絡且成熟于網絡的 Linux操作系統,并分別講述其經歷的3個發展階段所具有的特點和目前Linux的主要應用場景。隨 著計算機技
12、術的不斷發展和完善,編程語言已經得到了長足的發展,并被廣泛地應用于實際,已 經成為人們與計算機進行深入“交流”的必需工具。總結介紹了目前市場上所用的主要編程語言 種類及其特點,重點講解編寫簡單,應用廣泛,功能強大和更新速度最快的Python語言。SQL涵蓋數據的查詢、操作、定義和控制,是一個綜合的、通用的且簡單易懂的數據庫綜合管 理語言,同時又是一種高度非過程化的語言,數據庫管理者只需要指出做什么而不需要指出怎么做, 即可完成對數據庫的管理。SQL可以實現對數據庫的全生命周期的全部操作,所以自產生之日起就 成了檢驗關系型數據庫管理能力的試金石,并且SQL標準的每一次變更和完善都指導著關系型數
13、據庫產品的發展方向,并分述NoSQL數據庫、NewSQL數據庫的技術特色和特點。算法(Algorithm)是數學處理的靈魂和核心,也是實現現實事務數學化、公式化和邏輯化處理 的橋梁,可以說算法是信息時代連通現實社會和虛擬世界的立交橋。本章內容重點關注傳統算法和 大數據時代算法的區別,系統闡述兩種算法的本質區別在于數據分析和數據科學。簡要介紹大數據系統目前最為著名和流行的adoop平臺和Spark平臺,分別介紹其主要模塊,平 臺基本特征和典型技術特點等。隨著大數據時代的到來,我們不得不承認如今數據量的激增越來越明顯,各種各樣的數據鋪天 蓋地的砸下來,企業選擇相應工具來存儲、分析與處理它們。那么在
14、大數據時代中,都有哪些數據 類型?結構化數據:能夠用數據或統一的結構加以表示,人們稱之為結構化數據,如數字、符號。傳 統的關系數據模型,行數據,存儲于數據庫,可用二維表結構表示。半結構化數據:所謂半結構化數據,就是介于完全結構化數據(如關系型數據庫,面向對象數 據庫中的數據)和完全無結構的數據(如聲音、圖像文件等)之間的數據,XML、HTML文檔就屬 于半結構化數據。它一般是自描述的,數據的結構和內容混在一起,沒有明顯的區分。非結構化數據庫是指其字段長度可變,并且每隔字段的記錄又可以由可重復或不可重復的子字 段構成的數據庫,用它不僅可以處理結構化數據(如數字、符號等信息)而且更適合處理非結構化
15、 數據(全文文本,圖像,聲音,影視,超媒體等信息)。現實中,大數據的數據類型滲透在日常生活中的各個方面。現如今大數據更接近于某個群體行 為數據,它是全面的數據、準確的數據、有價值的數據。這些新類型數據相信大家都很熟悉,它們 已經比傳統數據類型更深入地走進了我們生活。1、一些記錄是以模擬形式方式存在的,或者以數據形式存在但是存貯在本地,不是公開數據資 源,沒有開放給互聯網用戶,例如音樂、照片、視頻、監控錄像等影音資料。現在這些數據不但數 據量巨大,并且共享到了互聯網上,面對所有互聯網用戶,其數量之大是前所未有。2、移動互聯網出現后,移動設備的很多傳感器收集了大量的用戶點擊行為數據,它們每天產生
16、了大量的點擊數據,這些數據被某些公司所有擁有,形成用戶大量行為數據。3、電子地圖生了大量的數據流數據,這些數據不同于傳統數據,傳統數據代表一個屬性或一個 度量值,但是這些地圖產生的流數據代表著一種行為、一種習慣,這些流數據經頻率分析后會產生。4、進入了社交網絡的年代后,互聯網行為主要由用戶參與創造,大量的互聯網用戶創造出海量 的社交行為數據,這些數據是過去未曾出現的。其揭示了人們行為特點和生活習慣。5、電商戶崛起產來了大量網上交易數據,包含支付數據,查詢行為,物流運輸、購買喜好,點 擊順序,評價行為等,其是信息流和資金流數據。6、傳統的互聯網入口轉向搜索引擎之后,用戶的搜索行為和提問行為聚集了
17、海量數據。單位存 儲價格的下降也為存儲這些數據提供了經濟上的可能。二、內容大綱:具體可結合本章的PPT課件進行配合講解。計算機操作系統什么是操作系統Linux操作系統編程語言編程語言的發展與種類Python 語言數據庫SQL數據庫的發展與成熟NoSQL數據庫及其特點NoSQL數據庫的分類NewSQL 數據庫算法什么是算法大數據時代的算法大數據系統Hadoop 平臺Spark 平臺大數據的數據類型結構化數據半結構化數據非結構化數據大數據應用的開發流程數據科學算法的應用流程三、討論問題:2-1什么是操作系統的核心。操作系統核心的主要作用有哪些?2-2 Linux操作系統的優勢和主要的特點有哪些?2
18、-3何為靜態編程語言,何為動態編程語言?兩者的聯系和不同有哪些?2-4簡述傳統SQL數據庫的發展歷程。2-5 SQL數據庫的技術特點有哪些?2-6 NoSQL和NewSQL數據庫的技術特色和技術特點有哪些?2-7簡述Hadoop和Spark大數據平臺的基本構架和工作原理。2-8簡述大數據開發的一般流程。思考及作 業一、歸納小結:課堂上注意講、學、練相結合,注重以學生為主體,積極與學生互動,調動學生 的學習主動性和學習興趣,培養學生發現問題、解決問題的實際能力。采用任務驅動,問題牽引的方式,提出問題,之后帶動學生在教師的講解下一步 步尋找解決方法,再歸納總結出知識點,結合教學課件和實際案例,尋找
19、合適的切入 點,以講授和實例分析為主的形式完成教學,讓讀者對理論知識的掌握更直接、更快 速。二、拓展延伸:(1)為什么說操作系統是整個計算機硬件系統的“CEO”?這個神通廣大的操作 系統都有哪些“神通”之處?(2)NoSQL數據庫的特點都有哪些? NoSQL數據庫有哪些類型?(3)什么是算法?傳統的數據算法與大數據時代的數據算法有什么本質區別?(4)舉例說明機器學習具有顯著的技術特征和計算特色,以及主要包括的技術優 勢有哪些。(5)Hadoop平臺的三大組成是什么?在當前經濟、商業、技術領域里有什么適 應性優勢?(6)大數據的主要數據類型主要有哪些?請分別說明其特點和主要應用范圍。第3章 數據
20、采集與預處理課時內容數據采集與預處理授課時間90分鐘課時2教學目標本章詳細闡述數據采集與預處理技術,包括大數據的數據采集方法、數據來源、數據 預處理技術。教學重點0 了解大數據的來源0掌握數據的采集方法0掌握數據預處理流程教學難點0 了解大數據的來源0掌握數據的采集方法與數據預處理的主要流程教學設計1、教學思路:(1)從傳統商業數據、互聯網數據和物聯網數據3個主要方面剖析大 數據的來源,闡述各種大數據來源的特點;(2)介紹多款數據采集工具,讓讀者全面 理解和掌握數據的采集方法,講解數據預處理的基本流程,介紹數據預處理所包含的 內容和采用的方法,論述數據預處理在數據挖掘中的重要地位和作用。2、教
21、學手段:(1)通過課堂討論提出問題,活躍課堂氣氛并激發學員的學習興趣; (2)深入講解知識點內容,理論與案例相結合,在教學過程中掌握數據的采集方法和 數據預處理技術的目的和流程,通過豐富簡單易上手的實例,讓學生能夠切實理解和 掌握數據采集與預處理的相關知識內容。教學內容一、導入新課:隨著信息時代的來臨,大數據對各行各業都帶來了較大的影響。企業、個人利用大數據,給業 務和生活帶來了便利,在信息社會中,大多數行業的發展都離不開大數據的支持。在數據量非常大 的今天,如何以更高的效率獲取到分析所需要的數據,如何利用這些數據反應最真實的情況,是業 內不斷探討的議題。大數據的來源非常廣泛,如信息管理系統、
22、網絡信息系統、物聯網系統、科學 實驗系統等。本章從以下3個層面闡述了大數據的來源和主要特點。個 傳統商業數據是來自于企業ERP系統、各種POS終端及網上支付系統等業務系統的數據,傳統 商業是主要的數據來源。個 互聯網數據是指網絡空間交互過程中產生的大量數據,包括通信記錄及QQ、微信、微博等社交 媒體產生的數據,其數據復雜且難以被利用。個 物聯網數據是除了人和服務器之外,在射頻識別、物品、設備、傳感器等節點產生的大量數據, 包括射頻識別裝置、音頻采集器、視頻采集器、傳感器、全球定位設備、辦公設備、家用設備 和生產設備等產生的數據。數據采集技術是數據科學的重要組成部分,已廣泛應用于國民經濟和國防建
23、設的各個領域,并 且隨著科學技術的發展,尤其是計算機技術的發展和普及,數據采集技術具有更廣泛的發展前景。 大數據的采集技術為大數據處理的關鍵技術之一。安排在此章系統講解數據的采集方法十分必要, 能夠幫助讀者熟悉并掌握系統日志的采集方法、網頁數據的采集方法和其他數據的采集方法,使讀 者快速跨入大數據技術的大門,幫助大數據技術的初學者盡快了解大數據技術。簡要介紹幾款采用分布式架構的海量數據采集工具,對Scribe、Chukwa、Flume的基本架構、 主要功能和對日志類數據的采集、存儲、分析和展示的全套解決方案展開描述,讓讀者系統理解系 統日志的采集方法。網絡數據采集稱為“研抓屏”、“數據挖掘”或
24、“網絡收割”,通過“網絡爬蟲”程序實現。 網絡爬蟲一般是先“爬”到對應的研上,再把需要的信息“鏟”下來。網絡爬蟲采集和處理數據包括采集模塊、數據處理模塊、數據模塊這3個重要模塊。了解爬蟲的基本工作流程,并掌握URL 抓取策略,我們在實際使用網絡爬蟲時可根據具體需要選擇適合的策略即可。另外,對企業生產經營數據或學科研究數據等保密性要求較高的數據,可以通過與企業或研究 機構合作,使用特定系統接口等相關方式采集。解決大數據的隱私問題是數據采集技術的重要目標 之一。現階段的醫療機構數據更多來源于內部,外部的數據沒有得到很好的應用。對外部數據,醫 療機構可以考慮借助如百度、阿里、騰訊等公司第三方數據平臺
25、解決數據采集難題。大數據并不在“大”,而在于“有用”,數據質量比數量更為重要,然而數據通常并非完美。 準確、高質量的數據是大數據產生價值的有力保證。在大數據環境下,數據質量的優劣直接影響數 據價值的高低,進而影響人們的分析和決策。因此,數據預處理是數據挖掘前必不可少的準備工作, 是數據挖掘中非常關鍵的一步。數據預處理通過對數據格式和內容的調整,使數據更符合挖掘的需 要,從而保證數據挖掘的正解性和有效性。我們首先要弄清什么是影響數據質量的因素,數據質量 問題可能發生在大數據處理流程的每一個階段,尤其是在數據采集和集成階段最容易出現低質量的 數據,從而影響后續的建模分析和挖掘,最終出現錯誤的分析結
26、果,引起決策失誤。評估數據質量的標準是衡量數據在某一方面的性質,如準確性、完整性、一致性、及時性、可 信性、可解釋性、重復性、關聯性等。它們反映了數據質量的特性和用戶的需求。列舉其中幾個比 較重要的特性,分別描述它們的含義和用途。數據預處理的主要流程包括數據清洗、數據集成、數據變換、數據歸約等。經過這些處理步 驟,我們可以從大量的數據屬性中提取出一部分對目標輸出有重要影響的屬性,降低源數據的維 數,去除噪聲等,為數據挖掘算法提供干凈、準確且更有針對性的數據,減少挖掘算法的數據處 理量,改進數據的質量,提高挖掘效率。二、內容大綱:具體可結合本章的PPT課件進行配合講解。大數據的來源傳統商業數據互
27、聯網數據物聯網數據數據的采集方法系統日志的采集方法網頁數據的采集方法其他數據的采集方法數據預處理影響數據質量的因素數據預處理的目的數據預處理的流程三、討論問題:3-1大數據的來源有哪些?3-2針對不同類型的數據,采用什么樣的采集方法?3-3數據預處理的目的是什么?3-4數據清洗需要清洗哪些數據,應使用哪些方法?3-5數據集成過程中需要處理的問題有哪些?歸納小結:大數據技術的體系龐大且復雜,基礎的技術包含數據的采集、數據預處理、分布 式存儲、NoSQL數據庫、數據倉庫、機器學習、并行計算、可視化等各種技術范疇和 不同的技術層面。首先給出一個通用化的大數據處理框架,主要分為下面幾個方面: 數據采集
28、與預處理、數據存儲、數據清洗、數據查詢分析和數據可視化。對于各種來源的數據,包括移動互聯網數據、社交網絡的數據等,這些結構化和 非結構化的海量數據是零散的,也就是所謂的數據孤島,此時的這些數據并沒有什么 意義,數據采集就是將這些數據寫入數據倉庫中,把零散的數據整合在一起,對這些 數據綜合起來進行分析。數據采集包括文件日志的采集、數據庫日志的采集、關系型 數據庫的接入和應用程序的接入等。在數據量比較小的時候,可以寫個定時的腳本將 日志寫入存儲系統,但隨著數據量的增長,這些方法無法提供數據安全保障,并且運 維困難,需要更強壯的解決方案。思考及作 業讀者通過本章的系統學習,課堂上注意講、學、練相結合
29、,注重以學生為主體, 積極與學生互動,調動學生的學習主動性和學習興趣,培養學生發現問題、解決問題 的實際能力。采用任務驅動,問題牽引的方式,提出問題,之后帶動學生在教師的講解下一步 步尋找解決方法,再歸納總結出知識點,結合教學課件和實際案例,尋找合適的切入 點,以講授和實例分析為主的形式完成教學,讓讀者對理論知識的掌握更直接、更快 速。在掌握了數據采集的方法和數據預處理的技術方法后,才能在龐大而復雜的數據 中剔除有殘缺的、虛假的、過時的數據,為決策帶來高回報,最終獲得高質量的分析 挖掘結果。二、拓展延伸:(1)網頁數據的采集工具有哪些?(2)簡述數據預處理的技術的必要性和任務。第4章 大數據存
30、儲與管理課時內容大數據存儲模式與管理應用授課時間90分鐘課時教學目標本章首先討論數據的存儲介質,然后介紹常見的存儲模式,以及大數據時代的存儲管 理系統。教學重點0掌握數據的存儲模式0理解并掌握大數據時代的存儲管理系統教學難點0理解數據存儲的概念和種類0 熟練掌握常用的3種數據存儲模式0理解分布式平臺存儲大數據的意義和優勢,掌握分布式文件系統基礎架構教學設計1、教學思路:(1)介紹早期的存儲介質和目前常見的數據存儲介質種類及其特點; (2)簡述數據常見的3種存儲模式,列舉各種存儲模式的優缺點和適用場景;(3) 在大數據時代,需要進行存儲技術的變革,采用分布式平臺存儲大數據,講解分布式 文件系統的
31、基礎架構;(4)描繪數據庫家族圖譜,講解數據庫的種類和特點,通過數 據庫提供的多種方式來管理數據庫里的數據。2、教學手段:(1)通過課堂討論提出問題,活躍課堂氣氛并激發學員的學習興趣; (2)深入講解知識點內容,理論與案例相結合,引入常見的數據存儲模式,通過豐富 簡單易上手的實例,讓學生能夠切實理解和掌握大數據的存儲管理知識。教學內容一、導入新課:在大數據時代的背景下,海量的數據整理成為了各個企業急需解決的問題。對于企業來說,數 據對于戰略和業務連續性都十分重要,它是業務文檔、計劃、用戶數據和財務信息的積累,是任何 業務基礎設施的核心組件。云計算技術、物聯網等技術快速發展,多樣化已經成為數據信
32、息的一項 顯著特點,為充分發揮信息應用價值,有效存儲已經成為人們關注的熱點。為了有效應對現實世界 中復雜多樣性的大數據處理需求,需要針對不同的大數據應用特征,從多個角度、多個層次對大數 據進行存儲和管理。管理大數據的關鍵是制定戰略,以高自動化、高可靠、高成本效益的方式歸檔 數據。大數據現象意味著企業機構應對大量數據,以及各種數據格式的挑戰。多樣化作為有效方式 而在各行各業興起,是一種涉及各種產品來支持數據管理戰略的數據存儲模式。這些產品包括自動 化、磁盤和重復數據刪除、軟件,以及備份和歸檔。支撐這一方式的原則就是:特定類型的數據堅 持使用合適的存儲介質,在現實中需要一套與各種功能相匹配的解決方
33、案。本章綜述了基于新型存儲的大數據存儲管理技術,分析了現有大數據存儲技術的局限性,介紹 了新型存儲的特點和發展概況,總結了基于新型存儲的大數據存儲架構、基于新型存儲的大數據存 儲管理等方向的研究現狀,在此基礎上給出了基于新型存儲的大數據存儲與管理的若干未來研究方 向。目前,大數據面臨的存儲管理問題主要體現在:種類和來源多樣化、存儲管理復雜、對數據服 務的種類和水平要求越來越高等。目前,大數據主要來源于搜索引擎服務、電子商務、社交網絡、 音視頻、在線服務、個人數據業務、地理信息數據、傳統企業、公共機構等領域。因此數據呈現方 法眾多,可以是結構化、半結構化和非結構化的數據形態,不僅使原有的存儲模式
34、無法滿足數據時 代的需求,還導致存儲管理更加復雜。針對大數據高效存儲與管理問題,目前除了 Hadoop技術之外,學術界和工業界也提出了一些其 他的設計,包括以NoSQL數據庫為代表的大規模分布式數據庫系統設計、基于動態隨機存取存儲器 (dynamic random access memory, DRAM)的內存數據庫技術等。但現有的NoSQL分布式數據庫技術仍以磁盤存儲或者“磁盤+閃存flash memory)”混合存儲的方式存儲數據,本質上還是傳統 的“CPUDRAM二級存儲”的存儲架構,依然存在著內存和磁盤之間的“存儲墻”問題,難以 從本質上解決大數據實時存取的問題。此外,由于DRAM能耗
35、和成本較高,也限制了其在大規模數 據處理中的應用。由此可見,如何高效地存儲大數據并支持實時大數據處理與分析是大數據技術發 展面臨的首要問題。二、內容大綱:具體可結合本章的PPT課件進行配合講解。數據存儲概述數據的存儲介質數據的存儲模式大數據時代的存儲管理系統文件系統分布式文件系統數據庫鍵-值數據庫分布式數據庫關系型數據庫數據倉庫文檔數據庫圖形數據庫云存儲三、討論問題:4-1關系型存儲系統有哪些?4-2非關系型存儲系統有哪些,它們的特點是什么?4-3描述你對云存儲的認識。一、歸納小結:思考及作 業本章深入講解大數據存儲與管理,重點介紹大數據時代數據庫存儲技術的發展 和變化,讓初學者了解大數據時代
36、的數據存儲和管理技術。目前原有的存儲模式逐 漸跟不上時代發展的步伐,無法滿足大數據時代的需求,導致信息處理技術無法承載 信息的負荷量。這就需要對數據的存儲技術和存儲模式進行創新與研究,跟上數字 化存儲的技術的發展步伐,給用戶提供一個具有高質量的數據存儲體驗。二、拓展延伸:(1)常用的數據存儲和管理手段有哪些?(2)學習并討論華為數據存儲與智能管理的優點。(3)管理大數據存儲有哪些技巧?課時內容大數據計算框架授課時間90分鐘課時2教學目標本章討論批處理、流計算、交互式分析3種類別的框架,然后簡要介紹大數據計算 框架的一些發展趨勢,并詳細介紹MapReduce的批處理框架和Spark基于內存的混
37、合計算框架。教學重點0理解并掌握MapReduce的計算模型、資源管理框架和編程特點0 掌握Spark的基本知識、基本特點和架框原理教學難點0理解處理框架按照所處理的數據狀態分為批處理框架、流式處理框架及交互式處 理框架3種計算框架0掌握MapReduce的計算模型、資源管理框架和編程特點0 理解并掌握Spark的基本知識、生態系統、基本特點和架框原理教學設計1、教學思路:(1)對大數據的分布式計算框架進行詳細介紹(在實際應用中,大數 據主要涉及3種計算框架,包括批處理、實時流式計算、交互式分析框架);(2)詳 細介紹MapReduce的批處理框架和Spark基于內存的混合計算框架。2、教學手
38、段:(1)通過課堂討論提出問題,活躍課堂氣氛并激發學員的學習興趣; (2)深入講解知識點內容,理論與案例相結合,引入MapReduce的批處理框架和Spark 基于內存的混合計算框架的相關理論知識,讓學生能夠切實理解并掌握大數據計算框 架的基本知識。教學內容一、導入新課:隨著大數據、云計算的到來,各種業務都開始依賴大數據,包括各互聯網公司也對大數據有了 前所未有的重視,目前的數據處理系統主要包括批處理系統和實時處理系統,而且這些業務越來越 要求實時性,客戶使用云服務可以避免復雜的系統設計和設備的多次購買費用。計算機的基本工作 就是處理數據,包括磁盤文件中的數據,通過網絡傳輸的數據流或數據包,數
39、據庫中的結構化數據 等。隨著互聯網、物聯網等技術得到越來越廣泛的應用,數據規模不斷增加,TB、PB量級成為常態, 對數據的處理已無法由單臺計算機完成,而只能由多臺機器共同承擔計算任務。而在分布式環境中 進行大數據處理,除了與存儲系統打交道外,還涉及計算任務的分工,計算負荷的分配,計算機之 間的數據遷移等工作,并且要考慮計算機或網絡發生故障時的數據安全,情況要復雜得多。在大數 據時代,數據通常都是持續不斷動態產生的。在很多場合,數據需要在非常短的時間內得到處理, 并且還要考慮容錯、擁塞控制等問題,避免數據遺漏或重復計算。流計算框架則是針對這一類問題 的解決方案。理解大數據的處理框架負責對系統中的
40、數據進行計算,例如處理文件系統中存儲的數 據,或處理剛剛從系統中獲取的流式數據。本章主要分析了當前的計算框架,以此構建基于云服務的大數據分析系統,使其具有良好的 擴展性、兼容性及大數據處理引擎的自適應性選擇。處理框架按照所處理的數據狀態分為批處理 框架、流式處理框架及交互式處理框架。詳細介紹YMapReduce的批處理框架和Spark基于內存 的混合計算框架,分別講解MapReduce的計算模型、資源管理框架和編程特點,以及Spark的基本知識、生態系統、基本特點和架框原理。Hadoop最初主要包含分布式文件系統HDFS和計算框 架MapReduce兩部分,是從Nutch中獨立出來的項目。在2
41、.0版本中,又把資源管理和任務調度 功能從MapReduce中剝離形成YARN,使其他框架也可以像MapReduce那樣運行在Hadoop之上。 與之前的分布式計算框架相比,Hadoop隱藏了很多繁瑣的細節,如容錯、負載均衡等,更便于使 用。Hadoop也具有很強的橫向擴展能力,可以很容易地把新計算機接入到集群中參與計算。二、內容大綱:具體可結合本章的PPT課件進行配合講解。計算框架批處理框架流式處理框架交互式處理框架MapReduceMapReduce編程的特點MapReduce的計算模型MapReduce的資源管理框架SparkSpark的基本知識Spark的生態系統Spark的架構與原理
42、Spark RDD的基本知識三、討論問題:5-1大數據的計算框架有哪幾類?5-2 MapReduce的核心思想是什么?5-3請簡單圖示MapReduce的基本工作原理。5-4 MRv1與YARN的不同之處有哪些?5-5 Spark相比Hadoop的優勢在哪里?5-6 Spark大數據平臺涵蓋了哪些有用的大數據分析工具?一、歸納小結:本章闡述了在實際應用中,大數據主要涉及的3種計算框架,包括批處理、實時 流式計算、交互式分析框架,然后圖示MapReduce的基本工作原理,重點介紹了 MapReduce的核心思想、計算模型、資源管理框架和編程特點,以及Spark的基本知思考及作 業識、生態系統、基
43、本特點和架框原理。簡單分析Spark相比Hadoop的優勢,介紹了 Spark 大數據平臺所涵蓋的大數據分析工具。二、拓展延伸:請思考并討論Hadoop技術在移動支付行業的應用都有哪些。課時內容數據挖掘授課時間135分鐘課時3教學目標本章介紹大數據的關鍵核心技術一數據挖掘,重點對常用的數據挖掘算法進行介紹, 為讀者未來的深入學習打下基礎。數據挖掘03沉2 Mining,DM)是一門多學科交叉應 用技術,對各行各業的決策支持活動起著至關重要的作用。本章首先介紹數據挖掘的 基本概念、數據挖掘系統的組成,以及數據挖掘的對象與價值,然后介紹數據挖掘的 常用技術與工具,最后簡單介紹數據挖掘的典型應用。教
44、學重點0理解并掌握數據挖掘的概念和典型的數據挖掘系統組成0掌握數據挖掘常用的技術與工具教學難點0理解并掌握數據挖掘的概念和系統組成并體會其作用0掌握數據準備及挖掘的一般過程0掌握數據挖掘的3種技術0熟悉數據挖掘常用的5種工具及特點0 了解數據挖掘的典型應用教學設計1、教學思路:(1)引導學生培養從數據挖掘角度分析數據的意識,運用統計學 方法尋找蘊藏在數據之中的規律,借助它解決學習和生活中的實際問題;(2)通過圖 示知識挖掘的過程,引入數據挖掘的系統組成;(3)介紹數據挖掘的數據類型,分別 從技術價值、商業價值、行業價值、社會價值4個方面,對應著“三重門”即“交 易門”“交互門”“公開市場門”來
45、具體探討數據挖掘的價值;(4)分析講解數 據挖掘常用的3種技術:關聯分析、分類分析、聚類分析,以及各種技術的優缺 點;(5)介紹數據挖掘常用的5種工具:RapidMiner、WEKA、Orange、R語言、 Mining,以及各種數據挖掘的特點;(6)論述數據挖掘在社交媒體、市場營銷、科學 研究、電信、教育、醫學等領域的典型應用,闡明數據挖掘技術對當今社會的發展有 著不可替代的作用,而如何改善當下數據挖掘技術中存在的問題,進一步提高數據挖 掘技術的質量和效率,就成為數據挖掘技術進步的方向。2、教學手段:(1)通過課堂討論提出問題,活躍課堂氣氛并激發學員的學習興趣; (2)深入講解知識點內容,理
46、論與案例相結合,在教學中,為了讓學生深刻體會數據 挖掘的意義和價值,鼓勵學生對數據進行多角度加工與分析,找到規律或有用的信息, 用恰當的方式直觀地表達出來,學會搜集、分析身邊的數據,用數據說話,讓數據挖 掘更好地服務于生活與學習。教學內容一、導入新課:隨著計算機與信息技術的飛速發展和深入普及,來自商業、醫療、科學、社會及日常生活中無 處不在的數據,正以指數的方式無限增長,各行各業的數據規模已從68級別上升到TB、PB級別。 面臨如此快速擴張的數據海洋,如何有效利用這一豐富數據中蘊含的寶藏,已成為人們越來越關注 的焦點。面對全世界如此巨大的數據資源,傳統的數據分析工具和方法,已經無法有效地為決策
47、者提 供其決策支持所需要的相關知識,但各個行業又面臨著將這些數據資源轉換為有用的信息和知識的迫切需求。人們期望有這樣一種技術,能從這些大量數據中去粗求精、去偽求真。這種期望和 需求使從數據庫中挖掘信息的核心技術一一數據挖掘應運而生。可以這樣說,數據挖掘其實就是 從大量數據中找出對人們有用的信息的過程。數據挖掘是數據庫研究、開發和應用最活躍的分支。二、內容大綱:具體可結合本章的PPT課件進行配合講解。什么是數據挖掘數據挖掘的對象與價值數據挖掘的對象數據挖掘的價值數據挖掘常用的技術關聯分析分類分析聚類分析數據挖掘常用的工具RapidMinerWEKAOrangeR語言Mining數據挖掘的典型應用
48、社交媒體領域的應用市場營銷領域的應用科學研究領域的應用電信領域的應用教育領域的應用醫學領域的應用三、討論問題:6-1數據挖掘的概念。6-2數據挖掘常用的技術有哪3種?其定義分別是什么?6-3關聯分析的步驟有哪幾個?6-4分類分析與聚類分析的區別有哪些?6-5數據挖掘有哪些常用的工具?各有什么優缺點?一、歸納小結:數據挖掘的應用非常廣泛,只要該產業有分析價值與需求的數據庫,皆可利用數 據挖掘工具進行有目的的發掘分析。常見的應用案例多發生在零售業、制造業、財務 金融保險、通訊及醫療服務等領域。一些公司運用數據挖掘的成功案例,顯示了數據 挖掘的強大生命力。思考及作 業數據挖掘技術對當今社會的發展有著
49、不可替代的作用,而如何改善當下數據挖掘 技術中存在的問題,進一步提高數據挖掘技術的質量和效率,就成為數據挖掘技術進 步的方向。二、拓展延伸:(1) 大數據挖掘分析在電力設備狀態評估中的應用都有哪些?(2)數據挖掘未來的研究焦點集中在哪些方面?課時內容數據可視化授課時間90分鐘課時2教學目標本章介紹數據可視化技術,講解數據可視化的相關概念和工具教學重點0理解可視化的含義0 了解可視化的發展歷程0 理解并掌握可視化的作用0 掌握數據可視化分類0 掌握數據可視化工具教學難點0理解可視化的含義和發展歷程0 理解并掌握數據可視化的作用0 掌握數據可視化的3種分類0 了解數據可視化的特性,掌握可視化工具的
50、基本應用教學設計1、教學思路:(1)理解可視化的含義,可視化是一種使復雜信息能夠容易和快速被 人理解的手段,是一種聚焦在信息重要特征的信息壓縮,是可以放大人類感知的圖形 化表示方法;(2)縱觀數據可視化的發展歷程,人類對數據的需求由粗糙變精確、展 現形式由一維到多維、數據類型由簡單到復雜、應用領域由有限變豐富。我們很容易 發現不同時期數據的規模、精度、類型、來源是影響數據可視化形式的主要因素;政 治經濟需求、商業化應用和科學研究是數據可視化發展的重要推動力;(3)理解并掌 握可視化的作用是可視化后的信息易于認知和理解,能用一些簡短的圖形體現那些復 雜信息,并以建設性方式討論結果,理解運營和結果
51、之間的連接,允許用戶去跟蹤運 營和整體業務結果之間的對接,并且管理者可以更容易地發現各種大數據集的市場變 化和趨勢,與數據交互,可以及時帶來風險預警;(4)熟練掌握數據可視化的3種分 類:科學可視化、信息可視化、可視化分析學;(5)簡述數據可視化所必備的特性, 分別介紹4種數據可視化工具,入門級工具Excel;信息圖表工具Visem、Canva、Google Charts、Piktochart、Infogram、Venngage、Easel.ly;地圖工具 MapShaper、CartoDB、 mapbox、Map Stack;高級分析工具R語言、Data-Driven Documents (
52、數據驅動文檔)、 Python;(6)以數字美食、空中的間諜為例,深入講解知識點內容,理論 與案例相結合,幫助讀者更好掌握相關知識。2、教學手段:(1)通過課堂討論提出問題,活躍課堂氣氛并激發學員的學習興趣; (2)不斷在實踐中創新與學習,注重理論聯系實際,注重各學科交叉,利用商業、科 研、政治等領域的需求和發展來推動大數據可視化學科的進步。教學內容一、導入新課:數據可視化是當今時代的技術熱點,并在一定程序上推進了其他相關數據技術的發展和創新, 尤其是人們通過不同的可視化方法可以更好地發現整體數據的內在意義和內在聯系,為可能的數據 創新和數據服務提供強有力的支撐和幫助。數據可視化主要旨在借助于
53、圖形化手段,清晰有效地傳 達與溝通信息,它是一個處于不斷演變之中的概念,其邊界在不斷地擴大,主要指的是技術上較為 高級的技術方法,而這些技術方法允許利用圖形、圖像處理、計算機視覺以及用戶界面,通過表達、 建模以及對立體、表面、屬性以及動畫的顯示,對數據加以可視化解釋,它是關于數據視覺表現形式的科學技術研究。內容大綱:具體可結合本章的PPT課件進行配合講解。什么是可視化可視化的含義可視化的發展歷程可視化的作用數據可視化及其分類科學可視化信息可視化可視化分析學數據可視化工具入門級工具信息圖表工具地圖工具高級分析工具數據可視化案例數字美食空中的間諜三、討論問題:7-1數據可視化的意義是什么?7-2數
54、據可視化的發展現狀如何?7-3數據可視化的技術類型有哪些?7-4數據可視化的典型工具有哪些?思考及作 業一、歸納小結:大數據可視化的實施是一系列數據的轉換過程。我們有原始數據,通過對原始數 據進行標準化、結構化的處理,把它們整理成數據表。將這些數值轉換成視覺結構, 通過視覺的方式把它表現出來。例如將高中低的風險轉換成紅黃藍等色彩,數值轉換 成大小。將視覺結構進行組合,把它轉換成圖形傳遞給用戶,用戶通過人機交互的方 式進行反向轉換,去更好地了解數據背后有什么問題和規律。從技術上來說,大數據 可視化的實施步驟主要有四項:明確需求,建設數據倉庫模型,數據抽取、清洗、轉 換、加載(ETL),建立可視化
55、分析場景。在未來數據可視化的發展歷程中,數據的處理能力為核心,交互式可視化是新趨 勢。數據可視化使受眾與媒體的關系發生根本變化,得以感受到傳統報道難以揭示的 現象和規律。步入數據時代,“數據可視化”作為一種表達類型、生產類型、內容類 型,愈發高頻地走進受眾視野大數據時代,傳統的顯示技術已很難達到可以完美展示 出大規模、高緯度、非結構化數據層出不窮數據的需求。二、拓展延伸:數據可視化未來的發展趨勢如何?以及它在現實生活中的主要應用是什么?第8章 大數據與云計算課時內容大數據與云計算授課時間90分鐘課時2教學目標本章主要學習大數據處理與云計算相關原理和技術結合時代熱點介紹大數據與云計算 的關系教學
56、重點0理解云計算的概念與特點0掌握云計算的分類0掌握云計算的體系架構0 了解大數據與云計算未來的發展方向和趨勢0熟悉大數據與云計算在生產生活中的應用教學難點0理解云計算的涵義和特點0理解并掌握云計算的分類0掌握云計算的體系架構0在掌握大數據處理與云計算相關基本原理和技術的基礎上,結合實際理解大數據 與云計算的區別和聯系教學設計1、教學思路:(1)理解云計算的概念,云計算(cloud computing,分布式計算技術的 一種,其最基本的概念,是透過網絡將龐大的計算處理程序自動分拆成無數個較小的 子程序,再交由多部服務器所組成的龐大系統經搜尋、計算分析之后將處理結果回傳 給用戶。透過這項技術,網
57、絡服務提供者可以在數秒之內,達成處理數以千萬計甚至 億計的信息,達到和“超級計算機”同樣強大效能的網絡服務;(2)了解云計算具有 超大規模、虛擬化、高可靠性、通用性、高可擴展性、按需服務、極其廉價的特點;(3)簡要介紹公有云、私有云、混合云這3種不同分類的云計算的特點;(4)通過 云計算平臺架框圖了解軟件即服務(Software as a Service,SaaS)、平臺即服務(Platform as a Service,PaaS)和基礎即服務(Infrastructure as a Service,IaaS)3 種云計算的典型 服務模式;(5)理解大數據與云計算的區別與聯系;(6)了解大數據
58、與云計算未來 的發展方向和趨勢,熟悉大數據與云計算在生產生活中的應用。2、教學手段:(1)通過課堂討論提出問題,活躍課堂氣氛并激發學員的學習興趣; (2)教學應當結合實際的實驗條件,培養學生實踐動手能力,了解大數據技術發展現狀,更好地掌握所學知識點,促進大數據相關教學改革。教學內容一、導入新課:隨著信息化時代的不斷深入,信息數據的量級已經遠遠超越了個人計算機和中小型服務器的存儲 容量和處理能力,而同時因為全球化網絡的互連互通和計算機設備的不斷普及,又有很多大型網絡服 務器或者網絡中心的機器處于無用的或者小負載浪費存儲和計算能力的處境中,這個時候云計算就可 以為數據的應用和閑置的網絡資源建立橋梁
59、,也為整個信息時代的發展提供新的發展思路,并且隨著 網絡傳輸速度的不斷提升,人們越來越發現云計算具有可觀的發展前途和光明的前景。二、內容大綱:具體可結合本章的PPT課件進行配合講解。什么是云計算云計算的概念與特點云計算的分類云計算與分布式計算的區別云計算的體系架構云計算需要解決的問題具有代表性的云計算廠商8.2大數據與云計算的關系云計算將改變大數據分析大數據與云計算的區別和聯系大數據與云計算未來的發展方向和趨勢大數據與云計算在生產生活中的應用三、討論問題:8-1什么是云計算?8-2云計算的計算框架是什么?8-3云計算與大數據的關系是什么?8-4云計算未來可能的發展方向是什么?思考及作 業一、歸
60、納小結:云計算是并行計算(Parallel Computing)、分布式計算(Distributed Computing)和網格 計算(Grid Computing)的發展,或者說是這些計算機科學概念的商業實現。云計算是虛 擬化(Virtualization)、效用計算(Utility Computing)、IaaS(基礎設施即服務)、PaaS(平臺 即服務)、SaaS(軟件即服務)等概念混合演進并躍升的結果。云計(cloud computing 商業化的超大規模分布式計算技術。即:用戶可以通過已有的網絡將所需要的龐大的 計算處理程序自動分拆成無數個較小的子程序,再交由多部服務器所組成的更龐大
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 智能倉儲CRM案例分析-全面剖析
- 白血病小分子抑制劑研究進展-全面剖析
- 基于大數據的食源性疾病監測-全面剖析
- 皮脂代謝異常與脂溢性脫發關聯-全面剖析
- 人工智能決策透明度分析-全面剖析
- 2025年成人高考語文高頻考點:成語辨析速記題庫試題
- 2025年茶藝師職業技能競賽茶葉茶藝師營銷策略與品牌建設試題試卷
- 2025年高壓電工考試題庫:高壓操作安全規范安全技能試題
- 2025-2030全球及中國電影屏幕行業市場現狀供需分析及市場深度研究發展前景及規劃可行性分析研究報告
- 2025年小學語文畢業升學考試模擬試卷:口語交際與綜合實踐能力測評試題卷
- 2025-2030中國纖維增強聚合物(FRP)鋼筋行業市場現狀供需分析及投資評估規劃分析研究報告
- 2024年甘肅省農墾集團有限責任公司招聘筆試真題
- 茅臺學院《汽車理論A》2023-2024學年第二學期期末試卷
- 賓館治安管理制度
- 中國特色社會主義政治經濟學知到課后答案智慧樹章節測試答案2025年春內蒙古財經大學
- 2025年國家林業和草原局西北調查規劃設計院招聘高校畢業生2人歷年自考難、易點模擬試卷(共500題附帶答案詳解)
- 中外航海文化知到課后答案智慧樹章節測試答案2025年春中國人民解放軍海軍大連艦艇學院
- 2023-2024學年廣東省廣州大學附中七年級(下)期中數學試卷(含答案)
- 2025年春季一年級語文下冊第一單元《語文園地一》課件(統編版)
- 見證取樣送檢計劃方案
- 全國江西科學技術版小學信息技術六年級下冊第一單元第5課《主題活動:汽車定速巡航》教學設計
評論
0/150
提交評論