《大數(shù)據(jù)導(dǎo)論》復(fù)習(xí)資料_第1頁
《大數(shù)據(jù)導(dǎo)論》復(fù)習(xí)資料_第2頁
《大數(shù)據(jù)導(dǎo)論》復(fù)習(xí)資料_第3頁
《大數(shù)據(jù)導(dǎo)論》復(fù)習(xí)資料_第4頁
《大數(shù)據(jù)導(dǎo)論》復(fù)習(xí)資料_第5頁
已閱讀5頁,還剩37頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

《大數(shù)據(jù)導(dǎo)論》課程期末復(fù)習(xí)資料《大數(shù)據(jù)導(dǎo)論》課程講稿章節(jié)目錄:第1章大數(shù)據(jù)概述

(1)大數(shù)據(jù)的概念

(2)大數(shù)據(jù)的特征

(3)大數(shù)據(jù)的數(shù)據(jù)類型

(4)大數(shù)據(jù)的技術(shù)

(5)大數(shù)據(jù)的應(yīng)用

第2章大數(shù)據(jù)采集與預(yù)處理

(1)大數(shù)據(jù)采集

(2)大數(shù)據(jù)預(yù)處理概述

(3)數(shù)據(jù)清洗

(4)數(shù)據(jù)集成

(5)數(shù)據(jù)變換

(6)數(shù)據(jù)規(guī)約

第3章大數(shù)據(jù)存儲(chǔ)

(1)大數(shù)據(jù)存儲(chǔ)概述

(2)數(shù)據(jù)存儲(chǔ)介質(zhì)

(3)存儲(chǔ)系統(tǒng)結(jié)構(gòu)

(4)云存儲(chǔ)概述

(5)云存儲(chǔ)技術(shù)

(6)新型數(shù)據(jù)存儲(chǔ)系統(tǒng)

(7)數(shù)據(jù)倉庫

第4章大數(shù)據(jù)計(jì)算平臺(tái)

(1)云計(jì)算概述

(2)云計(jì)算平臺(tái)

(3)MapReduce平臺(tái)

(4)Hadoop平臺(tái)

(5)Spark平臺(tái)

第5章大數(shù)據(jù)分析與挖掘

(1)大數(shù)據(jù)分析概述

(2)大數(shù)據(jù)分析的類型及架構(gòu)

(3)大數(shù)據(jù)挖掘

(4)大數(shù)據(jù)關(guān)聯(lián)分析

(5)大數(shù)據(jù)分類

(6)大數(shù)據(jù)聚類

(7)大數(shù)據(jù)分析工具

第6章大數(shù)據(jù)可視化

(1)大數(shù)據(jù)可視化概述

(2)大數(shù)據(jù)可視化方法

(3)大數(shù)據(jù)可視化工具

第7章社交大數(shù)據(jù)精選文庫(1)社交大數(shù)據(jù)

(2)國內(nèi)社交網(wǎng)絡(luò)大數(shù)據(jù)的應(yīng)用

(3)國外社交網(wǎng)絡(luò)大數(shù)據(jù)的應(yīng)用

第8章交通大數(shù)據(jù)

(1)交通大數(shù)據(jù)概述

(2)交通監(jiān)測應(yīng)用

(3)預(yù)測人類移動(dòng)行為應(yīng)用

第9章醫(yī)療大數(shù)據(jù)

(1)醫(yī)療大數(shù)據(jù)簡介

(2)臨床決策分析應(yīng)用

(3)醫(yī)療數(shù)據(jù)系統(tǒng)分析

第10章大數(shù)據(jù)的挑戰(zhàn)與發(fā)展趨勢

(1)大數(shù)據(jù)發(fā)展面臨的挑戰(zhàn)

(2)大數(shù)據(jù)的發(fā)展趨勢一、客觀部分:(單項(xiàng)選擇、多項(xiàng)選擇)(一)、單項(xiàng)選擇1.以下不是NoSQL 數(shù)據(jù)庫的是()

A.MongoDB

B.HBase

C.Cassandra

D.DB2★考核知識(shí)點(diǎn):NoSQL與NewSQL 主流系統(tǒng)參考講稿章節(jié):3.7附1.1.1(考核知識(shí)點(diǎn)解釋):目前市場上主要的NoSQL數(shù)據(jù)存儲(chǔ)工具有:BigTable、Dynamo、Hbase、MongoDB、CouchDB、Hypertable還存在一些其他的開源的NoSQLCassandra等數(shù)據(jù)庫,Neo4j、OracleBerkeleyDB、Apache另外,NewSQL 數(shù)據(jù)庫。例如:GoogleSpanner、VoltDB、RethinkDB、Clustrix、TokuDB和MemSQL 等。2以下不是目前主流開源分布式計(jì)算系統(tǒng)的是()A.Azure

B.Hadoop

C.Spark-- 2精選文庫D.Storm★考核知識(shí)點(diǎn):主流開源分布式計(jì)算系統(tǒng)

參見講稿章節(jié):4.2

附1.1.2:(考核知識(shí)點(diǎn)解釋)

由于Google沒有開源Google分布式計(jì)算模型的技術(shù)實(shí)現(xiàn),所以其他互聯(lián)網(wǎng)公司只能根據(jù)Google三篇技術(shù)論文中的相關(guān)原理,搭建自己的分布式計(jì)算系統(tǒng)。Yahoo的工程師DougCutting和MikeCafarella在2005年合作開發(fā)了分布式計(jì)算系統(tǒng)Hadoop。后來,Hadoop被貢獻(xiàn)給了Apache基金會(huì),成為了Apache基金會(huì)的開源項(xiàng)目。Hadoop采用MapReduce分布式計(jì)算框架,并根據(jù)GFS開發(fā)了HDFS分布式文件系統(tǒng),根據(jù)BigTable開發(fā)了HBase數(shù)據(jù)存儲(chǔ)系統(tǒng)。盡管和Google內(nèi)部使用的分布式計(jì)算系統(tǒng)原理相同,但是 Hadoop在運(yùn)算速度上依然達(dá)不到Google論文中的標(biāo)準(zhǔn)。不過,Hadoop的開源特性使其成為分布式計(jì)算系統(tǒng)的事實(shí)上的國際標(biāo)準(zhǔn)。Yahoo,F(xiàn)acebook,Amazon以及國內(nèi)的百度、阿里巴巴等眾多互聯(lián)網(wǎng)公司都以Hadoop為基礎(chǔ)搭建自己的分布式計(jì)算系統(tǒng)。Spark也是Apache基金會(huì)的開源項(xiàng)目,它由加州大學(xué)伯克利分校的實(shí)驗(yàn)室開發(fā),是另外一種重要的分布式計(jì)算系統(tǒng)。它在Hadoop的基礎(chǔ)上進(jìn)行了一些架構(gòu)上的改良。Storm是Twitter主推的分布式計(jì)算系統(tǒng),它由BackType團(tuán)隊(duì)開發(fā),是Apache基金會(huì)的孵化項(xiàng)目。它在Hadoop的基礎(chǔ)上提供了實(shí)時(shí)運(yùn)算的特性,可以實(shí)時(shí)地處理大數(shù)據(jù)流。Hadoop,Spark和Storm是目前最重要的三大分布式計(jì)算系統(tǒng),Hadoop常用于離線的、復(fù)雜的大數(shù)據(jù)處理,spark常用于離線的、快速的大數(shù)據(jù)處理,而storm常用于在線的、實(shí)時(shí)的大數(shù)據(jù)處理。3.Apriori算法是一種()算法

A.關(guān)聯(lián)規(guī)則

B.聚類

C.分類

D.預(yù)測

★考核知識(shí)點(diǎn):大數(shù)據(jù)挖掘算法

參見講稿章節(jié):5.3-5.7-- 3精選文庫附1.1.2:(考核知識(shí)點(diǎn)解釋)

關(guān)聯(lián)分析(Associationanalysis)是從有噪聲的、模糊的、隨機(jī)的海量數(shù)據(jù)中,挖掘出隱藏的、事先不知道、但是有潛在關(guān)聯(lián)的信息或知識(shí)的過程,或稱關(guān)聯(lián)規(guī)則學(xué)習(xí)(Associationrulelearning

Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法,算法有兩個(gè)關(guān)鍵步驟:一是發(fā)現(xiàn)所有的頻繁項(xiàng)集;二是生成強(qiáng)關(guān)聯(lián)規(guī)則。FP(FrequentPattern)-growth算法基于Apriori構(gòu)建,但采用了高級(jí)的數(shù)據(jù)結(jié)構(gòu)減少掃描次數(shù),大大加快了算法速度。分類(Classification)任務(wù)是在給定數(shù)據(jù)基礎(chǔ)上構(gòu)建分類模型,根據(jù)分類模型確定目標(biāo)對(duì)象屬于哪個(gè)預(yù)定義的目標(biāo)類別。常用的分類算法有:決策樹、感知機(jī)、K近鄰、樸素貝葉斯、貝葉斯網(wǎng)絡(luò)、邏輯斯諦回歸、支持向量機(jī)、遺傳算法、人工神經(jīng)網(wǎng)絡(luò)等。 聚類分析(Clusteranalysis)簡稱聚類(Clustering),是把數(shù)據(jù)對(duì)象劃分成子集(類)的過程,每個(gè)子集稱為一個(gè)簇(Cluster),同一個(gè)簇中的數(shù)據(jù)之間存在最大相似性,不同簇之間的數(shù)據(jù)間存在最大的差異性。K-MEANS (K-均值)算法是一種劃分聚類方法,以k為參數(shù),將n個(gè)對(duì)象分為k個(gè)簇,以使簇(類)內(nèi)具有較高的相似度,而簇間的相似度最低。(二)、多項(xiàng)選擇1.大數(shù)據(jù)的特征包括( )

A.體量大(Volume)

B.多樣性(Variety)

C.速度快(Velocity)

D.價(jià)值高(Value)★考核知識(shí)點(diǎn):大數(shù)據(jù)的特征

參考講稿章節(jié):1.2

附1.2.1(考核知識(shí)點(diǎn)解釋):

目前在描述大數(shù)據(jù)特征時(shí),一般是按照國際數(shù)據(jù)公司IDC所提的“4V”模型來刻畫,即體量大(Volume)、多樣性(Variety)、速度快(Velocity)、價(jià)值高(Value)。1).體量大(Volume):數(shù)據(jù)量大是大數(shù)據(jù)的基本屬性。數(shù)據(jù)規(guī)模的大小是用計(jì)-- 4精選文庫算機(jī)存儲(chǔ)容量的單位來計(jì)算的,數(shù)量的單位從TB級(jí)別躍升到PB級(jí)別、EB級(jí)別,甚至ZB級(jí)別。2).多樣性(Variety):大數(shù)據(jù)除了體量大外,另一個(gè)最重要的特征就是數(shù)據(jù)類型的多樣化。即數(shù)據(jù)存在形式包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。3)速度快(Velocity):大數(shù)據(jù)環(huán)境中速度快有兩層含義:一是數(shù)據(jù)產(chǎn)生速度快;二是要求數(shù)據(jù)分析處理速度快。4)價(jià)值高(Value):大數(shù)據(jù)擁有大量有價(jià)值信息,通過提煉的信息,能夠在更高的層面和視角,將在更大的范圍幫助用戶提高決策力,洞察未來創(chuàng)造出更大的價(jià)值和商機(jī)。2.按照數(shù)據(jù)結(jié)構(gòu)分類,數(shù)據(jù)可分為( )

A.結(jié)構(gòu)化數(shù)據(jù)

B.半結(jié)構(gòu)化數(shù)據(jù)

C.非結(jié)構(gòu)化數(shù)據(jù)

D.無結(jié)構(gòu)數(shù)據(jù)★考核知識(shí)點(diǎn):按照數(shù)據(jù)結(jié)構(gòu)分,大數(shù)據(jù)的數(shù)據(jù)類型

參考講稿章節(jié):1.3

附1.2.2(考核知識(shí)點(diǎn)解釋):

大數(shù)據(jù)不僅僅體現(xiàn)在數(shù)據(jù)量大,也體現(xiàn)在數(shù)據(jù)類型多。按照數(shù)據(jù)結(jié)構(gòu)分,數(shù)據(jù)可分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。 在現(xiàn)有大數(shù)據(jù)的存儲(chǔ)中,結(jié)構(gòu)化數(shù)據(jù)僅有20%,其余80%則在存在于物聯(lián)網(wǎng)、電子商務(wù)、社交網(wǎng)絡(luò)等領(lǐng)域的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。據(jù)統(tǒng)計(jì),全球結(jié)構(gòu)化數(shù)據(jù)增長速度約為63%。32%,半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的增速高達(dá) (1)結(jié)構(gòu)化數(shù)據(jù):結(jié)構(gòu)化數(shù)據(jù),通常存儲(chǔ)在關(guān)系數(shù)據(jù)庫中,并用二維表結(jié)構(gòu)通過邏輯表達(dá)實(shí)現(xiàn)。 所有關(guān)系型數(shù)據(jù)庫(如SQLServer、Oracle、MySQL、DB2等)中的數(shù)據(jù)全部為結(jié)構(gòu)化數(shù)據(jù)。生活中我們常見的結(jié)構(gòu)化數(shù)據(jù)有企業(yè)計(jì)劃系統(tǒng)(EnterpriseResourcePlanning,ERP)、醫(yī)療的醫(yī)院信息系統(tǒng)(HospitalInformationSystem,HIS)、校園一卡通核心數(shù)據(jù)庫-- 5精選文庫 (2)半結(jié)構(gòu)化數(shù)據(jù)就是介于完全結(jié)構(gòu)化數(shù)據(jù)和完全無結(jié)構(gòu)化的數(shù)據(jù)之間的數(shù)據(jù)。例如郵件、HTML、報(bào)表、具有定義模式的XML數(shù)據(jù)文件等。典型應(yīng)用場景如郵件系統(tǒng)、檔案系統(tǒng)、教學(xué)資源庫等。半結(jié)構(gòu)化數(shù)據(jù)的格式一般為純文本數(shù)據(jù),其數(shù)據(jù)格式較為規(guī)范,可以通過某種方式解析得到其中的每一項(xiàng)數(shù)據(jù)。最常見的半結(jié)構(gòu)化數(shù)據(jù)是日志數(shù)據(jù),采用XML、JSON等格式的數(shù)據(jù)

(3)非結(jié)構(gòu)化數(shù)據(jù)是指非純文本類數(shù)據(jù),沒有標(biāo)準(zhǔn)格式,無法直接解析出相應(yīng)的值。非結(jié)構(gòu)化數(shù)據(jù)無處不在,常風(fēng)的包括Web網(wǎng)頁.即時(shí)消息或者時(shí)間數(shù)據(jù)(如微博、微信、Twitter等數(shù)據(jù))、富文本文檔(RichTextFormat,RTF)、富媒體文件(RichMedia)、實(shí)時(shí)多媒體數(shù)據(jù)(如各種視頻,音頻、圖像文件)3.根據(jù)產(chǎn)生主體的不同,大數(shù)據(jù)可以分為()

A.產(chǎn)量企業(yè)應(yīng)用產(chǎn)生的數(shù)據(jù)

B.大量個(gè)人用戶產(chǎn)生的數(shù)據(jù)

C.由巨量機(jī)器產(chǎn)生的數(shù)據(jù)

D.科研數(shù)據(jù)★考核知識(shí)點(diǎn):根據(jù)產(chǎn)生主體分,大數(shù)據(jù)的數(shù)據(jù)類型

參考講稿章節(jié):1.3

附1.2.3(考核知識(shí)點(diǎn)解釋):

數(shù)據(jù)可根據(jù)產(chǎn)生主體的不同分為三類:

(1)由少量企業(yè)應(yīng)用而產(chǎn)生的數(shù)據(jù)。關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)、數(shù)據(jù)倉庫中的數(shù)據(jù)。(2)大量個(gè)人用戶產(chǎn)生的數(shù)據(jù)。社交媒體,如微博、博客、QQ、微信、Facebook、Twitter等產(chǎn)生的大量文字、圖片、視頻、音頻數(shù)據(jù))、企業(yè)應(yīng)用的相關(guān)評(píng)論數(shù)據(jù)、電子商務(wù)在線交易、供應(yīng)商交易的日志數(shù)據(jù)。(3)由巨量機(jī)器產(chǎn)生的數(shù)據(jù)。應(yīng)用服務(wù)器日志(Web站點(diǎn)、游戲)、傳感器數(shù)據(jù)(天氣、水、智能電網(wǎng))、圖像和視頻監(jiān)控、RFID、二維碼或者條形碼掃描的數(shù)據(jù)。4.根據(jù)作用方式不同,大數(shù)據(jù)可以分為()-- 6精選文庫A.交互數(shù)據(jù)

B.社交數(shù)據(jù)

C.交易數(shù)據(jù)

D.個(gè)人數(shù)據(jù)★考核知識(shí)點(diǎn):根據(jù)作用方式的不同,大數(shù)據(jù)的數(shù)據(jù)類型分類

參考講稿章節(jié):1.3

附1.2.4(考核知識(shí)點(diǎn)解釋):

數(shù)據(jù)還可根據(jù)作用方式的不同分為兩類:

(1)交互數(shù)據(jù):指相互作用的社交網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù),包括人為生成的社交媒體交互和機(jī)器設(shè)備交互生成的新型數(shù)據(jù)。(2)交易數(shù)據(jù):交易數(shù)據(jù)是指來自于電子商務(wù)和企業(yè)應(yīng)用的數(shù)據(jù)。包括EPR(網(wǎng)絡(luò)公關(guān)系統(tǒng))、B2B(企業(yè)對(duì)企業(yè))、B2C(企業(yè)對(duì)個(gè)人)、C2C(個(gè)人對(duì)個(gè)人)、O2O(線上線下)、團(tuán)購等系統(tǒng)產(chǎn)生的數(shù)據(jù)。這些數(shù)據(jù)存儲(chǔ)在關(guān)系型數(shù)據(jù)庫和數(shù)據(jù)倉庫中,可以執(zhí)行聯(lián)機(jī)分析處理(OLAP)和聯(lián)機(jī)事務(wù)處理(OLTP)。隨著大數(shù)據(jù)的發(fā)展,此類數(shù)據(jù)的規(guī)模和復(fù)雜性一直在提高。 交互和交易這兩類數(shù)據(jù)的有效融合是大數(shù)據(jù)發(fā)展的必然趨勢,大數(shù)據(jù)應(yīng)用要有效集成這兩類數(shù)據(jù),并在此基礎(chǔ)上,實(shí)現(xiàn)對(duì)這些數(shù)據(jù)的處理和分析。5.Google分布式計(jì)算模型不包括()

A.GFS

B.BigTable

C.MapReduce

D.RDD★考核知識(shí)點(diǎn):Google的分布式計(jì)算模型

參見講稿章節(jié):4.2、4.3

附1.2.5:(考核知識(shí)點(diǎn)解釋)

2003年到2004年間,Google發(fā)表了MapReduce、GFS(GoogleFileSystem和BigTable三篇技術(shù)論文,提出了一套全新的分布式計(jì)算理論。MapReduce 是分布式計(jì)算框架。GFS是分布式文件系統(tǒng)。BigTable是基于GoogleFileSystem的數(shù)據(jù)存儲(chǔ)系統(tǒng)。這三大組件組成Google的分布式計(jì)算模型。-- 7精選文庫在Google云計(jì)算平臺(tái)的技術(shù)架構(gòu)中,除了少量負(fù)責(zé)特定管理功能的節(jié)點(diǎn)(如GFSmaster、分布式鎖Chubby和Scheduler等),所有的節(jié)點(diǎn)都是同構(gòu)的,即同時(shí)運(yùn)行GFSchunkserver、BigTableServer和MapReduceJob等核心功能模塊,與之相對(duì)應(yīng)的則是數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理和編程模型三項(xiàng)關(guān)鍵技術(shù)。6.根據(jù)數(shù)據(jù)分析深度,可將數(shù)據(jù)分析分為( )A.關(guān)聯(lián)性分析

B.預(yù)測性分析

C.規(guī)則性分析

D.描述性分析★考核知識(shí)點(diǎn):根據(jù)數(shù)據(jù)分析深度,數(shù)據(jù)分析的類型參見講稿章節(jié):5.2附1.2.6:(考核知識(shí)點(diǎn)解釋)根據(jù)數(shù)據(jù)分析深度,可將數(shù)據(jù)分析分為 3個(gè)層次:描述性分析(DescriptiveAnalysis),預(yù)測性分析(PredictiveAnalysis)和規(guī)則性分析(PrescriptiveAnalysis)。1描述性分析基于歷史數(shù)據(jù)來描述發(fā)生的事件。例如,利用回歸分析從數(shù)據(jù)集中發(fā)現(xiàn)簡單的趨勢,并借助可視化技術(shù)來更好地表示數(shù)據(jù)特征。2預(yù)測性分析用于預(yù)測未來事件發(fā)生的概率和演化趨勢。例如,預(yù)測性模型使用對(duì)數(shù)回歸和線性回歸等統(tǒng)計(jì)技術(shù)發(fā)現(xiàn)數(shù)據(jù)趨勢并預(yù)測未來的輸出結(jié)果。3規(guī)則性分析用于解決決策制定和提高分析效率。例如,利用仿真來分析復(fù)雜系統(tǒng)以了解系統(tǒng)行為并發(fā)現(xiàn)問題,并通過優(yōu)化技術(shù)在給定約束條件下給出最優(yōu)解決方案。7.根據(jù)數(shù)據(jù)分析的實(shí)時(shí)性,可將數(shù)據(jù)分析分為( )A.實(shí)時(shí)數(shù)據(jù)分析

B.預(yù)測性分析

C.規(guī)則性分析

D.離線數(shù)據(jù)分析★考核知識(shí)點(diǎn):按照數(shù)據(jù)分析的實(shí)時(shí)性,數(shù)據(jù)分析的類型-- 8精選文庫參見講稿章節(jié):5.2

附1.2.7:(考核知識(shí)點(diǎn)解釋)

按照數(shù)據(jù)分析的實(shí)時(shí)性,一般將數(shù)據(jù)分析分為實(shí)時(shí)數(shù)據(jù)分析和離線數(shù)據(jù)分析。實(shí)時(shí)數(shù)據(jù)分析也稱在線數(shù)據(jù)分析,能夠?qū)崟r(shí)處理用戶的請求。離線數(shù)據(jù)分析通過數(shù)據(jù)采集工具將日志數(shù)據(jù)導(dǎo)入專用分析平臺(tái)進(jìn)行分析,非實(shí)時(shí)處理數(shù)據(jù)。二、主觀部分:

(一)、名詞解釋

1.流處理

★考核知識(shí)點(diǎn):數(shù)據(jù)處理

參考講稿章節(jié):1.5

附2.1.1(考核知識(shí)點(diǎn)解釋):

數(shù)據(jù)處理有兩種范式,批處理和流處理。批處理:“靜止數(shù)據(jù)”轉(zhuǎn)變?yōu)椤罢褂脭?shù)據(jù)”,先存儲(chǔ)后處理(Store-then-Process),先把信息存下來,稍后一次性地處理掉;對(duì)于批量數(shù)據(jù),多采用批處理,批處理擅長全時(shí)智能,但速度慢,需要批處理加速。流處理:“動(dòng)態(tài)數(shù)據(jù)”轉(zhuǎn)變?yōu)椤罢褂脭?shù)據(jù)”,直接處理(Straight-throughProcess),任務(wù)來一件做一件,信息來一點(diǎn)處理一點(diǎn),有的直接過濾掉,有的存起來。對(duì)于流數(shù)據(jù),多采用流處理,獲得實(shí)時(shí)智能,速度快。2.磁盤陣列

★考核知識(shí)點(diǎn):磁盤陣列

參考講稿章節(jié):3.2

附2.1.2(考核知識(shí)點(diǎn)解釋):

磁盤陣列(RedundantArraysofIndependentDisks,RAID),全稱為“冗余的獨(dú)立磁盤陣列”。冗余是為了補(bǔ)救措施、保證可靠性而采取的一種方法,獨(dú)立是指磁盤陣列不在主機(jī)內(nèi)而是自成一個(gè)系統(tǒng)。磁盤陣列是由很多價(jià)格較便宜的磁盤,組合成一個(gè)容量巨大的磁盤組,利用個(gè)別磁盤提供數(shù)據(jù)所產(chǎn)生加成效果提升整個(gè)磁盤系統(tǒng)效能。RAID可以讓很多磁盤驅(qū)動(dòng)器同時(shí)傳輸數(shù)據(jù),在邏輯上又是-- 9精選文庫一個(gè)磁盤驅(qū)動(dòng)器,故使用此技術(shù)可以達(dá)到單個(gè)磁盤幾倍、幾十倍甚至上百倍的速率。在很多RAID模式中都有較為完備的相互校驗(yàn)/恢復(fù)功能,大大提高了系統(tǒng)容錯(cuò)度和穩(wěn)定性。3.云存儲(chǔ)

★考核知識(shí)點(diǎn):云存儲(chǔ)的定義

參考講稿章節(jié):3.4

附2.1.3(考核知識(shí)點(diǎn)解釋):

云存儲(chǔ)是在云計(jì)算(cloudcomputing)概念上延伸和發(fā)展出來的一個(gè)新的概念,是一種新興的網(wǎng)絡(luò)存儲(chǔ)技術(shù)。它是云計(jì)算的重要組成部分,也是云計(jì)算的重要應(yīng)用之一。云存儲(chǔ)是指通過集群應(yīng)用、網(wǎng)絡(luò)技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量各種不同類型的存儲(chǔ)設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,共同對(duì)外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問功能的一個(gè)系統(tǒng)。4.NoSQL

★考核知識(shí)點(diǎn):NoSQL

參考講稿章節(jié):3.7

附2.1.4(考核知識(shí)點(diǎn)解釋):

NoSQL(NotOnlySQL)泛指非關(guān)系型、分布式和不提供ACID的數(shù)據(jù)庫設(shè)計(jì)模式,它不是單純地反對(duì)關(guān)系型數(shù)據(jù)庫,而是強(qiáng)調(diào)鍵值(Key-Value)存儲(chǔ)數(shù)據(jù)庫和文檔數(shù)據(jù)庫的優(yōu)點(diǎn)。5.數(shù)據(jù)倉庫

★考核知識(shí)點(diǎn):數(shù)據(jù)倉庫的定義

參考講稿章節(jié):3.8

附2.1.5(考核知識(shí)點(diǎn)解釋):

WilliamH.Inmon在1992年出版BuildingtheDataWarehouse一書,第一次給出了數(shù)據(jù)倉庫的清晰定義和操作性極強(qiáng)的指導(dǎo)意見,真正拉開了數(shù)據(jù)倉庫得到大規(guī)模應(yīng)用的序幕。在該書中,將數(shù)據(jù)倉庫定義為: “一個(gè)面向主題的(subjectoriented)、集成的(integrate),相對(duì)穩(wěn)定的(non-volatile)、反映歷史變化(timevariant)的數(shù)據(jù)集合,用于支持管理決策。6.云計(jì)算

★考核知識(shí)點(diǎn):云計(jì)算的定義-- 10精選文庫參見講稿章節(jié):4.1

附2.1.6:(考核知識(shí)點(diǎn)解釋)

云計(jì)算(Cloud Computing)是一種分布在大規(guī)模數(shù)據(jù)中心、能動(dòng)態(tài)的提供各種服務(wù)器資源以滿足科研、電子商務(wù)等領(lǐng)域需求的計(jì)算平臺(tái)。同時(shí),云計(jì)算是分布式計(jì)算、并行計(jì)算和網(wǎng)絡(luò)計(jì)算的發(fā)展,是虛擬化、效用計(jì)算、IaaS(基礎(chǔ)設(shè)施即服務(wù))、PaaS(平臺(tái)即服務(wù))、SaaS(軟件即服務(wù))等概念混合演進(jìn)并躍升的結(jié)果。簡單的說,云計(jì)算是基于互聯(lián)網(wǎng)相關(guān)服務(wù)的增加、使用和交付模式,通過互聯(lián)網(wǎng)來提供一般為虛擬化的動(dòng)態(tài)易擴(kuò)展資源。狹義云計(jì)算指IT基礎(chǔ)設(shè)施的交付和使用模式;廣義云計(jì)算指服務(wù)的交付和使用模式。兩種云計(jì)算均通過網(wǎng)絡(luò)以按需、易擴(kuò)展的方式獲得所需服務(wù)。這種服務(wù)可以是IT和軟件、互聯(lián)網(wǎng)相關(guān),也可是其他服務(wù)。云計(jì)算的核心思想,是將大量用網(wǎng)絡(luò)連接的計(jì)算資源統(tǒng)一管理和調(diào)度,構(gòu)成一個(gè)計(jì)算資源池,向用戶按需服務(wù)。提供資源的網(wǎng)絡(luò)被稱為“云”。“云”中的資源在使用者看來是可以無限擴(kuò)展的,并且可以隨時(shí)獲取、按需使用、隨時(shí)擴(kuò)展、按使用付費(fèi)。7.RDD

★考核知識(shí)點(diǎn):RDD彈性分布式數(shù)據(jù)集

參見講稿章節(jié):4.5

附2.1.7:(考核知識(shí)點(diǎn)解釋)

RDD彈性分布式數(shù)據(jù)集,簡單來說,是一種自定義的可并行數(shù)據(jù)容器,可以存放任意類型的數(shù)據(jù)。彈性是指有容錯(cuò)的機(jī)制,若一個(gè)RDD分片去失,Spark可以根據(jù)粗粒度的日志數(shù)據(jù)更新記錄的信息(Spark中稱為“血統(tǒng)”)重構(gòu)它:分布式指的是能對(duì)其進(jìn)行并行的操作。除了這兩點(diǎn),它還能通過persist或者cache函數(shù)被緩存在內(nèi)存里或磁盤中,共享給其他計(jì)算機(jī),可以避免Hadoop那樣存取帶來的開銷。8.大數(shù)據(jù)分析

★考核知識(shí)點(diǎn):大數(shù)據(jù)分析的概念

參見講稿章節(jié):5.1

附2.1.8:(考核知識(shí)點(diǎn)解釋)-- 11精選文庫大數(shù)據(jù)分析是大數(shù)據(jù)理念與方法的核心,是指對(duì)海量增長快速、內(nèi)容真實(shí)、類型多樣的數(shù)據(jù)進(jìn)行分析,從中找出可以幫助決策的隱藏模式、未知的相關(guān)關(guān)系以及其他有用信息的過程。9.數(shù)據(jù)挖掘

★考核知識(shí)點(diǎn):數(shù)據(jù)挖掘的概念

參見講稿章節(jié):5.3

附2.1.9:(考核知識(shí)點(diǎn)解釋)

數(shù)據(jù)挖掘(DataMining,DM)簡單來說就是在大量的數(shù)據(jù)中提取或挖掘信息,通過仔細(xì)分析來揭示數(shù)據(jù)之間有意義的聯(lián)系、趨勢和模式。10.關(guān)聯(lián)分析

★考核知識(shí)點(diǎn):關(guān)聯(lián)分析的概念

參見講稿章節(jié):5.4

附2.1.10:(考核知識(shí)點(diǎn)解釋)

關(guān)聯(lián)分析(Associationanalysis)是從有噪聲的、模糊的、隨機(jī)的海量數(shù)據(jù)中,挖掘出隱藏的、事先不知道、但是有潛在關(guān)聯(lián)的信息或知識(shí)的過程,或稱關(guān)聯(lián)規(guī)則學(xué)習(xí)(Associationrulelearning)。11.分類分析

★考核知識(shí)點(diǎn):分類的概念

參見講稿章節(jié):5.6

附2.1.11:(考核知識(shí)點(diǎn)解釋)

分類(Classification)任務(wù)是在給定數(shù)據(jù)基礎(chǔ)上構(gòu)建分類模型,根據(jù)分類模型確定目標(biāo)對(duì)象屬于哪個(gè)預(yù)定義的目標(biāo)類別。構(gòu)建分類模型:通過分析已知訓(xùn)練樣本類別的數(shù)據(jù)集屬性,通過訓(xùn)練建立相應(yīng)分類模型,是監(jiān)督學(xué)習(xí)(supervisedlearning)過程,數(shù)據(jù)集被稱為訓(xùn)練數(shù)據(jù)集。使用模型分類:評(píng)估模型的分類預(yù)測準(zhǔn)確率,使用測試數(shù)據(jù)集進(jìn)行評(píng)估;當(dāng)準(zhǔn)確率可以接受時(shí),用分類模型對(duì)未知數(shù)據(jù)進(jìn)行分類。12.聚類分析

★考核知識(shí)點(diǎn):聚類分析的概念

參見講稿章節(jié):5.7

附2.1.12:(考核知識(shí)點(diǎn)解釋)-- 12精選文庫聚類分析(Clusteranalysis)簡稱聚類(Clustering),是把數(shù)據(jù)對(duì)象劃分成子集(類)的過程,每個(gè)子集稱為一個(gè)簇(Cluster),同一個(gè)簇中的數(shù)據(jù)之間存在最大相似性,不同簇之間的數(shù)據(jù)間存在最大的差異性。(二)、簡答

1.人類社會(huì)的數(shù)據(jù)產(chǎn)生方式經(jīng)歷了哪些階段?簡述各階段的特點(diǎn)。★考核知識(shí)點(diǎn):數(shù)據(jù)產(chǎn)生方式變革、大數(shù)據(jù)的數(shù)據(jù)來源

參見講稿章節(jié):1.1

附2.2.1(考核知識(shí)點(diǎn)解釋):

人類歷史上從未有哪個(gè)時(shí)代和今天一樣產(chǎn)生如此海量的數(shù)據(jù),人類社會(huì)的數(shù)據(jù)產(chǎn)生方式大致經(jīng)歷了3個(gè)階段:運(yùn)營式系統(tǒng)、用戶原創(chuàng)內(nèi)容階段、感知式系統(tǒng)階段。(1)運(yùn)營式系統(tǒng):

數(shù)據(jù)庫的出現(xiàn)使得數(shù)據(jù)管理的復(fù)雜度大大降低,實(shí)際中數(shù)據(jù)庫大都為運(yùn)營系統(tǒng)所采用,作為運(yùn)營系統(tǒng)的數(shù)據(jù)管理子系統(tǒng),如超市的銷售記錄系統(tǒng)、銀行的交易記錄系統(tǒng)、醫(yī)院病人的醫(yī)療記錄等。人類社會(huì)數(shù)據(jù)量第一次大的飛躍正是建立在運(yùn)營式系統(tǒng)廣泛使用數(shù)據(jù)庫開始,這些數(shù)據(jù)規(guī)范、有秩序、強(qiáng)調(diào)數(shù)據(jù)的一致性,且這些數(shù)據(jù)的產(chǎn)生方式是被動(dòng)的。(2)用戶原創(chuàng)內(nèi)容階段:

互聯(lián)網(wǎng)的誕生促使人類社會(huì)數(shù)據(jù)量出現(xiàn)第二次大的飛躍,但真正的數(shù)據(jù)爆發(fā)產(chǎn)生于Web2.0時(shí)代,其重要標(biāo)志就是用戶原創(chuàng)內(nèi)容。以博客、微博為代表的新型社交網(wǎng)絡(luò)的出現(xiàn)和快速發(fā)展,使得用戶產(chǎn)生數(shù)據(jù)的意愿更加強(qiáng)烈;新型移動(dòng)設(shè)備出現(xiàn),易攜帶、全天候接入網(wǎng)絡(luò)的移動(dòng)設(shè)備使得人員在網(wǎng)上發(fā)現(xiàn)自己意見的途徑更為便捷

數(shù)據(jù)結(jié)構(gòu)復(fù)雜,無秩序,不強(qiáng)調(diào)數(shù)據(jù)的一致性或只強(qiáng)調(diào)弱一致性,這些數(shù)據(jù)的產(chǎn)生方式是主動(dòng)的。 (3)感知式系統(tǒng):

人類社會(huì)數(shù)據(jù)量第三次大的飛躍最終導(dǎo)致了大數(shù)據(jù)的產(chǎn)生,這次飛躍的根本原因在于感知式系統(tǒng)的廣泛使用。微小帶著處理功能的傳感器設(shè)備廣泛布置于社-- 13精選文庫會(huì)的各個(gè)角落,通過這些設(shè)備對(duì)整個(gè)社會(huì)的運(yùn)轉(zhuǎn)進(jìn)行監(jiān)控,這些設(shè)備會(huì)源源不斷地產(chǎn)生新數(shù)據(jù),這些數(shù)據(jù)的產(chǎn)生方式是自動(dòng)的,數(shù)據(jù)呈現(xiàn)多源異構(gòu)、分布廣泛、動(dòng)態(tài)演化等。 簡單來說,數(shù)據(jù)產(chǎn)生經(jīng)歷了被動(dòng)、主動(dòng)和自動(dòng)三個(gè)階段,這些被動(dòng)、主動(dòng)和自動(dòng)的數(shù)據(jù)共同構(gòu)成了大數(shù)據(jù)的數(shù)據(jù)來源。2.大數(shù)據(jù)處理的關(guān)鍵技術(shù)都有哪些?并做簡要描述。★考核知識(shí)點(diǎn):大數(shù)據(jù)處理的關(guān)鍵技術(shù)(處理流程)

參考講稿章節(jié):1.4

附2.2.2(考核知識(shí)點(diǎn)解釋):

大數(shù)據(jù)處理的關(guān)鍵技術(shù)主要包括:數(shù)據(jù)采集和預(yù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)計(jì)算處理、數(shù)據(jù)分析和挖掘、數(shù)據(jù)可視化展示等。1).數(shù)據(jù)采集,又稱數(shù)據(jù)獲取,是大數(shù)據(jù)生命周期的第一個(gè)環(huán)節(jié),通過RFID射頻識(shí)別技術(shù)、傳感器、交互型社交網(wǎng)絡(luò)以及移動(dòng)互聯(lián)網(wǎng)等方式獲得的各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)。2).數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析和挖掘的基礎(chǔ),是將接收數(shù)據(jù)進(jìn)行抽取、清洗、轉(zhuǎn)換、歸約等并最終加載到數(shù)據(jù)存儲(chǔ)的過程。3).數(shù)據(jù)存儲(chǔ),需要將采集到的數(shù)據(jù)進(jìn)行存儲(chǔ)管理,建立相應(yīng)的數(shù)據(jù)庫。4).數(shù)據(jù)計(jì)算處理。單臺(tái)計(jì)算機(jī)必然無法完成海量的數(shù)據(jù)處理工作,需要分布式架構(gòu)的計(jì)算平臺(tái)。5).數(shù)據(jù)分析與挖掘,是基于商業(yè)目的,有目的的進(jìn)行收集、整理、加工和分析數(shù)據(jù),提煉有價(jià)值信息的一個(gè)過程。6).大數(shù)據(jù)可視化技術(shù),可以提供更為清晰直觀的數(shù)據(jù)表現(xiàn)形式,將錯(cuò)綜復(fù)雜的數(shù)據(jù)和數(shù)據(jù)之間的關(guān)系,通過圖片、映射關(guān)系或表格,以簡單、友好、易用的圖形化、智能化的形式呈現(xiàn)給用戶,供其分析使用。3.簡述網(wǎng)絡(luò)大數(shù)據(jù)的一般采集過程。

★考核知識(shí)點(diǎn):大數(shù)據(jù)采集

參見講稿章節(jié):2.2-- 14精選文庫附2.2.3:(考核知識(shí)點(diǎn)解釋)

大數(shù)據(jù)采集主要包括:系統(tǒng)日志采集、網(wǎng)絡(luò)數(shù)據(jù)采集、數(shù)據(jù)庫采集和其他數(shù)據(jù)采集四種。網(wǎng)絡(luò)數(shù)據(jù)采集常用的是通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息。該方法可以將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中抽取出來,將其存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件,并以結(jié)構(gòu)化的方式存儲(chǔ)。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動(dòng)關(guān)聯(lián)。網(wǎng)絡(luò)大數(shù)據(jù)的一般采集過程:先在URL隊(duì)列中寫入一個(gè)或多個(gè)目標(biāo)鏈接作為爬蟲爬取信息的起點(diǎn);爬蟲從URL隊(duì)列中讀取鏈接,并訪問該網(wǎng)站;從該網(wǎng)站爬取內(nèi)容;從網(wǎng)頁內(nèi)容中抽取出目標(biāo)數(shù)據(jù)和所有URL鏈接;從數(shù)據(jù)庫中讀取已經(jīng)抓取過內(nèi)容的網(wǎng)頁地址;過濾URL,將當(dāng)前隊(duì)列中的URL和已經(jīng)抓取過的URL進(jìn)行比較;如果該網(wǎng)頁地址沒有被抓取過,則將該地址(SpiderURL)寫入數(shù)據(jù)庫,并訪問該網(wǎng)站;如果該地址已經(jīng)被抓取過,則放棄對(duì)這個(gè)地址的抓取操作;獲取該地址的網(wǎng)頁內(nèi)容,并抽取出所需屬性的內(nèi)容值;將抽取的網(wǎng)頁內(nèi)容寫入數(shù)據(jù)庫,并將抓取到的新鏈接加入U(xiǎn)RL隊(duì)列。4.解釋為什么要進(jìn)行數(shù)據(jù)預(yù)處理。★考核知識(shí)點(diǎn):影響數(shù)據(jù)質(zhì)量因素

參考講稿章節(jié):2.3

附2.2.4(考核知識(shí)點(diǎn)解釋):

高質(zhì)量的數(shù)據(jù)是能夠滿足應(yīng)用需求的數(shù)據(jù)。數(shù)據(jù)質(zhì)量涉及很多因素,包括準(zhǔn)確性、完整性、一致性、時(shí)效性、可信性和可解釋性。1)不完整數(shù)據(jù)的出現(xiàn)可能有多種原因:重要的信息并非總是可以得到、用戶輸入時(shí)的遺漏、用戶理解錯(cuò)誤導(dǎo)致相關(guān)數(shù)據(jù)沒有記錄、設(shè)備故障導(dǎo)致的輸入缺失、記錄中不一致數(shù)據(jù)的刪除、記錄歷史或被修改的數(shù)據(jù)被忽略、缺失的數(shù)據(jù),特別是某些屬性缺失值的元組。2)不正確數(shù)據(jù)的出現(xiàn)原因有:收集數(shù)據(jù)的設(shè)備出現(xiàn)故障、人為或計(jì)算機(jī)內(nèi)部錯(cuò)誤在數(shù)據(jù)輸入時(shí)出現(xiàn)、數(shù)據(jù)傳輸中的錯(cuò)誤也可能出現(xiàn)、出于個(gè)人隱私考慮,用戶故-- 15精選文庫意向強(qiáng)制輸入字段輸入不正確的信息。3)不一致數(shù)據(jù),如命名約定或所用的數(shù)據(jù)代碼不一致、輸入字段(如日期)的格式不一致等。4)時(shí)效性:數(shù)據(jù)更新不及時(shí)對(duì)數(shù)據(jù)質(zhì)量產(chǎn)生負(fù)面影響。5)可信性反映了有多少數(shù)據(jù)是用戶信賴的。6)可解釋性反映了數(shù)據(jù)是否容易被理解。以上因素影響數(shù)據(jù)質(zhì)量,低質(zhì)量的數(shù)據(jù)將導(dǎo)致低質(zhì)量的挖掘效果,因此需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。5.試給出幾種對(duì)數(shù)據(jù)缺失值的處理方法。★考核知識(shí)點(diǎn):數(shù)據(jù)清洗

參考講稿章節(jié):2.4

附2.2.5(考核知識(shí)點(diǎn)解釋):

對(duì)缺失值的處理一般是想方設(shè)法的把他補(bǔ)充上或者干脆棄之不用,一般的處理方法有以下幾種:

(1)忽略元組。通常當(dāng)在缺少類標(biāo)號(hào)時(shí),通過這樣的方法來填補(bǔ)缺失值。除非元組有多個(gè)屬性缺少值,否則該方法的有效性不高,而且大量有價(jià)值的數(shù)據(jù)有可能被忽略。(2)人工填寫缺失值。由于用戶自己最了解關(guān)于自己的數(shù)據(jù),因此,這個(gè)方法產(chǎn)生數(shù)據(jù)偏離的問題最小,但該方法十分費(fèi)時(shí),尤其是當(dāng)數(shù)據(jù)集很大、存在很多缺失值時(shí),靠人工填寫的方法不具備實(shí)際的可操作性。(3)使用一個(gè)全局常量填充缺失值。該方法是將缺失的屬性值用同一個(gè)常數(shù)進(jìn)行替換,如"Unkown”。這種方法雖然簡單,但可用性較差。由于此方法大量采用同一屬性值,又可能會(huì)誤導(dǎo)挖掘程序得出有偏差甚至錯(cuò)誤的結(jié)論,因此,也要謹(jǐn)慎使用。(4)使用屬性的中心度量(如均值或中位數(shù))填充缺失值:

均值和中位數(shù)從不同角度反映了數(shù)據(jù)的某些統(tǒng)計(jì)特征,例如,對(duì)于對(duì)稱分布的數(shù)據(jù)而言,缺失的數(shù)據(jù)與均值的偏差期望是最小的,因此用均值補(bǔ)充缺失值可以在最大限度上控制人工添加的值對(duì)數(shù)據(jù)整體特征的影響。-- 16精選文庫(5)使用與給定元組屬同一類的所有樣本的屬性均值或中位數(shù):

例如,如果將顧客按信用風(fēng)險(xiǎn)分類,并假設(shè)顧客收入的數(shù)據(jù)分布是對(duì)稱的,則將具有相同信用風(fēng)險(xiǎn)顧客的平均收入替代數(shù)據(jù)庫列表中收入income列的缺失值;如果顧客收入的數(shù)據(jù)分布是傾斜的,則中位數(shù)是更好的選擇。(6)使用最可能的值填充缺失值。可以用回歸、使用貝葉斯形式化的基于推理的工具或決策樹歸納確定。例如,利用數(shù)據(jù)集中其他客戶顧客的屬性,可以構(gòu)造一棵決策樹來預(yù)測家庭月總收入的缺失值。6.大數(shù)據(jù)預(yù)處理技術(shù)都有哪些?并做簡要描述。★考核知識(shí)點(diǎn):大數(shù)據(jù)預(yù)處理技術(shù)

參考講稿章節(jié):2.3-2.7

附2.2.6(考核知識(shí)點(diǎn)解釋):

主流數(shù)據(jù)預(yù)處理技術(shù):數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約

1.數(shù)據(jù)清洗。數(shù)據(jù)清洗過程主要包括數(shù)據(jù)的缺省值處理、噪聲數(shù)據(jù)處理、數(shù)據(jù)不一致處理。2.數(shù)據(jù)集成。數(shù)據(jù)集成過程是將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)合并存放到一個(gè)一致的數(shù)據(jù)存儲(chǔ)(如數(shù)據(jù)倉庫)中。其中數(shù)據(jù)源可以包含多個(gè)數(shù)據(jù)庫、數(shù)據(jù)立方體或一般文件。 數(shù)據(jù)集成需要考慮諸多問題,如數(shù)據(jù)集成中對(duì)象匹配問題、冗余問題和數(shù)據(jù)值的沖突檢測與處理問題。3.數(shù)據(jù)變換。數(shù)據(jù)變換是把原始數(shù)據(jù)轉(zhuǎn)化為適合于數(shù)據(jù)挖掘的數(shù)據(jù)形式。數(shù)據(jù)轉(zhuǎn)換主要包括光滑、聚集、數(shù)據(jù)泛化、數(shù)據(jù)規(guī)范化和新屬性構(gòu)造。4.數(shù)據(jù)規(guī)約。數(shù)據(jù)歸約得到數(shù)據(jù)集的簡化表示,它小得多,但能夠產(chǎn)生同樣的(或幾乎同樣的)分析結(jié)果。數(shù)據(jù)歸約是指在盡可能保持?jǐn)?shù)據(jù)原貌的前提下,最大限度地精簡數(shù)據(jù)量保持?jǐn)?shù)據(jù)的原始狀態(tài)。有許多數(shù)據(jù)歸約策略,包括數(shù)據(jù)聚集(例如建立數(shù)據(jù)立方體)、屬性子集選-- 17精選文庫擇(例如通過相關(guān)分析去掉不相關(guān)的屬性)、維度歸約(例如使用諸如最小長度編碼或小波等編碼方案)和數(shù)據(jù)數(shù)值歸約(例如使用聚類或參數(shù)模型等較小的表示“替換"數(shù)據(jù))、數(shù)據(jù)離散化。7.簡述數(shù)據(jù)集成過程應(yīng)考慮哪些問題及如何解決。★考核知識(shí)點(diǎn):數(shù)據(jù)集成

參考講稿章節(jié):2.5

附2.2.7(考核知識(shí)點(diǎn)解釋):

數(shù)據(jù)集成需要考慮諸多問題,如數(shù)據(jù)集成中對(duì)象匹配問題、冗余問題和數(shù)據(jù)值的沖突檢測與處理問題。(1)對(duì)象匹配:模式集成和對(duì)象匹配涉及到實(shí)體識(shí)別問題。例如,如何才能確定一個(gè)數(shù)據(jù)庫中的customer_id和另一個(gè)數(shù)據(jù)庫中的cust_number指的是相同屬性?在集成期間,當(dāng)一個(gè)數(shù)據(jù)庫的屬性與另一個(gè)數(shù)據(jù)庫的屬性匹配時(shí),必須特別注意數(shù)據(jù)的結(jié)構(gòu)。這旨在確保源系統(tǒng)中的函數(shù)依賴和參照約束與目標(biāo)系統(tǒng)中的匹配。(2)冗余:一個(gè)屬性如果能由另一個(gè)或一組屬性導(dǎo)出,則這個(gè)屬性可能是冗余的。有些冗余可以被相關(guān)分析檢測到。對(duì)于數(shù)值屬性,可以使用相關(guān)系數(shù)(CorrelationCoefficient)和協(xié)方差(Covariance)來評(píng)估一個(gè)屬性的值如何隨另一個(gè)屬性變化。(3)數(shù)據(jù)值的沖突檢測與處理:對(duì)于來自同一個(gè)世界的某一實(shí)體,在不同的數(shù)據(jù)庫中可能有不同的屬性值。例如:某一表示長度的屬性在不同數(shù)據(jù)庫中分別用“厘米”和“分米”表示。檢測到這類數(shù)據(jù)值沖突后,可以根據(jù)需要修改某一數(shù)據(jù)庫的屬性值以使來自不同的數(shù)據(jù)庫中但為同一實(shí)體的屬性值統(tǒng)一起來。8.簡述大數(shù)據(jù)面臨存儲(chǔ)的問題與挑戰(zhàn)。★考核知識(shí)點(diǎn):大數(shù)據(jù)存儲(chǔ)面臨的問題與挑戰(zhàn)

參考講稿章節(jié):3.1

附2.2.8(考核知識(shí)點(diǎn)解釋):

隨著結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)數(shù)量的不斷增長,以及分析數(shù)據(jù)來源的多樣-- 18精選文庫化,之前的存儲(chǔ)系統(tǒng)設(shè)計(jì)已經(jīng)無法滿足大數(shù)據(jù)應(yīng)用的需求。 對(duì)于大數(shù)據(jù)的存儲(chǔ),存在以下問題和挑戰(zhàn):

1.容量問題:大數(shù)據(jù)通常可達(dá)到pb級(jí)的數(shù)據(jù)規(guī)模,因此大數(shù)據(jù)存儲(chǔ)系統(tǒng)需要達(dá)到相應(yīng)等級(jí)的擴(kuò)展能力。 2.延遲問題:大數(shù)據(jù)應(yīng)用還存在實(shí)時(shí)性的問題,很多大數(shù)據(jù)應(yīng)用環(huán)境,如涉及網(wǎng)上交易或者金融類相關(guān)的應(yīng)用,都需要較高的每秒進(jìn)行讀寫操作的次數(shù) 3.安全問題:某些特殊行業(yè)的應(yīng)用,例如金融數(shù)據(jù)、醫(yī)療信息以及政府情報(bào)等又都自己的安全標(biāo)準(zhǔn)和保密性需求

4.成本問題對(duì)于使用大數(shù)據(jù)環(huán)境的企業(yè),成本控制是關(guān)鍵問題

5.數(shù)據(jù)的積累,需要基于大數(shù)據(jù)的應(yīng)用要求較長的數(shù)據(jù)保存時(shí)間,為了實(shí)現(xiàn)長期的數(shù)據(jù)保存,需要存儲(chǔ)廠商開發(fā)出能持續(xù)進(jìn)行數(shù)據(jù)一致性檢測、備份和容災(zāi)等保證長期高可用性的技術(shù)

6.靈活性大數(shù)據(jù)存儲(chǔ)系統(tǒng)的基礎(chǔ)設(shè)置規(guī)模龐大,保證存儲(chǔ)系統(tǒng)的靈活性和擴(kuò)展性是一大挑戰(zhàn)。為了應(yīng)對(duì)大數(shù)據(jù)對(duì)存儲(chǔ)系統(tǒng)的挑戰(zhàn),數(shù)據(jù)存儲(chǔ)領(lǐng)域的工作者通過不懈努力提升數(shù)據(jù)存儲(chǔ)系統(tǒng)的能力,主要提升有3個(gè)方面:提升系統(tǒng)的存儲(chǔ)容量、提升系統(tǒng)的吞吐量、系統(tǒng)的容錯(cuò)性等。9.簡述傳統(tǒng)存儲(chǔ)系統(tǒng)架構(gòu)分類

★考核知識(shí)點(diǎn):存儲(chǔ)系統(tǒng)架構(gòu)

參考講稿章節(jié):3.3

附2.2.9(考核知識(shí)點(diǎn)解釋):

經(jīng)過多年發(fā)展,存儲(chǔ)系統(tǒng)架構(gòu)由早期的DAS(Direct-AttachedStorage,直連式存儲(chǔ))發(fā)展到NAS(Network-AttachedStorage,網(wǎng)絡(luò)附加存儲(chǔ))和SAN(StorageAreaNetwork,存儲(chǔ)區(qū)域網(wǎng)絡(luò)),現(xiàn)在已經(jīng)進(jìn)入到云存儲(chǔ)階段。1.直連式存儲(chǔ)(DirectAttachedStorage,DAS)是最早出現(xiàn)的最直接的擴(kuò)展數(shù)據(jù)存儲(chǔ)模式,即與普通的PC架構(gòu)一樣,存儲(chǔ)設(shè)備與主機(jī)系統(tǒng)直接相連,掛接在服務(wù)器內(nèi)部總線上。2.網(wǎng)絡(luò)附加存儲(chǔ)(NetworkAttachedStorage,NAS)是一種采用直接與網(wǎng)-- 19精選文庫絡(luò)介質(zhì)相連的特殊設(shè)備實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)的模式。3.存儲(chǔ)區(qū)域網(wǎng)絡(luò)(StorageAreaNetwork,SAN)指存儲(chǔ)設(shè)備相互連接并與服務(wù)器群相連而成網(wǎng)絡(luò),創(chuàng)造了存儲(chǔ)的網(wǎng)絡(luò)化。通過專用高速網(wǎng)將一個(gè)或多個(gè)網(wǎng)絡(luò)存儲(chǔ)設(shè)備和服務(wù)器連接起來的專用存儲(chǔ)系統(tǒng),數(shù)據(jù)處理服務(wù)器上的操作系統(tǒng)可以像訪問本地盤數(shù)據(jù)一樣對(duì)這些存儲(chǔ)設(shè)備進(jìn)行高速訪問。10.云存儲(chǔ)技術(shù)具有哪些特點(diǎn)?并加以解釋

★考核知識(shí)點(diǎn):云存儲(chǔ)的特點(diǎn)

參考講稿章節(jié):3.4

附2.2.10(考核知識(shí)點(diǎn)解釋):

云存儲(chǔ)技術(shù)具有以下特點(diǎn)

(1)可靠性。云存儲(chǔ)通過增加冗余度提高存儲(chǔ)的可靠性。但是增加可靠性受到可靠性原理、成本及性能等方面的制約,因此在在保證可靠性的同時(shí),提高系統(tǒng)的整體運(yùn)行效率是當(dāng)前一個(gè)亟待解決問題。(2)可用性。企業(yè)需要全天候地為世界不同地區(qū)的用戶提供服務(wù)支持,因此可用性至關(guān)重要。對(duì)于云存儲(chǔ)平臺(tái),冗余的架構(gòu)部分可以減少停機(jī)風(fēng)險(xiǎn)。同時(shí),多路徑、控制器、不同的光纖網(wǎng)、RAID技術(shù)、端到端的架構(gòu)控制/監(jiān)控和成熟的變更管理過程等方案均可提高云存儲(chǔ)可用性。(3)安全性。云存儲(chǔ)服務(wù)間傳輸以及保存的數(shù)據(jù)都有被截取或篡改的隱患,因此當(dāng)服務(wù)通過云交付時(shí),數(shù)據(jù)分片混淆存儲(chǔ)和數(shù)據(jù)加密傳輸成為了實(shí)現(xiàn)用戶數(shù)據(jù)私密性和保證安全性的重要手段。(4)動(dòng)態(tài)伸縮性。指的是讀/寫性能和存儲(chǔ)容易的擴(kuò)展與縮減。一個(gè)設(shè)計(jì)優(yōu)良的云存儲(chǔ)系統(tǒng)可以在系統(tǒng)運(yùn)行過程中簡單地通過添加或移除節(jié)點(diǎn)來自由擴(kuò)展和縮減,這些操作對(duì)用戶來說是透明的。 (5)低成本。云存儲(chǔ)可以降低企業(yè)級(jí)存儲(chǔ)成本,包括購置存儲(chǔ)的成本、驅(qū)動(dòng)存儲(chǔ)的成本、修復(fù)存儲(chǔ)的成本及管理存儲(chǔ)的成本。11.云存儲(chǔ)架構(gòu)分哪些層次,各層實(shí)現(xiàn)了什么功能?★考核知識(shí)點(diǎn):云存儲(chǔ)架構(gòu)

參考講稿章節(jié):3.4-- 20精選文庫附2.2.11(考核知識(shí)點(diǎn)解釋):

云存儲(chǔ)是一個(gè)由網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備、服務(wù)器、應(yīng)用軟件、公用訪問接口、接入網(wǎng)和客戶端程序等組成的復(fù)雜系統(tǒng)。以存儲(chǔ)設(shè)備為核心,通過應(yīng)用軟件來對(duì)外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問服務(wù)。云存儲(chǔ)的架構(gòu)由上而下可以分為訪問層、應(yīng)用接口層、基礎(chǔ)管理層和存儲(chǔ)層。1)存儲(chǔ)層:云存儲(chǔ)的最基礎(chǔ)部分。云存儲(chǔ)中的存儲(chǔ)設(shè)備通常分布在不同地域且數(shù)量非常龐大,通過互聯(lián)網(wǎng)、廣域網(wǎng)或FC光纖通道網(wǎng)絡(luò)把各個(gè)存儲(chǔ)設(shè)備連接在一起。統(tǒng)一存儲(chǔ)設(shè)備管理系統(tǒng)在存儲(chǔ)設(shè)備的上一層,它能夠完成多鏈路冗余管理,存儲(chǔ)設(shè)備的邏輯虛擬化管理以及硬件設(shè)備的狀態(tài)監(jiān)控與故障維護(hù)。2)基礎(chǔ)管理層:云存儲(chǔ)最核心最難以實(shí)現(xiàn)的部分,基礎(chǔ)管理層的主要功能是使云存儲(chǔ)中多個(gè)存儲(chǔ)設(shè)備之間可以協(xié)同工作,以便對(duì)外提供同一種服務(wù),能夠提供更大、更好、更強(qiáng)的數(shù)據(jù)訪問性能,它所采用的技術(shù)主要有集群系統(tǒng)、分布式文件系統(tǒng)和網(wǎng)格計(jì)算等。為了保證云存儲(chǔ)中的數(shù)據(jù)不會(huì)被未授權(quán)的用戶所訪問,它還提供了CDN內(nèi)容分發(fā)系統(tǒng)以及數(shù)據(jù)加密技術(shù)。同時(shí),為了確保云存儲(chǔ)中的數(shù)據(jù)不丟失以及云存儲(chǔ)自身的安全和穩(wěn)定,它還采取了各種數(shù)據(jù)備份、數(shù)據(jù)容災(zāi)技術(shù)和措施。3)應(yīng)用接口層:云存儲(chǔ)中靈活性最好的部分,根據(jù)實(shí)際業(yè)務(wù)類型的不同,不同的云存儲(chǔ)運(yùn)營單位開發(fā)的應(yīng)用服務(wù)接口及提供的應(yīng)用服務(wù)也不一樣。例如在線音樂播放應(yīng)用平臺(tái)、網(wǎng)絡(luò)硬盤應(yīng)用平臺(tái)、IPTV和視頻點(diǎn)播應(yīng)用平臺(tái)、遠(yuǎn)程教學(xué)應(yīng)用平臺(tái)等。4)訪問層:用戶獲得云存儲(chǔ)系統(tǒng)的授權(quán)后,就可以通過標(biāo)準(zhǔn)的公用應(yīng)用接口進(jìn)行登錄并享受云存儲(chǔ)服務(wù)。云存儲(chǔ)提供的訪問類型和訪問手段會(huì)根據(jù)云存儲(chǔ)運(yùn)營單位的不同而有所不同。12.存儲(chǔ)虛擬化技術(shù)有哪幾個(gè)實(shí)施層次,分別敘述這幾個(gè)層次的特點(diǎn)。★考核知識(shí)點(diǎn):存儲(chǔ)虛擬化實(shí)施層次

參考講稿章節(jié):3.5

附2.2.12(考核知識(shí)點(diǎn)解釋):

根據(jù)不同的虛擬化實(shí)現(xiàn)位置,虛擬化還可以分為基于主機(jī)虛擬化、基于存儲(chǔ)-- 21精選文庫設(shè)備虛擬化和基于存儲(chǔ)網(wǎng)絡(luò)虛擬化。1)基于主機(jī)虛擬化。基于主機(jī)的虛擬化存儲(chǔ)的核心技術(shù)是,通過增加一個(gè)運(yùn)行在操作系統(tǒng)下的邏輯卷管理軟件將磁盤上的物理塊號(hào)映射成邏輯卷號(hào),從而把多個(gè)物理磁盤陣列映射成一個(gè)統(tǒng)一的虛擬邏輯塊,來進(jìn)行存儲(chǔ)虛擬化的控制和管理。2)基于存儲(chǔ)設(shè)備虛擬化。基于存儲(chǔ)設(shè)備虛擬化技術(shù)依賴于提供相關(guān)功能的存儲(chǔ)設(shè)備的陣列控制器模塊,常見于高端存儲(chǔ)設(shè)備,其主要應(yīng)用針對(duì)異構(gòu)的SAN存儲(chǔ)構(gòu)架。3)基于存儲(chǔ)網(wǎng)絡(luò)虛擬化。基于存儲(chǔ)網(wǎng)絡(luò)虛擬化技術(shù)的核心是在存儲(chǔ)區(qū)域網(wǎng)中增加虛擬化引擎實(shí)現(xiàn)存儲(chǔ)資源的集中管理,其具體實(shí)施一般是通過具有虛擬化支持能力的路由器或交換機(jī)實(shí)現(xiàn)的。13.云存儲(chǔ)關(guān)鍵技術(shù)

★考核知識(shí)點(diǎn):云存儲(chǔ)技術(shù)

參考講稿章節(jié):3.5-3.6

附2.2.13(考核知識(shí)點(diǎn)解釋):

云存儲(chǔ)技術(shù)是多種技術(shù)的集合體,這些技術(shù)涉及硬件、軟件和網(wǎng)絡(luò)等計(jì)算機(jī)技術(shù)的各個(gè)方面,具有高可用性、高可靠性、高安全性和低成本等特征。1.存儲(chǔ)虛擬化。存儲(chǔ)虛擬化可以將系統(tǒng)中不同廠商、不同型號(hào)、不同通信技術(shù)、不同類型的存儲(chǔ)設(shè)備映射為一個(gè)統(tǒng)一的存儲(chǔ)資源池,屏蔽了存儲(chǔ)實(shí)體之間的物理位置及異構(gòu)特征,從而對(duì)這些存儲(chǔ)資源進(jìn)行統(tǒng)一分配管理。在虛擬化存儲(chǔ)環(huán)境中,服務(wù)器及應(yīng)用系統(tǒng)面對(duì)的都是物理設(shè)備的邏輯映像,且不會(huì)隨物理設(shè)備的改變而變化,實(shí)現(xiàn)了資源對(duì)系統(tǒng)管理員的透明性,在降低構(gòu)建存儲(chǔ)系統(tǒng)成本的同時(shí)使管理和維護(hù)資源變得容易。云存儲(chǔ)的虛擬化將存儲(chǔ)資源虛擬化為全局命名空間,并通過多租戶技術(shù)給使用者提供存儲(chǔ)資源,在此過程中,數(shù)據(jù)可以在存儲(chǔ)資源池中跨節(jié)點(diǎn)、跨數(shù)據(jù)中心流動(dòng)。 根據(jù)不同的虛擬化實(shí)現(xiàn)位置,虛擬化還可以分為基于主機(jī)虛擬化、基于存儲(chǔ)設(shè)備虛擬化和基于存儲(chǔ)網(wǎng)絡(luò)虛擬化。2.分布式存儲(chǔ)。-- 22精選文庫 (1)分布式塊存儲(chǔ)。塊存儲(chǔ)就是服務(wù)器直接通過讀寫存儲(chǔ)空間中的一個(gè)或一段地址來存取數(shù)據(jù)。(2)分布式對(duì)象存儲(chǔ)。對(duì)象存儲(chǔ)是為海量數(shù)據(jù)提供Key-Value這種通過鍵值查找數(shù)據(jù)文件的存儲(chǔ)模式;對(duì)象存儲(chǔ)引入對(duì)象元數(shù)據(jù)來描述對(duì)象特征,對(duì)象元數(shù)據(jù)具有豐富的語義;引入容器概念作為存儲(chǔ)對(duì)象的集合。對(duì)象存儲(chǔ)系統(tǒng)底層基于分布式存儲(chǔ)系統(tǒng)來實(shí)現(xiàn)數(shù)據(jù)的存取,其存儲(chǔ)方式對(duì)外部應(yīng)用透明。這樣的存儲(chǔ)系統(tǒng)架構(gòu)具有高可擴(kuò)展性,支持?jǐn)?shù)據(jù)的并發(fā)讀寫,一般不支持?jǐn)?shù)據(jù)的隨機(jī)寫操作。 (3)分布式文件系統(tǒng)。文件存儲(chǔ)系統(tǒng)可提供通用的文件訪問接口,如POSIX、NFS、CIFS、FTP等,實(shí)現(xiàn)文件與目錄操作、文件訪問、文件訪問控制等功能。目前的分布式文件系統(tǒng)存儲(chǔ)的實(shí)現(xiàn)有軟硬件一體和軟硬件分離兩種方式。主要通過NAS虛擬化,或者基于x86硬件集群和分布式文件系統(tǒng)集成在一起,以實(shí)現(xiàn)海量非結(jié)構(gòu)化數(shù)據(jù)處理能力。 3.數(shù)據(jù)縮減

云存儲(chǔ)中的數(shù)據(jù)縮減技術(shù),滿足了海量信息爆炸式增長趨勢,一定程度上節(jié)約企業(yè)存儲(chǔ)成本,提高效率。 (1)自動(dòng)精簡配置。自動(dòng)精簡配置技術(shù)是利用虛擬化方法減少物理存儲(chǔ)空間的分配,最大限度提升存儲(chǔ)空間利用率。 (2)自動(dòng)存儲(chǔ)分層。自動(dòng)存儲(chǔ)分層(AutomatedStorageTier'AST)技術(shù)主要用來幫助數(shù)據(jù)中心最大限度地降低成本和復(fù)雜性。(3)重復(fù)數(shù)據(jù)刪除。“重復(fù)刪除”技術(shù)(De-duplication)作為一種數(shù)據(jù)縮減技術(shù)可對(duì)存儲(chǔ)容量進(jìn)行優(yōu)化。它通過刪除數(shù)據(jù)集中重復(fù)的數(shù)據(jù),只保留其中一份,從而消除冗余數(shù)據(jù)。4.負(fù)載均衡。龐大的數(shù)據(jù)量必然會(huì)用來支持海量的請求,云存儲(chǔ)一個(gè)典型特點(diǎn)就是實(shí)現(xiàn)這些請求在系統(tǒng)內(nèi)部的負(fù)載均衡。在傳統(tǒng)的負(fù)載均衡中,處于網(wǎng)絡(luò)邊緣的設(shè)備將來自不同地址的請求均勻地、最優(yōu)化地發(fā)送到各個(gè)承載設(shè)備上。而在云存儲(chǔ)中,除了在網(wǎng)絡(luò)邊緣實(shí)現(xiàn)DNS動(dòng)態(tài)均勻解析的負(fù)載均衡設(shè)備,還有在系統(tǒng)內(nèi)部的負(fù)載均衡機(jī)制,即在節(jié)點(diǎn)資源之間的負(fù)載均衡。14.NoSQL普遍采用的技術(shù)-- 23精選文庫★考核知識(shí)點(diǎn):NoSQL普遍采用的技術(shù)

參考講稿章節(jié):3.7

附2.2.14(考核知識(shí)點(diǎn)解釋):

NoSQL系統(tǒng)普遍采用的一些技術(shù)有以下幾種。 (1)簡單數(shù)據(jù)模型。不同于分布式數(shù)據(jù)庫,大多數(shù)NoSQL系統(tǒng)采用更加簡單的數(shù)據(jù)模型.(2)元數(shù)據(jù)和應(yīng)用數(shù)據(jù)的分離。NoSQL數(shù)據(jù)管理系統(tǒng)需要維護(hù)兩種數(shù)據(jù):元數(shù)據(jù)和應(yīng)用數(shù)據(jù)。元數(shù)據(jù)是用于系統(tǒng)管理的,如數(shù)據(jù)分區(qū)到集群中節(jié)點(diǎn)和副本的映射數(shù)據(jù)。應(yīng)用數(shù)據(jù)就是用戶存儲(chǔ)在系統(tǒng)中的商業(yè)數(shù)據(jù)。(3)弱一致性。NoSQL系統(tǒng)通過復(fù)制應(yīng)用數(shù)據(jù)來達(dá)到一致性。這種設(shè)計(jì)使得更新數(shù)據(jù)時(shí)副本同步的開銷很大,為了減少這種同步開銷,弱一致性模型如最終一致性和時(shí)間軸一致性得到廣泛應(yīng)用。15.請分析相比于關(guān)系型數(shù)據(jù)庫,NoSQL數(shù)據(jù)存儲(chǔ)管理系統(tǒng)的主要優(yōu)勢與劣勢。★考核知識(shí)點(diǎn):新興數(shù)據(jù)存儲(chǔ)系統(tǒng)

參見講稿章節(jié):3.7

附2.2.15:(考核知識(shí)點(diǎn)解釋)

相對(duì)于關(guān)系型數(shù)據(jù)庫,NoSQL數(shù)據(jù)存儲(chǔ)管理系統(tǒng)的主要優(yōu)勢有以下幾方面。(1)避免不必要的復(fù)雜性。關(guān)系型數(shù)據(jù)庫提供各種各樣的特性和強(qiáng)一致性,但是許多特性只能在某些特定的應(yīng)用中使用,大部分功能很少被使用。NoSQL系統(tǒng)則提供較少的功能來提高性能。(2)高吞吐量。一些NoSQL數(shù)據(jù)系統(tǒng)的吞吐量比傳統(tǒng)關(guān)系數(shù)據(jù)管理系統(tǒng)要高很多,如Google使用MapReduce每天可處理20PB存儲(chǔ)在Bigtable中的數(shù)據(jù)。(3)高水平擴(kuò)展能力和低端硬件集群。NoSQL數(shù)據(jù)系統(tǒng)能夠很好地進(jìn)行水平擴(kuò)展,與關(guān)系型數(shù)據(jù)庫集群方法不同,這種擴(kuò)展不需要很大的代價(jià)。而基于低端硬件的設(shè)計(jì)理念為采用NoSQL數(shù)據(jù)系統(tǒng)的用戶節(jié)省了很多硬件上的開銷。 (4)避免了昂貴的對(duì)象-關(guān)系映射。許多NoSQL系統(tǒng)能夠存儲(chǔ)數(shù)據(jù)對(duì)象,這就避免了數(shù)據(jù)庫中關(guān)系模型和程序中對(duì)象模型相互轉(zhuǎn)化的代價(jià)。-- 24精選文庫 雖然NoSQL數(shù)據(jù)庫提供了高擴(kuò)展性和靈活性,但是它也有自己的缺點(diǎn),主要有以下幾方面.(1)數(shù)據(jù)模型和查詢語言未經(jīng)數(shù)學(xué)驗(yàn)證。SQL這種基于關(guān)系代數(shù)和關(guān)系演算的查詢結(jié)構(gòu)有著堅(jiān)實(shí)的數(shù)學(xué)保證,即使一個(gè)結(jié)構(gòu)化的查詢本身很復(fù)雜,但是它能夠獲取滿足條件的所有數(shù)據(jù).由于NoSQL系統(tǒng)都沒有使用SQL,而使用SQL的一些模型還未有完善的數(shù)學(xué)基礎(chǔ)。這也是NoSQL系統(tǒng)較為混亂的主要原因之一(2)不支持ACID特性。這為NoSQL帶來優(yōu)勢的同時(shí)也是其缺點(diǎn),畢竟事務(wù)在很多場合下還是需要的,ACID特性使系統(tǒng)在中斷的情況下也能夠保證在線事務(wù)能夠準(zhǔn)確執(zhí)行。(3)功能簡單。大多數(shù)NoSQL系統(tǒng)提供的功能都比較簡單,這就增加了應(yīng)用層的負(fù)擔(dān),例如,如果在應(yīng)用層實(shí)現(xiàn)ACID特性,那么編與代碼的程序員一定非常痛苦。 (4)沒有統(tǒng)一的查詢模型。NOSQL系統(tǒng)一般提供不同查詢模型,這一定限度上增加了開發(fā)者的負(fù)擔(dān)。16.數(shù)據(jù)倉庫有哪些特點(diǎn)?并做簡要描述。★考核知識(shí)點(diǎn):數(shù)據(jù)倉庫的特點(diǎn)

參考講稿章節(jié):3.8

附2.2.16(考核知識(shí)點(diǎn)解釋):

(1)數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題組織的。數(shù)據(jù)倉庫是按照面向主題的方式進(jìn)行數(shù)據(jù)組織的,也就是在較高層次上對(duì)分析對(duì)象的數(shù)據(jù)作個(gè)完整、一致的描述,能有效地刻畫出分析對(duì)象所涉及的各項(xiàng)數(shù)據(jù)及數(shù)據(jù)間的聯(lián)系。這種數(shù)據(jù)組織方式更能適合較高層次的數(shù)據(jù)分析,便于發(fā)現(xiàn)數(shù)據(jù)中蘊(yùn)含的模式和規(guī)律。 主題通常是在一個(gè)較高層次上將數(shù)據(jù)歸類的標(biāo)準(zhǔn),每個(gè)主題對(duì)應(yīng)一個(gè)宏觀分析領(lǐng)域。(2)數(shù)據(jù)倉庫的數(shù)據(jù)是集成的。 數(shù)據(jù)倉庫中每一主題對(duì)應(yīng)的源數(shù)據(jù)在原有的各分散數(shù)據(jù)庫中可能是重復(fù)出現(xiàn)的、不一致的,數(shù)據(jù)倉庫中的數(shù)據(jù)不能從原有的數(shù)據(jù)庫系統(tǒng)中直接得到。-- 25精選文庫 事務(wù)處理系統(tǒng)中的操作型數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉庫之前,必須經(jīng)過統(tǒng)一和綜合,演變?yōu)榉治鲂蛿?shù)據(jù)。(3)數(shù)據(jù)倉庫的數(shù)據(jù)是穩(wěn)定的。數(shù)據(jù)倉庫中存放的是供分析決策用的歷史數(shù)據(jù),而不是聯(lián)機(jī)事務(wù)處理的當(dāng)前數(shù)據(jù),涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一般不進(jìn)行數(shù)據(jù)的增、刪、改操作,業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)經(jīng)集成進(jìn)入數(shù)據(jù)倉庫之后極少或根本不再更新。 如果對(duì)數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行了修改,就失去了統(tǒng)計(jì)分析正確性的基礎(chǔ)一一數(shù)據(jù)的真實(shí)性。(4)數(shù)據(jù)倉庫的數(shù)據(jù)是隨時(shí)間不斷變化的。數(shù)據(jù)倉庫中的數(shù)據(jù)不是永遠(yuǎn)不變的。數(shù)據(jù)倉庫數(shù)據(jù)是隨時(shí)間變化的,數(shù)據(jù)倉庫系統(tǒng)需要不斷獲取聯(lián)機(jī)事務(wù)處理系統(tǒng)不同時(shí)刻的數(shù)據(jù),經(jīng)集成后追加到數(shù)據(jù)倉庫中,因此數(shù)據(jù)倉庫中數(shù)據(jù)的碼(鍵)都包含時(shí)間項(xiàng),以表明數(shù)據(jù)的歷史時(shí)期,并可在時(shí)間維度上對(duì)數(shù)據(jù)進(jìn)行分析。 此外,數(shù)據(jù)倉庫中的數(shù)據(jù)也有時(shí)間期限,在新數(shù)據(jù)不斷進(jìn)入的同時(shí),過時(shí)的數(shù)據(jù)也要從數(shù)據(jù)倉庫中排除出去。17.簡述數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別。 ★考核知識(shí)點(diǎn):數(shù)據(jù)倉庫

參考講稿章節(jié):3.8

附2.2.17:(考核知識(shí)點(diǎn)解釋)

數(shù)據(jù)倉庫是在數(shù)據(jù)庫的基礎(chǔ)上發(fā)展起來的,數(shù)據(jù)倉庫把數(shù)據(jù)從各個(gè)信息源中提取出來后,

依照數(shù)據(jù)倉庫使用的公共數(shù)據(jù)模型,進(jìn)行相應(yīng)變換后與倉庫中現(xiàn)有數(shù)據(jù)集成在一起。在數(shù)據(jù)

倉庫中,數(shù)據(jù)可以被直接訪問,查詢和分析處理速度很快。數(shù)據(jù)倉庫的特點(diǎn)決定了它與傳統(tǒng)

的數(shù)據(jù)庫系統(tǒng)之間必然存在很大的差異。二者之間的區(qū)別主要體現(xiàn)在以下幾個(gè)方面。 (1)數(shù)據(jù)庫中存儲(chǔ)的都是當(dāng)前使用的值,而數(shù)據(jù)倉庫中的數(shù)據(jù)都是一些歷史的、存檔的、歸納的、計(jì)算的數(shù)據(jù)。-- 26精選文庫 (2)數(shù)據(jù)庫的數(shù)據(jù)主要是面向業(yè)務(wù)操作程序的,可以重復(fù)處理,主要是用來進(jìn)行事務(wù)處理的。而數(shù)據(jù)倉庫卻是面向主題,主要是用來分析應(yīng)用的。 (3)數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)是高度結(jié)構(gòu)化的,比較復(fù)雜,適用于操作計(jì)算。而數(shù)據(jù)倉庫的數(shù)據(jù)卻比較簡單,適用于分析處理。(4)數(shù)據(jù)庫中的數(shù)據(jù)使用頻率是很高的。數(shù)據(jù)倉庫中的數(shù)據(jù)則不是很高。(5)通常對(duì)數(shù)據(jù)庫中事務(wù)的訪問,只需要訪問少量的記錄數(shù)據(jù)。而對(duì)數(shù)據(jù)倉庫中事務(wù)的訪問就可能需要訪問大量的記錄。 (6)對(duì)數(shù)據(jù)的響應(yīng)時(shí)間一般要求比較高,通常是以秒為單位。而對(duì)數(shù)據(jù)倉庫的響應(yīng)時(shí)間要求則較低,通常比較長。18.云計(jì)算有哪些特點(diǎn)?并做簡要描述。 ★考核知識(shí)點(diǎn):云計(jì)算的特點(diǎn)

參見講稿章節(jié):4.1

附2.2.18:(考核知識(shí)點(diǎn)解釋)

云計(jì)算的特點(diǎn)如下:

(1)超大規(guī)模。“云”具有相當(dāng)大的規(guī)模,Google云計(jì)算己經(jīng)擁有上百萬臺(tái)服務(wù)器;Amazon、IBM、Microsoft、Yahoo等公司的“云”均擁有幾十萬臺(tái)服務(wù)器;一般企業(yè)私有云則可擁有數(shù)百上千臺(tái)服務(wù)器。“云”能賦予用戶前所未有的計(jì)算能力。 (2)高可靠性。分布式數(shù)據(jù)中心可將云端的用戶信息備份到地理上相互隔離的數(shù)據(jù)庫主機(jī)中,甚至連用戶自己也無法判斷信息的確切備份地點(diǎn)。該特點(diǎn)不僅提供了數(shù)據(jù)恢復(fù)的依據(jù),也使得網(wǎng)絡(luò)病毒和網(wǎng)絡(luò)黑客的攻擊因?yàn)槭ツ康男远兂赏絼冢蟠筇岣呦到y(tǒng)的安全性和容災(zāi)能力。(3)虛擬化。云計(jì)算支持用戶在任意位置、使用各種終端獲取應(yīng)用服務(wù)。所請求的資源來自“云”,而非固定的有形的實(shí)體。應(yīng)用在“云”中某處運(yùn)行,但用戶無需了解,也不用擔(dān)心應(yīng)用運(yùn)行的具體位置。(4)高擴(kuò)展性。目前主流的云計(jì)算平臺(tái)均根據(jù)SPI架構(gòu),構(gòu)建在各層集成功能各異的軟硬件設(shè)備和中間件軟件。大量中間件軟件和設(shè)備提供針對(duì)該平臺(tái)的通用接口,允許用戶添加本層的擴(kuò)展設(shè)備。部分云與云之間提供對(duì)應(yīng)接口,允許-- 27精選文庫用戶在不同云之間進(jìn)行數(shù)據(jù)遷移。類似功能更大程度上滿足了用戶需求,集成了計(jì)算資源,是未來云計(jì)算的發(fā)展方向之一

(5)按需服務(wù)。“云”是一個(gè)龐大的資源池,可以像自來水、電、煤氣那樣計(jì)費(fèi),并按需購買。(6)極其廉價(jià)。“云”的特殊容錯(cuò)措施可以采用極其廉價(jià)的節(jié)點(diǎn)來構(gòu)成云。“云”的自動(dòng)化集中式管理,使大量企業(yè)無需負(fù)擔(dān)日益高昂的數(shù)據(jù)中心管理成本,“云”的通用性使資源的利用率較之傳統(tǒng)系統(tǒng)大幅提升,因此用戶可以充分享受“云”的低成本優(yōu)勢。19.簡述云計(jì)算的體系架構(gòu)分層及每層的含義。

★考核知識(shí)點(diǎn):云計(jì)算體系架構(gòu)

參見講稿章節(jié):4.1

附2.2.19:(考核知識(shí)點(diǎn)解釋)云計(jì)算可以按需提供彈性資源,它的表現(xiàn)形式是一系列服務(wù)的集合。結(jié)合當(dāng)前云計(jì)算的應(yīng)用與研究,其體系架構(gòu)可分為核心服務(wù)、服務(wù)管理、用戶訪問接口三層。1)核心服務(wù)層將硬件基礎(chǔ)設(shè)施、軟件運(yùn)行環(huán)境、應(yīng)用程序抽象成服務(wù),這些服務(wù)具有可靠性強(qiáng)、可用性高、規(guī)模可伸縮等特點(diǎn),滿足多樣化的應(yīng)用需求。 2)服務(wù)管理層為核心服務(wù)提供支持,進(jìn)一步確保核心服務(wù)的可靠性、可用性與安全性。3)用戶訪問接口層實(shí)現(xiàn)端到云的訪問。20.簡述云計(jì)算的核心服務(wù)模型。

★考核知識(shí)點(diǎn):云計(jì)算服務(wù)模型

參見講稿章節(jié):4.1

附2.2.20:(考核知識(shí)點(diǎn)解釋)-- 28精選文庫IaaS、PaaS、SaaS是云計(jì)算的三種服務(wù)模型。 基礎(chǔ)設(shè)施即服務(wù)(IaaS):消費(fèi)者通過Internet可以從完善的計(jì)算機(jī)基礎(chǔ)設(shè)施獲得服務(wù)。 平臺(tái)即服務(wù)(PaaS):PaaS實(shí)際上是指將軟件研發(fā)的平臺(tái)作為一種服務(wù),以SaaS的模式提交給用戶。 軟件即服務(wù)(SaaS):軟件即服務(wù)。它是一種通過Internet提供軟件的模式,用戶無需購買軟件,而是向提供商租用基于Web的軟件,來管理企業(yè)經(jīng)營活動(dòng)。21.試對(duì)MapReduce編程模型原理進(jìn)行描述。 ★考核知識(shí)點(diǎn):MapReduce編程模型原理

參見講稿章節(jié):4.3

附2.2.21:(考核知識(shí)點(diǎn)解釋)

MapReduce編程模型結(jié)合用戶實(shí)現(xiàn)的Map和Reduce函數(shù),可完成大規(guī)模地并行化計(jì)算。MapReduce編程模型的原理是:用戶自定義的Map函數(shù)處理一個(gè)輸入的基于key-valuepair的集合,輸出中間基于key-valuepair的集合,MapReduce庫把中間所有具有相同key值的value值集合在一起后傳遞給Reduce函數(shù),用戶自定義的Reduce函數(shù)合并所有具有相同key值的value值,形成一個(gè)較小value值的集合。22.請寫出MapReduce程序的執(zhí)行過程。 ★考核知識(shí)點(diǎn):MapReduce執(zhí)行過程

參見講稿章節(jié):4.3

附2.2.22:(考核知識(shí)點(diǎn)解釋)

MapReduce執(zhí)行過程主要包括以下幾方面。(1)將輸入的海量數(shù)據(jù)切片分給不同的機(jī)器處理。(2)執(zhí)行Map任務(wù)的Worker將輸入數(shù)據(jù)解析成key-valuepair,用戶定義的Map函數(shù)把輸入的key-valuepair轉(zhuǎn)成中間形式的key-valuepair。(3)按照key值對(duì)中間形式的key-value進(jìn)行排序、聚合。(4)把不同的key值和相應(yīng)的value集分配給不同的機(jī)器,完成Reduce運(yùn)算。-- 29精選文庫(5)輸出Reduce結(jié)果。23.簡述HDFS集群的構(gòu)成及各部分的功能。 ★考核知識(shí)點(diǎn):HDFS集群的構(gòu)成

參見講稿章節(jié):4.4

附2.2.23:(考核知識(shí)點(diǎn)解釋)

一個(gè)HDFS集群由一個(gè)名字節(jié)點(diǎn)(NameNode)和若干個(gè)數(shù)據(jù)節(jié)點(diǎn)(DataNode)構(gòu)成

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論