




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)概述01BigDataOverview大數(shù)據(jù)概念BigDataConcept1.1.1大數(shù)據(jù)定義與含義定義大數(shù)據(jù)(BigData)是一種大規(guī)模的包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的復(fù)雜數(shù)據(jù)集合,大大超出了傳統(tǒng)軟件和工具的處理能力。簡單來說,大數(shù)據(jù)就是規(guī)模大、增長快、類型復(fù)雜且需要新的技術(shù)和工具進行處理的數(shù)據(jù)集合,是一種重要的信息資產(chǎn)。價值大數(shù)據(jù)的核心價值在于通過分析海量數(shù)據(jù)可以獲得巨大的價值,大數(shù)據(jù)技術(shù)就是指從各種類型的數(shù)據(jù)中快速獲得有價值信息的方法和工具。應(yīng)用大數(shù)據(jù)的核心價值在于通過分析海量數(shù)據(jù)可以獲得巨大的價值,大數(shù)據(jù)技術(shù)就是指從各種類型的數(shù)據(jù)中快速獲得有價值信息的方法和工具。1.1.2大數(shù)據(jù)的特征規(guī)模數(shù)據(jù)開始爆發(fā)式增長,大數(shù)據(jù)中的數(shù)據(jù)不再以GB或TB為單位來計量,而以PB、EB或ZB為計量單位。速度指數(shù)據(jù)增長速度快,也指數(shù)據(jù)處理速度快。多樣性主要體現(xiàn)在數(shù)據(jù)來源多、數(shù)據(jù)類型多。質(zhì)量指數(shù)據(jù)的準(zhǔn)確性和可信賴度。現(xiàn)有的所有大數(shù)據(jù)處理技術(shù)均依賴于數(shù)據(jù)質(zhì)量,這是獲得數(shù)據(jù)價值的關(guān)鍵基礎(chǔ)。價值數(shù)據(jù)來源多、數(shù)據(jù)規(guī)模大,但是價值密度較低,是大數(shù)據(jù)的一大特征。1.1.3數(shù)據(jù)類型結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)是最常見的數(shù)據(jù)類型之一,它是以固定格式和結(jié)構(gòu)存儲的數(shù)據(jù),通常以表格形式呈現(xiàn),包含預(yù)定義的字段和特征。半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)是介于結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間的一種數(shù)據(jù)類型,它具有一定的結(jié)構(gòu),但不像結(jié)構(gòu)化數(shù)據(jù)那么規(guī)范。通常以HTML、XML、JSON等格式存在。非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)是最具挑戰(zhàn)性的數(shù)據(jù)類型之一,這類數(shù)據(jù)沒有預(yù)定義的結(jié)構(gòu)和格式,通常以文本、圖像、音頻或視頻等形式存在。大數(shù)據(jù)可以分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),三種數(shù)據(jù)具有不同的特點和處理方式。在實際的應(yīng)用中,需要根據(jù)數(shù)據(jù)類型的不同選擇合適的處理方式和工具,以便進行有效的數(shù)據(jù)存儲、處理和分析。大數(shù)據(jù)應(yīng)用Bigdataapplication1.2大數(shù)據(jù)的應(yīng)用商業(yè)和市場分析健康醫(yī)療交通與城市規(guī)劃金融與風(fēng)險管理社交媒體和輿情分析科學(xué)研究和探索大數(shù)據(jù)的應(yīng)用范圍廣泛,它在許多其他行業(yè)中發(fā)揮著重要作用。以下是大數(shù)據(jù)的一些典型應(yīng)用領(lǐng)域。除此以外,能源領(lǐng)域的大數(shù)據(jù)應(yīng)用也非常廣泛。例如,在能源生產(chǎn)優(yōu)化方面,通過實時監(jiān)測傳感器數(shù)據(jù)和設(shè)備狀態(tài),能源企業(yè)可以實現(xiàn)設(shè)備智能化維護,縮短停機時間,并預(yù)測潛在故障,從而提高生產(chǎn)效率和資源利用效率;在節(jié)能與減排優(yōu)化方面,通過分析能源生產(chǎn)和消費的數(shù)據(jù),能源企業(yè)可以找到節(jié)能的潛力和優(yōu)化方案,還可以幫助評估和監(jiān)控減排措施的效果,推動能源企業(yè)向低碳和可持續(xù)發(fā)展方向轉(zhuǎn)型;在能源市場預(yù)測方面,通過分析歷史市場數(shù)據(jù)、經(jīng)濟指標(biāo)等,能源企業(yè)可以預(yù)測未來的能源需求和價格趨勢,做出相應(yīng)的資源配置和市場決策。大數(shù)據(jù)處理流程BigDataProcessing
Process1.3.1大數(shù)據(jù)處理的基本流程通過有效地采集、處理和應(yīng)用大數(shù)據(jù),企業(yè)和組織可以從復(fù)雜的數(shù)據(jù)來源中提取有價值的信息,進行統(tǒng)計分析和挖掘,從而服務(wù)于決策分析。大數(shù)據(jù)處理的基本流程涵蓋了從數(shù)據(jù)采集到數(shù)據(jù)可視化的全過程,包括四個主要步驟:數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)統(tǒng)計分析和數(shù)據(jù)挖掘、數(shù)據(jù)可視化。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)存儲三個步驟。1.3.2數(shù)據(jù)采集數(shù)據(jù)采集又稱數(shù)據(jù)獲取,是指從傳感器和其他測量設(shè)備等模擬和數(shù)字被測單元中自動采集信息的過程。數(shù)據(jù)來源較為復(fù)雜,包括傳感器、社交網(wǎng)絡(luò)、網(wǎng)站、移動應(yīng)用程序、物聯(lián)網(wǎng)設(shè)備等。數(shù)據(jù)類型較多,根據(jù)產(chǎn)生來源不同可以將數(shù)據(jù)分為交易數(shù)據(jù)、人為數(shù)據(jù)、移動數(shù)據(jù)、機器和傳感器數(shù)據(jù)等。由于數(shù)據(jù)來源的不同,數(shù)據(jù)采集方式具有很大的不同,包括爬蟲技術(shù)、API技術(shù)、傳感器技術(shù)等。數(shù)據(jù)采集需要針對不同的數(shù)據(jù)來源選擇不同的工具和技術(shù),確保數(shù)據(jù)的準(zhǔn)確性和完整性。1.3.3數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)存儲。數(shù)據(jù)清洗是指去除無用數(shù)據(jù)、缺失數(shù)據(jù)和錯誤數(shù)據(jù)等。解決數(shù)據(jù)質(zhì)量問題:①數(shù)據(jù)的完整性②數(shù)據(jù)的唯一性③數(shù)據(jù)的權(quán)威性④數(shù)據(jù)的合法性⑤數(shù)據(jù)的一致性數(shù)據(jù)轉(zhuǎn)換是將數(shù)據(jù)從一種格式或結(jié)構(gòu)轉(zhuǎn)換為另一種格式或結(jié)構(gòu)的過程,對于數(shù)據(jù)集成和數(shù)據(jù)管理等活動較為重要。包括:①數(shù)據(jù)集成②數(shù)據(jù)變換③數(shù)據(jù)歸約數(shù)據(jù)存儲是指將巨量的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)存儲到集群中,并以可擴展、高可用性及高容錯性的形式安全存儲、處理和管理數(shù)據(jù)。存儲數(shù)據(jù)的方式有很多選擇,包括關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫、文件系統(tǒng)等。1.3.4數(shù)據(jù)統(tǒng)計分析和數(shù)據(jù)挖掘數(shù)據(jù)統(tǒng)計分析是大數(shù)據(jù)處理流程中的關(guān)鍵步驟之一,它涉及對采集和清洗后的數(shù)據(jù)進行分析和總結(jié),以獲得對數(shù)據(jù)的基本描述和洞察。用于大數(shù)據(jù)統(tǒng)計分析的方法主要如下:描述性分析探索性分析非參數(shù)方法時間序列分析數(shù)據(jù)挖掘是指利用一些高級算法和技術(shù),如機器學(xué)習(xí)、深度學(xué)習(xí)、自然語言處理等,對數(shù)據(jù)包含的信息進行深度分析。主要任務(wù)包括關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。數(shù)據(jù)挖掘技術(shù)可以分為以下幾類:①分類②預(yù)測③相關(guān)性分組(或關(guān)聯(lián)規(guī)則)④聚類。機器學(xué)習(xí)是數(shù)據(jù)挖掘的一種手段。利用機器學(xué)習(xí)提供的統(tǒng)計分析、知識發(fā)現(xiàn)等手段分析海量數(shù)據(jù),同時利用數(shù)據(jù)存取技術(shù)實現(xiàn)數(shù)據(jù)的高效讀寫。大數(shù)據(jù)環(huán)境下的機器學(xué)習(xí)采用分布式和并行計算的方式進行分治策略的實施。機器學(xué)習(xí)的方法種類有很多,傳統(tǒng)的研究方向有決策樹、隨機森林、人工神經(jīng)網(wǎng)絡(luò)、貝葉斯學(xué)習(xí)等。1.3.5數(shù)據(jù)可視化數(shù)據(jù)可視化是指以圖形、圖表的形式將原始的信息和數(shù)據(jù)表示出來。也就是通過對數(shù)據(jù)進行采集、清洗、分析,將所示分析結(jié)果通過圖形、圖表等形式展示出來的一個過程。傳統(tǒng)的數(shù)據(jù)可視化方法包括表格、直方圖、散點圖、折線圖、柱狀圖、餅圖、面積圖、流程圖等,圖表的多個數(shù)據(jù)系列或組合也較為常用,還包括平行坐標(biāo)系、樹狀圖、錐形樹圖和語義網(wǎng)絡(luò)等。數(shù)據(jù)可視化并非僅包括靜態(tài)形式,還包括動態(tài)(交互)形式。當(dāng)前的數(shù)據(jù)可視化工具:
Tableau:提供了豐富的圖表類型和交互功能,支持多種數(shù)據(jù)源。MicrosoftPowerBI:用于創(chuàng)建交互式儀表板和報表。python:有許多庫和工具可以實現(xiàn)數(shù)據(jù)可視化。大數(shù)據(jù)平臺技術(shù)BigDataPlatform
Technology1.4.1大數(shù)據(jù)系統(tǒng)生態(tài)大數(shù)據(jù)的“5V”特征決定了大數(shù)據(jù)不是一種技術(shù)或一個軟件就能完成的,必須是一個生態(tài)圈,各組件共同完成其存儲、計算、分析等任務(wù)。這個生態(tài)圈涵蓋了各種不同的組成部分,涉及數(shù)據(jù)采集、存儲、處理、分析、可視化、安全和隱私等方面。在這個生態(tài)圈中,各個組成部分相互連接,共同協(xié)作,形成了一個完整的大數(shù)據(jù)處理和應(yīng)用的生態(tài)系統(tǒng)。Hadoop是一種分布式計算框架,其核心包含HDFS(HadoopDistributedFileSystem)和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲功能,MapReduce則為海量的數(shù)據(jù)提供了計算功能。Hadoop作為分布式軟件框架具有可靠性高、擴展性高、效率高、容錯性高和成本低等優(yōu)點。Spark啟用了內(nèi)存分布數(shù)據(jù)集,除能夠提供交互式查詢功能外,還可以優(yōu)化迭代工作負(fù)載。1.4.1大數(shù)據(jù)系統(tǒng)生態(tài)Hadoop和Spark在大數(shù)據(jù)生態(tài)圈中相互補充,它們可以一起使用,也可以單獨使用,取決于具體的應(yīng)用場景和需求。當(dāng)需要處理大規(guī)模的靜態(tài)數(shù)據(jù)集時,特別是對于離線批處理任務(wù),Hadoop的MapReduce是一個很好的選擇。對于需要更快速的數(shù)據(jù)處理和更多的交互性的應(yīng)用場景,Spark是更優(yōu)的選擇。Hadoop和Spark作為大數(shù)據(jù)生態(tài)圈中的兩個重要組件,各自有著不同的優(yōu)勢和應(yīng)用場景,它們共同構(gòu)建了一個完整而多樣化的大數(shù)據(jù)處理和分析生態(tài)系統(tǒng)。1.4.2大數(shù)據(jù)存儲與管理數(shù)據(jù)存儲與管理是非常重要的,主要涉及數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖等概念,以及分布式文件系統(tǒng)和HDFS等技術(shù)。數(shù)據(jù)庫是按照數(shù)據(jù)結(jié)構(gòu)來組織、存儲和管理數(shù)據(jù)的倉庫。數(shù)據(jù)庫可以分為關(guān)系型數(shù)據(jù)庫與非關(guān)系型數(shù)據(jù)庫。企業(yè)往往會結(jié)合兩者的優(yōu)點,將兩者結(jié)合使用。關(guān)系型數(shù)據(jù)庫是指采用了關(guān)系模型來組織數(shù)據(jù)的數(shù)據(jù)庫,如Oracle、SQLServer、MySQL等;非關(guān)系型數(shù)據(jù)庫是以對象為單位的數(shù)據(jù)結(jié)構(gòu),其中的數(shù)據(jù)以對象的形式存儲在數(shù)據(jù)庫中,而對象之間的關(guān)系通過每個對象自身的特征來決定,如HBase、Redis、MongoDB、Neo4j等。兩者的區(qū)別如下:①數(shù)據(jù)存儲方式不同②擴展方式不同③對事務(wù)性的支持不同。1.4.2大數(shù)據(jù)存儲與管理數(shù)據(jù)存儲與管理是非常重要的,主要涉及數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖等概念,以及分布式文件系統(tǒng)和HDFS等技術(shù)。為了避免冷數(shù)據(jù)與歷史數(shù)據(jù)收集對業(yè)務(wù)數(shù)據(jù)庫產(chǎn)生影響,就需要使用數(shù)據(jù)倉庫。數(shù)據(jù)倉庫(DataWarehouse)是為企業(yè)所有級別的決策制定過程提供所有類型數(shù)據(jù)支持的戰(zhàn)略集合。其架構(gòu)一般分為三層:數(shù)據(jù)源層、數(shù)據(jù)倉庫層和數(shù)據(jù)應(yīng)用層,其中,數(shù)據(jù)源層是指從各種數(shù)據(jù)源中獲取數(shù)據(jù)的過程。數(shù)據(jù)湖作為一個原始的大型數(shù)據(jù)集,處理不同來源的原始數(shù)據(jù),并支持不同的用戶需求。它是一種數(shù)據(jù)存儲架構(gòu),它可以容納大量不同類型和格式的數(shù)據(jù),通常使用分布式存儲和處理技術(shù)。1.4.2大數(shù)據(jù)存儲與管理分布式文件系統(tǒng)是指文件系統(tǒng)管理的物理存儲資源不一定直接連接在本地節(jié)點上而是通過計算機網(wǎng)絡(luò)與節(jié)點相連,或者是若干不同的邏輯磁盤分區(qū)或卷標(biāo)組合在一起而形成的完整的、有層次的文件系統(tǒng)。HDFS是Hadoop生態(tài)系統(tǒng)中的一部分,是一個開源的分布式文件系統(tǒng),用于存儲和管理大規(guī)模數(shù)據(jù)。其支持大數(shù)據(jù)處理,能夠有效處理海量數(shù)據(jù)的存儲和訪問,是大數(shù)據(jù)處理中最重要的分布式文件系統(tǒng)之一。1.4.3大數(shù)據(jù)計算與處理云計算是一種通過互聯(lián)網(wǎng)提供計算資源和服務(wù)的模式,為用戶提供了靈活、高效、富有彈性和成本效益的解決方案。云計算與大數(shù)據(jù)的區(qū)別:云計算是基礎(chǔ),沒有云計算,就無法實現(xiàn)大數(shù)據(jù)存儲與計算;大數(shù)據(jù)是應(yīng)用,沒有大數(shù)據(jù),云計算就缺少了目標(biāo)與價值。服務(wù)模型:①基礎(chǔ)設(shè)施即服務(wù)②平臺即服務(wù)③軟件即服務(wù)。優(yōu)勢:①用戶可以根據(jù)需求快速獲得所需計算資源,無須事先投資和購買硬件設(shè)施,也不用擔(dān)心資源的浪費;②提供高度自動化的資源管理和配置,資源調(diào)配更加高效和智能,用戶可以根據(jù)需求快速擴展或縮減計算資源,以適應(yīng)不斷變化的工作負(fù)載,實現(xiàn)資源的彈性伸縮。1.4.3大數(shù)據(jù)計算與處理批處理是指將一系列命令或程序按順序組合在一起,在一個批處理文件中批量執(zhí)行。批處理是一種數(shù)據(jù)處理模式,適用于對靜態(tài)數(shù)據(jù)集進行處理和分析。在大數(shù)據(jù)處理中,批處理是處理大規(guī)模歷史數(shù)據(jù)的常用方法,它可以在離線狀態(tài)下進行計算,以獲得全面的數(shù)據(jù)分析和洞察。目前,使用較多的批處理計算引擎有MapReduce和Spark。MapReduce可以有效解決海量數(shù)據(jù)的計算問題,都包含Map過程和Reduce過程。MapReduce框架和分布式文件系統(tǒng)是運行在一組相同的節(jié)點上的。1.4.3大數(shù)據(jù)計算與處理流處理是一種對實時數(shù)據(jù)流進行即時處理和分析的方式。流處理能夠?qū)崿F(xiàn)對數(shù)據(jù)的實時處理和響應(yīng),適用于需要快速獲取實時數(shù)據(jù)洞察和做出實時決策的場景。Spark的SparkStreaming和Storm是比較早的流處理框架,從一端讀取實時數(shù)據(jù)的原始流,將其傳遞通過一系列小處理單元,并在另一端輸出處理后的、有用的信息。Storm是Twitter開源的分布式實時大數(shù)據(jù)處理框架,從一端讀取實時數(shù)據(jù)的原始流,將其傳遞通過一系列小處理單元,并在另一端輸出處理后的、有用的信息。Storm是一個分布式實時計算系統(tǒng),采用了類似MapReduce的拓?fù)浣Y(jié)構(gòu)。SparkStreaming屬于Spark的一個組件,是基于批的流式計算框架。它在處理數(shù)據(jù)流之前,會按照時間間隔對數(shù)據(jù)流進行分段切分。1.4.3大數(shù)據(jù)計算與處理HBase是一種開源的分布式列式存儲數(shù)據(jù)庫,它適用于大規(guī)模數(shù)據(jù)的存儲和查詢,可以以低成本來存儲海量的數(shù)據(jù)并且支持高并發(fā)的隨機寫和實時查詢。HBase交互式分析是指通過HBase進行數(shù)據(jù)查詢和分析,并實時獲取結(jié)果。用戶需要根據(jù)數(shù)據(jù)的類型和格式選擇合適的導(dǎo)入方法。HBase作為一種高性能、高可靠性的存儲解決方案,為大數(shù)據(jù)行業(yè)提供了強大的數(shù)據(jù)查詢和分析能力,幫助實現(xiàn)高效、智能的數(shù)據(jù)處理與應(yīng)用。思考題闡述大數(shù)據(jù)的五大基本特征。大數(shù)據(jù)時代的數(shù)據(jù)類型包含哪些?大數(shù)據(jù)處理的基本流程是什么?大數(shù)據(jù)平臺Hadoop和Spark的區(qū)別和聯(lián)系有哪些?什么是數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)湖?三者的區(qū)別與聯(lián)系是什么?HDFS是一種分布式文件系統(tǒng),其架構(gòu)和數(shù)據(jù)存儲機制是什么?什么是MapReduce?請給出一個例子并描述其計算過程。Thankyou!數(shù)據(jù)獲取與預(yù)處理02DataAcquisitionAndPreprocessing數(shù)據(jù)獲取與預(yù)處理概述DataAcquisitionAndPreprocessingOverview2.1.1數(shù)據(jù)獲取在現(xiàn)實應(yīng)用中,多個源系統(tǒng)的數(shù)據(jù)兼容性較差,因此需要對獲取的異構(gòu)數(shù)據(jù)進行處理。ETL方法提供了一個數(shù)據(jù)獲取與預(yù)處理的標(biāo)準(zhǔn)流程和技術(shù)工具。數(shù)據(jù)獲取是指從各種相關(guān)數(shù)據(jù)源獲取數(shù)據(jù)的過程,也指ETL的數(shù)據(jù)獲取環(huán)節(jié),是數(shù)據(jù)分析與挖掘的基礎(chǔ)。數(shù)據(jù)獲取是ETL處理的第一步,也是最重要的一步,數(shù)據(jù)被成功獲取后,才可以進行轉(zhuǎn)換并加載到數(shù)據(jù)倉庫中。2.1.1數(shù)據(jù)獲取傳統(tǒng)數(shù)據(jù)獲取和大數(shù)據(jù)獲取有如下不同:數(shù)據(jù)源方面,傳統(tǒng)數(shù)據(jù)獲取的數(shù)據(jù)源單一,而大數(shù)據(jù)獲取系統(tǒng)還需要從社交系統(tǒng)、互聯(lián)網(wǎng)系統(tǒng)及各種類型的機器設(shè)備上獲取數(shù)據(jù)。數(shù)據(jù)量方面,互聯(lián)網(wǎng)系統(tǒng)和機器系統(tǒng)產(chǎn)生的數(shù)據(jù)量要遠遠大于企業(yè)系統(tǒng)產(chǎn)生的數(shù)據(jù)量。數(shù)據(jù)結(jié)構(gòu)方面,傳統(tǒng)數(shù)據(jù)獲取系統(tǒng)獲取的數(shù)據(jù)都是結(jié)構(gòu)化數(shù)據(jù),而大數(shù)據(jù)獲取系統(tǒng)需要獲取大量的視頻、音頻、照片等非結(jié)構(gòu)化數(shù)據(jù),以及網(wǎng)頁、博客、日志等半結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)產(chǎn)生速度,傳統(tǒng)數(shù)據(jù)獲取系統(tǒng)獲取的數(shù)據(jù)幾乎都是由人操作生成的,遠遠慢于機器生成數(shù)據(jù)的速度。2.1.2數(shù)據(jù)清洗與數(shù)據(jù)轉(zhuǎn)換在一般情況下,數(shù)據(jù)倉庫分為ODS、DW兩個部分。ODS是數(shù)據(jù)庫到數(shù)據(jù)倉庫的一種過渡,數(shù)據(jù)結(jié)構(gòu)一般與數(shù)據(jù)源保持一致,便于減少ETL的工作復(fù)雜性,而且ODS的數(shù)據(jù)周期一般比較短。ODS的數(shù)據(jù)最終流入DW,DW是數(shù)據(jù)的歸宿,這里保存著所有從ODS到來的數(shù)據(jù),而且這些數(shù)據(jù)不會被修改。數(shù)據(jù)轉(zhuǎn)換:它是在ODS到DW的過程中轉(zhuǎn)換的,將數(shù)據(jù)轉(zhuǎn)換為適用于查詢和分析的形式和結(jié)構(gòu)。數(shù)據(jù)從操作型源系統(tǒng)獲取后,需要進行多種轉(zhuǎn)換操作,通常是最復(fù)雜的部分,也是ETL處理中用時最長的一步。數(shù)據(jù)清洗:數(shù)據(jù)轉(zhuǎn)換一個最重要的功能是數(shù)據(jù)清洗,目的是只有“合規(guī)”的數(shù)據(jù)才能進入目標(biāo)數(shù)據(jù)倉庫。這步操作在不同系統(tǒng)間交互和通信時尤為必要。2.1.3數(shù)據(jù)加載數(shù)據(jù)加載就是將轉(zhuǎn)換后的數(shù)據(jù)導(dǎo)入目標(biāo)數(shù)據(jù)倉庫中。這步操作需要重點考慮兩個問題,一是數(shù)據(jù)加載的效率問題,二是一旦加載過程中失敗了,如何再次執(zhí)行加載過程。要提高數(shù)據(jù)加載的效率,加快加載速度,可以采用如下兩種做法:保證足夠的系統(tǒng)資源。在進行數(shù)據(jù)加載時,禁用數(shù)據(jù)庫約束(唯一性、非空性、檢查約束等)和索引,當(dāng)加載過程完全結(jié)束后,再啟用這些約束,重建索引。ETL系統(tǒng)一般會從多個應(yīng)用系統(tǒng)中整合數(shù)據(jù),常用實現(xiàn)方法有三種:借助ETL工具采用SQL方式ETL工具和SQL方式相結(jié)合為了提高ETL處理的效率,通常數(shù)據(jù)獲取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載操作會并行執(zhí)行。數(shù)據(jù)獲取技術(shù)DataAcquisitionTechnique2.2.1數(shù)據(jù)獲取技術(shù)概述數(shù)據(jù)獲取需要在調(diào)研階段做大量的工作。如果已經(jīng)明確了需要獲取的數(shù)據(jù),下一步就該考慮從源系統(tǒng)獲取數(shù)據(jù)的方法了。數(shù)據(jù)獲取方法的選擇高度依賴于源系統(tǒng)和目標(biāo)數(shù)據(jù)倉庫環(huán)境的業(yè)務(wù)需要。隨著大數(shù)據(jù)的蓬勃發(fā)展,數(shù)據(jù)獲取的來源廣泛且數(shù)據(jù)量巨大,數(shù)據(jù)類型豐富,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),它們大多存在于分布式數(shù)據(jù)庫中。目前大數(shù)據(jù)獲取主要方法如下:數(shù)據(jù)庫獲取系統(tǒng)日志獲取網(wǎng)絡(luò)數(shù)據(jù)獲取感知設(shè)備數(shù)據(jù)獲取針對軟件系統(tǒng)的數(shù)據(jù)獲取,有如下三種方式:接口對接方式開放數(shù)據(jù)庫方式基于底層數(shù)據(jù)交換的數(shù)據(jù)直接獲取方式2.2.2網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲可以按照我們制定的規(guī)則自動瀏覽網(wǎng)絡(luò)中的數(shù)據(jù),這些規(guī)則稱為網(wǎng)絡(luò)爬蟲算法。網(wǎng)絡(luò)爬蟲由控制節(jié)點、爬蟲節(jié)點、資源庫構(gòu)成。控制節(jié)點主要負(fù)責(zé)根據(jù)URL分配線程,并調(diào)用爬蟲節(jié)點進行具體的爬取爬蟲節(jié)點會按照相關(guān)的算法,對網(wǎng)頁進行具體的爬取,爬取后會將爬取結(jié)果存儲到對應(yīng)的資源庫中。通用網(wǎng)絡(luò)爬蟲通用網(wǎng)絡(luò)爬蟲的爬取目標(biāo)是整個互聯(lián)網(wǎng)上的所有網(wǎng)頁。主要由初始URL集合、URL隊列、網(wǎng)頁爬取模塊、網(wǎng)頁分析模塊、網(wǎng)頁數(shù)據(jù)庫、鏈接過濾模塊等構(gòu)成。通用網(wǎng)絡(luò)爬蟲在爬取的時候會采取一定的爬取策略,主要有深度優(yōu)先策略和廣度優(yōu)先策略。這類網(wǎng)絡(luò)爬蟲主要應(yīng)用于大型搜索引擎中,有非常高的應(yīng)用價值。聚焦網(wǎng)絡(luò)爬蟲聚焦網(wǎng)絡(luò)爬蟲是按照預(yù)先定義好的主題有選擇地進行網(wǎng)頁爬取的一種爬蟲。可以大大節(jié)省爬蟲爬取時所需的帶寬資源和服務(wù)器資源。聚焦網(wǎng)絡(luò)爬蟲應(yīng)用在對特定信息的爬取中,主要為某一類特定的人群提供服務(wù),主要由初始URL集合、URL隊列、網(wǎng)頁爬取模塊、網(wǎng)頁分析模塊、網(wǎng)頁數(shù)據(jù)庫、鏈接過濾模塊、內(nèi)容評價模塊、鏈接評價模塊等構(gòu)成。聚焦網(wǎng)絡(luò)爬蟲的爬取策略主要有四種:基于內(nèi)容評價的爬取策略基于鏈接評價的爬取策略基于強化學(xué)習(xí)的爬取策略基于語境圖的爬取策略增量式網(wǎng)絡(luò)爬蟲增量式更新指在更新的時候只更新改變的地方,未改變的地方則不更新,所以只爬取內(nèi)容發(fā)生變化的網(wǎng)頁或新產(chǎn)生的網(wǎng)頁,對于未發(fā)生內(nèi)容變化的網(wǎng)頁則不會爬取。深層網(wǎng)絡(luò)爬蟲在互聯(lián)網(wǎng)中,按存在方式分類,網(wǎng)頁可以分為表層網(wǎng)頁和深層網(wǎng)頁:表層網(wǎng)頁:不需要提交表單,使用靜態(tài)的鏈接就能夠到達的靜態(tài)網(wǎng)頁;深層網(wǎng)頁:隱藏在表單后面,不能通過靜態(tài)鏈接直接獲取,是需要提交一定的關(guān)鍵詞之后才能夠到達的網(wǎng)頁。在互聯(lián)網(wǎng)中,深層網(wǎng)頁的數(shù)量往往比表層網(wǎng)頁的數(shù)量要多很多,因此需要深層網(wǎng)絡(luò)爬蟲。深層網(wǎng)絡(luò)爬蟲在爬取深層網(wǎng)頁時需要自動填寫好對應(yīng)的表單,表單填寫方式有兩種:①基于領(lǐng)域知識的表單填寫:建立一個填寫表單的關(guān)鍵詞庫,在需要填寫的時候,根據(jù)語義分析選擇對應(yīng)的關(guān)鍵詞進行填寫。②基于網(wǎng)頁結(jié)構(gòu)分析的表單填寫:會根據(jù)網(wǎng)頁結(jié)構(gòu)進行分析,并自動地進行表單填寫,一般在領(lǐng)域知識有限的情況下使用。數(shù)據(jù)預(yù)處理DataPre-processing2.3.1數(shù)據(jù)質(zhì)量數(shù)據(jù)質(zhì)量是指數(shù)據(jù)在特定應(yīng)用環(huán)境中是否滿足預(yù)期的要求。包括以下幾個方面:準(zhǔn)確性:數(shù)據(jù)與實際情況的符合程度,數(shù)據(jù)值與實際值的一致性高低。完整性:數(shù)據(jù)是否包含了需要的全部信息,有無遺漏或缺失。一致性:數(shù)據(jù)在不同的數(shù)據(jù)源、數(shù)據(jù)記錄等方面是否保持一致,數(shù)據(jù)之間有無沖突或矛盾。及時性:數(shù)據(jù)是否及時地進行采集、處理、傳輸和更新,以保證數(shù)據(jù)的實效性和時效性。可理解性:數(shù)據(jù)是否易于被理解,數(shù)據(jù)結(jié)構(gòu)和格式是否清晰,數(shù)據(jù)值和字段是否具有明確的含義。可靠性:數(shù)據(jù)是否可信、可靠,其產(chǎn)生的過程和來源是否可靠,數(shù)據(jù)是否經(jīng)過驗證和核實。可用性:指數(shù)據(jù)是否易于訪問、檢索和使用,數(shù)據(jù)存儲和管理系統(tǒng)的性能是否足夠高效。導(dǎo)致數(shù)據(jù)質(zhì)量不高的根源主要如下:數(shù)據(jù)采集問題數(shù)據(jù)存儲問題數(shù)據(jù)處理問題數(shù)據(jù)管理問題數(shù)據(jù)使用問題2.3.2數(shù)據(jù)清洗數(shù)據(jù)清洗是審查和校驗數(shù)據(jù)的過程,旨在刪除重復(fù)信息、糾正錯誤并確保一致性。缺失數(shù)據(jù)處理:刪除缺失數(shù)據(jù):適用于少量缺失且影響較小時,但可能引入樣本偏差。插補缺失數(shù)據(jù):適用于缺失較多或影響較大時。插補的方法可以分為三類:(1)均值插補(2)回歸插補(3)多重插補創(chuàng)建指示變量:對于分類變量的缺失數(shù)據(jù),新增指示變量(0/1)標(biāo)記缺失情況,避免插補誤差。其他:利用聚類或?qū)iT模型處理缺失數(shù)據(jù)。在處理缺失數(shù)據(jù)時,還需要注意以下三個問題:①缺失數(shù)據(jù)的模式②數(shù)據(jù)的完整性③插補方法的合理性2.3.2數(shù)據(jù)清洗噪聲數(shù)據(jù)是指數(shù)據(jù)中存在錯誤或異常(偏離期望值)的數(shù)據(jù),即測量變量中存在隨機誤差或方差。噪聲數(shù)據(jù)處理:分箱:通過考察相鄰數(shù)據(jù)來確定最終值。
分箱的方法有四種:(1)等深分箱法(2)等寬分箱法(3)用戶自定義區(qū)間法(4)最小熵法。
在分箱之后,要對每個“箱子”中的數(shù)據(jù)進行平滑處理:(1)按均值進行平滑處理(2)按中位數(shù)進行平滑處理(3)按邊界值進行平滑處理。聚類:將數(shù)據(jù)集合分組為若干個簇,在簇外的值為孤立點,應(yīng)對這些孤立點進行刪除或替換。相似或相鄰的數(shù)據(jù)聚合在一起形成各個聚類集合,在這些聚類集合之外的數(shù)據(jù)為異常數(shù)據(jù)。回歸:如果變量之間存在函數(shù)關(guān)系,則可以使用回歸分析方法進行函數(shù)擬合,通過使用擬合值或平滑數(shù)據(jù)來更新變量數(shù)值,從而實現(xiàn)噪聲數(shù)據(jù)去除。2.3.3數(shù)據(jù)集成數(shù)據(jù)集成是將來自不同數(shù)據(jù)源的數(shù)據(jù)整合到統(tǒng)一的數(shù)據(jù)集中,以便分析、決策支持和業(yè)務(wù)應(yīng)用。其過程涉及數(shù)據(jù)整合、匹配、沖突解決、質(zhì)量控制、元數(shù)據(jù)管理和安全等方面。模式識別和對象匹配是在數(shù)據(jù)集成過程中的兩個重要任務(wù),用于識別和匹配不同數(shù)據(jù)源中的模式和對象,以提高數(shù)據(jù)集成的準(zhǔn)確性和效率。模式識別:對表征事物或現(xiàn)象的模式進行自動處理和判讀。對象匹配:將不同數(shù)據(jù)源中的對象進行匹配和對應(yīng)。在進行模式識別和對象匹配時,需要考慮以下幾個方面:①特征提取:在進行模式識別和對象匹配時,需要選擇合適的特征并進行提取。②相似度度量:方法包括歐氏距離、曼哈頓距離、余弦相似度等。③匹配算法:算法包括基于規(guī)則的匹配、基于機器學(xué)習(xí)的匹配、基于統(tǒng)計的匹配、基于圖的匹配等。④沖突解決:可以通過規(guī)則、投票機制、權(quán)重分配、機器學(xué)習(xí)等方法來確定最佳匹配結(jié)果。2.3.3數(shù)據(jù)集成數(shù)據(jù)冗余是指數(shù)據(jù)存儲或集成過程中產(chǎn)生的重復(fù)或多余數(shù)據(jù),包括重復(fù)數(shù)據(jù)和無關(guān)數(shù)據(jù)。需處理數(shù)據(jù)冗余以減少存儲占用和分析誤差。可通過一下幾種方式來實現(xiàn):規(guī)則和約束:通過定義規(guī)則和約束來防止數(shù)據(jù)冗余的產(chǎn)生。數(shù)據(jù)規(guī)范化:數(shù)據(jù)規(guī)范化是一種將數(shù)據(jù)劃分成更小、更規(guī)范的單元的過程。數(shù)據(jù)清洗和去重:去除重復(fù)和冗余的數(shù)據(jù)。數(shù)據(jù)合并和歸約:將重復(fù)和冗余的數(shù)據(jù)進行合并和歸約。數(shù)據(jù)壓縮:通過編碼或壓縮技術(shù)減少存儲占用。數(shù)據(jù)分析和挖掘:通過數(shù)據(jù)分析和挖掘技術(shù),可以識別和消除數(shù)據(jù)冗余。2.3.3數(shù)據(jù)集成在數(shù)據(jù)集成過程中,不同數(shù)據(jù)源可能存在沖突(如值、格式、單位、覆蓋范圍不一致)。為確保數(shù)據(jù)質(zhì)量和準(zhǔn)確性,需要進行沖突檢測與處理。步驟如下:(1)確定沖突類型。常見類型包括數(shù)據(jù)值、格式、單位或覆蓋范圍不同。(2)數(shù)據(jù)沖突檢測。利用算法或規(guī)則檢測相同實體在不同數(shù)據(jù)源中的特征是否一致或存在矛盾。(3)沖突解析。當(dāng)發(fā)現(xiàn)沖突時,需要進行沖突解析來確定集成數(shù)據(jù)的準(zhǔn)確值。常見的沖突解析方法如下:①人工解析②投票機制③權(quán)重分配④規(guī)則和模型。(4)沖突解析后的數(shù)據(jù)集成。應(yīng)用解析后的數(shù)據(jù),形成最終集成結(jié)果。沖突檢測與處理較復(fù)雜,需根據(jù)數(shù)據(jù)需求、質(zhì)量要求和沖突類型選擇合適方法,并考慮數(shù)據(jù)源的可靠性和權(quán)威性。2.3.4數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換是數(shù)據(jù)預(yù)處理的重要環(huán)節(jié),通過轉(zhuǎn)換提高數(shù)據(jù)質(zhì)量和可用性,使其更適合分析和建模。主要方法包括數(shù)據(jù)規(guī)范化、數(shù)據(jù)離散化、數(shù)據(jù)泛化和數(shù)據(jù)脫敏。數(shù)據(jù)規(guī)范化:將被挖掘?qū)ο蟮奶卣鲾?shù)據(jù)按比例縮放,使其落入一個小的特定區(qū)間。常用方法有三種:①小數(shù)定標(biāo)規(guī)范化:將原始數(shù)據(jù)除以一個固定值,將數(shù)據(jù)映射到[-1,1]之間。②最小值—最大值規(guī)范化:將原始數(shù)據(jù)映射到0~1之間的特定區(qū)間,保留數(shù)據(jù)的相對大小關(guān)系。③Z-Score規(guī)范化:將原始數(shù)據(jù)轉(zhuǎn)化為均值為0、標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)正態(tài)分布。2.3.4數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)離散化:將連續(xù)型數(shù)據(jù)轉(zhuǎn)換為離散型數(shù)據(jù)的過程,將數(shù)據(jù)劃分為若干個區(qū)間或類別。常見方法如下:①等寬離散化:將數(shù)據(jù)根據(jù)固定的寬度劃分為若干個區(qū)間,每個區(qū)間的寬度相同。②等頻離散化:將數(shù)據(jù)根據(jù)相同的樣本數(shù)量劃分為若干個區(qū)間,每個區(qū)間中包含的樣本數(shù)量相同。③聚類離散化:用聚類算法將數(shù)據(jù)聚類為若干個簇,每個簇表示一個離散化的類別。④決策樹離散化:使用決策樹算法將連續(xù)型數(shù)據(jù)轉(zhuǎn)換為決策樹的劃分節(jié)點,將數(shù)據(jù)分為不同的類別。2.3.4數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)泛化:把較低層次的概念用較高層次的概念替換來匯總數(shù)據(jù),或者通過減小維度,在較小維度的概念空間中匯總數(shù)據(jù)。常用的方法如下:①基于數(shù)據(jù)立方體的數(shù)據(jù)聚集:用于從多維數(shù)據(jù)集中提取有用的信息。數(shù)據(jù)立方體是一個多維數(shù)組,其中每個維度表示數(shù)據(jù)的一個特征,構(gòu)建步驟:選擇維度→設(shè)計度量→聚合數(shù)據(jù)→構(gòu)建數(shù)據(jù)立方體。②面向特征的歸納:旨在從數(shù)據(jù)中歸納出特征間的關(guān)系、規(guī)律和模式。主要過程包括以下步驟:
特征選擇→歸納分析→模式評估與驗證。2.3.4數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)脫敏:通過對敏感數(shù)據(jù)進行部分或完全的刪除、替換或隱藏,以抹去個人敏感信息。常見方法如下:①刪除(Deletion):直接刪除或部分刪除包含敏感信息的數(shù)據(jù)。②替換(Substitution):將敏感數(shù)據(jù)替換為不可識別的偽造值。③脫敏屏蔽(Masking):在數(shù)據(jù)中通過覆蓋、屏蔽或空白值等方式隱藏敏感信息,以避免敏感信息的識別。④加密(Encryption):使用加密算法對敏感信息進行加密,只有授權(quán)的用戶才能解密和訪問。具體方法的選擇取決于數(shù)據(jù)類型、隱私需求和分析任務(wù)。2.3.5數(shù)據(jù)歸約數(shù)據(jù)歸約是在保持?jǐn)?shù)據(jù)原貌的前提下,最大限度地精簡數(shù)據(jù),以降低數(shù)據(jù)規(guī)模。主要包括維歸約和數(shù)據(jù)歸約兩種方法。維歸約:目的是將高維數(shù)據(jù)集轉(zhuǎn)換為低維表示,以減少數(shù)據(jù)集的維度并保留主要的信息。①特征集選擇(FSS):篩選最相關(guān)和有價值的特征,去除無關(guān)或冗余特征。②主成分分析(PCA):將高維數(shù)據(jù)映射到低維子空間,提取主要特征。③線性判別分析(LDA):監(jiān)督學(xué)習(xí)方法,尋找最能區(qū)分類別的投影方向。④非負(fù)矩陣分解(NMF):將高維矩陣分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學(xué)心理健康教育活動周實施計劃
- 空調(diào)安裝行業(yè)人力資源分析-洞察闡釋
- 老年健康管理的民族藥模式-洞察闡釋
- 創(chuàng)新金融工具認(rèn)購協(xié)議比較-洞察闡釋
- 高一年級藝術(shù)教育工作計劃
- 城市綠地車棚建設(shè)與生態(tài)環(huán)保合作協(xié)議
- 草原草場草原畜牧業(yè)養(yǎng)殖與生態(tài)保護承包合同
- 電商平臺門面租賃管理與服務(wù)協(xié)議
- 2025年醫(yī)院護理部護理流程優(yōu)化計劃
- 高端裝備制造廠房轉(zhuǎn)租協(xié)議范本
- 《汽車電工電子基礎(chǔ)》課件 5.2二極管及其測量
- 青少年無人機課程:第一課-馬上起飛
- 反射療法師理論考試復(fù)習(xí)題及答案
- 2024年江蘇省南京市玄武區(qū)中考英語二模試卷
- 2023版中職教材-心理健康與職業(yè)生涯-第11課-主動學(xué)習(xí)-高效學(xué)習(xí)-課件
- 2024年重慶市高考思想政治試卷真題(含答案解析)
- 2024春期國開電大本科《外國文學(xué)》在線形考(形考任務(wù)一至四)試題及答案
- 陽光雨棚制作安裝合同范本
- 廣東省汕頭市澄海區(qū)2023-2024學(xué)年七年級下學(xué)期期末數(shù)學(xué)試題(解析版)
- 福建小鳳鮮禽業(yè)有限公司100萬羽蛋雞養(yǎng)殖基地項目環(huán)境影響報告書
- CJT 489-2016 塑料化糞池 標(biāo)準(zhǔn)
評論
0/150
提交評論