




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第四章數據采集與數據存儲大數據管理與應用——主編:王剛副主編:劉婧、邵臻數據是信息世界的基礎性資源,但由于體量巨大,種類繁多,變化迅速,真實質差等問題導致難以充分發揮數據的價值。為此,誕生了數據采集與數據倉儲技術,主要研究如何管理分析和利用數據。該技術是計算機核心技術之一,以其為核心的各種數據庫應用管理,無可爭議的改變了政府部門和企事業單位的運營和管理方式,隨著數據庫廣泛應用和深度擴展,不僅是計算機和信息技術行業,包括技術管理,工程管理甚至決策人員在內的眾多行業,都開始關注數據庫技術的應用價值。數據采集關系型數據存儲非關系型數據存儲數據倉庫第四章數據采集與數據存儲01數據采集02關系型數據存儲03非關系型數據存儲04數據倉庫數據采集(DataAcquisition)是指將要獲取的信息通過傳感器轉換為信號,并經過對信號的調整、采樣、量化、編碼和傳輸等步驟,最后送到計算機系統中進行處理、分析、存儲和顯示的過程。數據采集是數據分析中的重要一環,它首先通過傳感器或社交網絡、移動互聯網等方式獲得各種類型的結構化、半結構化及非結構化的海量數據。在大數據時代,面對數據來源廣泛、數據類型復雜以及海量數據的井噴式增長和不斷增長的用戶需求,傳統的集中式數據庫的弊端日益顯現,于是基于分布式數據庫的大數據采集方法應運而生。傳統數據采集是從傳感器等設備自動采集信息的過程。這種方法數據來源單一,數據結構簡單,且存儲、管理和分析數據量也相對較小,大多采用集中式的關系型數據庫或并行數據倉庫即可處理。1.1數據采集概述1.1數據采集概述表4-1傳統數據采集與大數據采集的區別傳統數據采集大數據采集來源單一,數據量相當小來源廣泛,數量巨大結構單一數據類型豐富關系數據庫和并行數據庫分布式數據庫傳統數據采集系統數據采集系統性能的好壞,主要取決于它的精度和速度。在保證精度的條件下,應該盡可能提高采樣速度,以滿足實時采集、實時處理和實時控制等對速度的要求。一般都包含有計算機系統,這使得數據采集的質量和效率等大為提高,同時節省了硬件投資。軟件在數據采集系統中的作用越來越大,增加了系統設計的靈活性。數據采集與數據處理相互結合日益緊密,形成了數據采集與處理相互融合的系統,可實現從數據采集、處理到控制的全部工作。速度快,數據采集過程一般都具有“實時”特性。隨著微電子技術的發展,電路集成度的提高,體積越來越小,可靠性越來越高。1.2數據采集系統大數據采集系統日志采集系統網絡數據采集系統網絡數據采集系統是指通過網絡爬蟲和一些網站平臺提供的公共API(如Twitter和新浪微博API)等方式從網站上獲取數據。網絡爬蟲的原理:按照一定的規則,自動抓取Web信息的程序或者腳本。爬蟲一般有數據采集、處理和存儲三部分功能。1.2數據采集系統圖4-1網絡爬蟲示意圖大數據采集系統網絡數據采集系統網絡爬蟲的類型:通用網絡爬蟲、聚焦網絡爬蟲、增量式網絡爬蟲以及深層網絡爬蟲等。網絡爬蟲的工具:前常用的網頁爬蟲系統有ApacheNutch、Crawler4j、Scrapy等框架。網絡爬蟲工作流程1.2數據采集系統4-2網絡爬蟲的基本工作流程大數據采集系統數據庫采集系統一些企業會使用傳統的關系型數據庫比如Mysql、Oracle等存儲數據,此外,Redis和Mongodb的NoSQL數據庫也常用于企業數據的采集。針對此類大數據采集技術,目前主要流行的大數據采集分析技術是Hive。在大數據采集技術中還有一個關鍵環節是轉換操作,將清洗后的數據轉換成不同的數據形式,由不同的數據分析系統和計算系統進行分析和處理。1.2數據采集系統企業內部數據采集企業內部數據采集來源于各個業務生產系統,包括CRM數據、CC(呼叫中心)數據、財務數據、倉儲數據、門店數據、銷售數據、OA數據、物流數據、網站數據。CRM數據,即企業客戶管理系統的相關數據。CC(呼叫中心)數據,即企業呼叫中心系統的相關數據。財務數據,包括現金流、資產管理、盈利、負債等數據。倉儲數據,包括庫存周轉、庫存結構、暢銷、滯銷等數據。門店數據,除線下銷售外,還包括POS數據、動線視頻數據等非結構化數據。銷售數據,包括渠道、平臺、品類等維度的銷售數據。OA數據,是企業內部辦公系統的相關數據,該數據可以為優化企業內部流程服務。物流數據,包括出庫、配送、調度、退換貨等數據。網站數據,即流量數據。1.3企業數據采集企業外部數據采集企業外部數據是指數據由企業外部產生,企業通過合作、購買、采集等形式獲得。企業外部數據通常包括競爭數據、營銷數據、物流數據、行業數據等。競爭數據,通常是通過購買或程序采集等形式,獲得關于競爭對手的流量、銷售、產品、營銷等方面的數據,如競爭對手產品價格、競爭對手會員數據、營銷投放渠道等。營銷數據,指企業通過營銷或推廣合作,獲取自身或站外相關媒體、渠道的曝光、點擊、投放等詳細數據。物流數據,指第三方的物流數據。行業數據,指通過購買、調研等獲得關于市場整體行情、市場趨勢、用戶結構、競爭環境等信息,常見于行業報告數據。1.3企業數據采集關系模型的數據結構用二維表格(關系)表示實體和實體間關系的模型稱為關系模型。2.1關系模型表4-2學生基本信息表關系模型的數據操作與約束條件操作主要包括查詢、插入、刪除和修改四類,其中查詢是最重要、最基本的操作。操作特點一次操作可以存取多個元組。隱蔽存取數據的路徑。關系模型優缺點主要優點關系模型與非關系模型不同,它是建立在嚴格的數學概念的基礎上的。無論實體還是實體之間的聯系都用關系來表示。關系模型的存取路徑對用戶透明,從而具有更高的數據獨立性,更好的安全保密性。數據模型具有豐富的完整性。主要缺點:運行效率不高、不能直接描述復雜的數據對象和數據類型。2.1關系模型范式(NF,NormalForma)是一種關系的狀態,也是衡量關系模式好壞的標準。根據關系模式滿足的不同性質和規范化的程度,關系模式被分為第一范式、第二范式、第三范式、BC范式、第四范式和第五范式等,其中范式越高則規范化的程度越高,關系模式也就越好。第一范式:在關系模式R的每個關系R中,如果每個屬性值都是不可再分的原子值,那么稱R是第一范式(1NF)的模式。2.2關系規范化表4-3(a)非規范化關系
倉庫編號負責人
倉庫編號負責人姓名負責人電話姓名電話
W1李明1304560001
W1李明1304560001W2王紅
W2王紅
W3張小兵1881001001
W3張小兵1881001001
表4-3(b)規范化關系范式(NF,NormalForma)第二范式:如果一個關系模式R為1NF,并且R中的每個非主屬性(不是組成主鍵的屬性)都完全函數依賴于R的每個候選關鍵字(主要是主關鍵字),則稱R是第二范式(簡記為2NF)的模式。第三范式:如果一個關系模式R為2NF,且R中所有非主屬性都不傳遞依賴于關鍵字,則稱R是第三范式(簡記為3NF)的模式。BC范式:如果關系模式R為1NF,X?U,且每個屬性都不傳遞依賴于R的候選鍵,那么稱R是BCNF的模式。關系模式的規范化要求關系規范化的基本思想是通過逐步消除不合適的數據依賴,使原模式中的各種關系模式達到某種程度的分離。規范化使得分離后的一個關系只描述一個概念、一個實體或實體間的一種聯系,采用“一事一地”的模式設計原則,把多于一個概念的關系模式分離成多個單一的關系模式。因此對關系模式的規范化實質上是對概念的單一化過程。2.2關系規范化2.2關系規范化圖4-3
關系模式的規范化過程
基本概念鍵值存儲,也稱關聯數組,從本質上來講就是<鍵,值>對的組合,可理解為一類兩列的數組。鍵值存儲就像一個字典,一個字典包含很多單詞,每個單詞都有多個定義。一個字典就是一個簡單的鍵值存儲,單詞條目即為鍵,每個詞條下的定義條目即為值。鍵值存儲的優勢是處理速度非常快,而且不用為值指定一個特定的數據類型。但也具有很明顯的缺點,它只能通過鍵的查詢來獲取數據,而無法使用查詢語言,若鍵值不可知,則無法進行查詢。鍵值存儲兩個重要準則:一是鍵不能重復;二是不能按照值來查詢。鍵值存儲的重要特性:簡潔、高速、可擴展性和可靠性應用案例保存網頁信息用戶配置信息物流運輸訂單信息3.1鍵值數據庫基本概念文檔數據庫也稱為面向文檔的數據庫,面向文檔的數據庫是一類以鍵值數據庫為基礎,不需要定義表結構、可以使用復雜查詢條件的NoSQL數據庫。文檔數據庫的值是以文檔的形式來存儲的,主要用來存儲、索引并管理面向文檔的數據或者類似的半結構化數據。文檔存儲的結構主要分為四個層次,從小到大依次是:鍵值對:是文檔存儲的基本單位,包含數據和類型。鍵值對的數據包括鍵和值,鍵用字符串表示,確保一個鍵值結構里數據記錄的唯一性,同時也能記錄信息。文檔:是文檔存儲的核心概念,是數據的基本單元。文檔數據庫并不會把實體的每個屬性都單獨與某個鍵相關聯,而是會把多個屬性存儲到同一份文檔里面。集合:一般把相似的文檔納入一個集合,集合就是指一組文檔。數據庫:在文檔存儲中,數據庫由集合組成。3.2文檔數據庫特性無需定義表結構易于查詢易于拓展功能豐富應用案例MongodbCouchdb3.2文檔數據庫基本概念列族存儲使用行和列的標識符作為通用的鍵來查找數據。列族存儲兼有傳統關系型數據庫面向行的存儲方式與鍵值存儲方式的部分特點,列族數據庫類似于關系型表格,仍然以表的方式組織數據,由行和列組成,但不同的是列相當于鍵值對,并且引入了列族和時間戳。行:每一行代表一個數據對象,包含了若干列族,且每一行中列族及數量可以不同。列族:列族將一列或多列組織在一起,每個列必須屬于一個列族。時間戳:列的數據項可以有多個版本,不同版本的數據通過時間戳來索引。特性:容量巨大、讀寫高效、高可擴展性、高可用性、稀疏性。應用案例GoogleEarth個性化查詢服務3.3列式數據庫圖存儲概述圖:在圖論中,圖是節點與邊的集合,一般用來分析實體之間的聯系及鏈接。節點:可以用來表示各種事物,例如公司職員、生態系統中的生物、社交網絡的用戶等。邊:節點之間的聯系用邊來表示,邊的始端和末端都必須是節點。屬性:表示節點和邊所具有的特征,節點和邊都可以包含多個屬性。圖存儲:是包含一連串的節點和邊的系統,當它們結合在一起時,就構成了一個圖。圖計算引擎:與關系型數據庫類似,圖存儲的核心也是建立在一個引擎之上的。3.4圖數據庫圖4-5
典型圖計算引擎工作流程圖圖存儲概述圖存儲:是包含一連串的節點和邊的系統,當它們結合在一起時,就構成了一個圖。圖計算引擎:與關系型數據庫類似,圖存儲的核心也是建立在一個引擎之上的。查詢語言:采取圖存儲的數據庫能夠更加高效地查詢圖中各個節點之間的路徑。目前常用的查詢語言是Neo4j推出的Cyper。索引機制:基于圖數據模型的Nosql系統提供Hash索引或是Full-Text索引以檢索節點和邊。圖存儲特性:快速查詢、建模簡單、靈活性、敏捷性。應用案例連接分析規則和推理集成關聯數據3.4圖數據庫數據倉庫:一個面向主題的、集成的、隨時間變化的、非易失性的數據集合,用于支持管理層的決策過程。特征面向主題:按一個個獨立而明確的主題組織數據倉庫中的數據。集成性:數據倉庫構建的過程中,多個外部數據源中的不同類型和定義的數據,經過提取、清洗和轉換等一系列處理,最終構成一個有機整體。時變性:數據倉庫中的數據隨著時間的變化不斷得到定期的增補和更新,以保證決策的正確性。非易失性:數據非易失性又稱穩定性,一旦數據被導入數據倉庫,就永遠不會被刪除。4.1數據倉庫的特征數據倉庫系統是計算機系統、DW、DWMS、應用軟件、數據庫管理員和用戶的集合。即數據倉庫系統一般由硬件、軟件(包括開發工具)、數據倉庫、數據倉庫管理員等構成。兩層體系結構:包括相互分離的數據源層和數據倉庫層,由四個連續的數據流階段組成。4.2數據倉庫系統圖4-7數據倉庫二層體系結構示意圖三層體系結構:在數據源層和數據倉庫層之間增加了操作型數據存儲,用于存儲源數據處理、集成后獲得的操作型數據,將數據填充到數據倉庫中。4.2數
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- DB31/T 1074-2017酒吧經營管理服務規范
- DB31/T 1015-2016危險化學品建設項目職業病防護與安全設施設計專篇編制導則
- 信息安全的法律法規試題及答案詳解
- 武漢市武昌區2025年八年級《語文》上學期期末試題與參考答案
- 離婚房產分割補償金支付及后續處理合同
- 影視動畫作品角色形象使用權授權合同
- 綠色能源私募基金認購及項目合作協議
- 電商平臺自動化倉儲管理系統維護及升級合同
- 留學歸國人員國際化項目合作聘用合同
- 生物制藥創新疫苗專利授權及全球市場拓展合同
- 五年級口算1000題(打印版)
- 五官科護理第七章-口腔頜面部的應用解剖生理課件
- 第四章 第二節招聘
- FZT 73013-2017 針織泳裝行業標準
- 科技志愿服務培訓課件
- 血液科疾病常見癥狀護理培訓課件
- 2024-2025年全國初中化學競賽試卷及答案
- 2024年首都機場集團資產管理有限公司招聘筆試參考題庫含答案解析
- 生產異常管理課件
- 酒廠擴建可行性報告
- 售后服務中的客戶溝通和協商技巧
評論
0/150
提交評論