




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)概述實(shí)例引入:三次信息化浪潮迎來大數(shù)據(jù)時(shí)代大數(shù)據(jù)產(chǎn)業(yè)發(fā)展概況大數(shù)據(jù)技術(shù)體系大數(shù)據(jù)相關(guān)崗位需求實(shí)例引入:三次信息化浪潮迎來大數(shù)據(jù)時(shí)代古人記錄信息的手段非常原始,如果要記往一件事,他們會(huì)在繩子上打一個(gè)結(jié),以后看到該結(jié),就會(huì)想起那件事,這便是結(jié)繩記事。如果有很多事需要記住,那么就會(huì)在繩子上打很多結(jié),時(shí)間長了就很難想起是什么事了。由此可見,“結(jié)繩記事”這種古老的方法雖然簡單但并不可靠。隨著人類文明的不斷進(jìn)步,記錄信息的載體也在發(fā)生著變化,例如龜甲、獸骨、竹簡、紙張、錄音磁帶、可移動(dòng)磁盤、數(shù)據(jù)庫等。隨著第三次工業(yè)革命的到來,人類進(jìn)入了信息時(shí)代,電子計(jì)算機(jī)的發(fā)明更是為信息技術(shù)的發(fā)展插上了翅膀,大量的信息由此產(chǎn)生,大數(shù)據(jù)的時(shí)代就此到來。信息時(shí)代數(shù)據(jù)爆炸信息時(shí)代以電子信息產(chǎn)業(yè)的突破與迅猛發(fā)展為標(biāo)志,和工業(yè)時(shí)代有著明顯的區(qū)別。在工業(yè)時(shí)代,人們更看重的是土地、廠房、機(jī)械設(shè)備、勞動(dòng)力等傳統(tǒng)生產(chǎn)要素。在信息時(shí)代,數(shù)據(jù)變成一種新的生產(chǎn)要素,蘊(yùn)含了對未來事件的判斷、事物之間的聯(lián)系、未被發(fā)現(xiàn)的知識規(guī)律等,因此,數(shù)據(jù)積累就顯得十分重要。在信息時(shí)代,晶體管和大規(guī)模集成電路極大地降低了信息傳播的費(fèi)用,隨著計(jì)算機(jī)的出現(xiàn)和逐步普及,信息對整個(gè)社會(huì)的影響逐步提高。信息指標(biāo)呈現(xiàn)出一種逐漸提升的態(tài)勢,主要體現(xiàn)在信息總量的增長、信息傳播速度的提升、信息處理速度的加快以及信息應(yīng)用的廣度和深度的擴(kuò)展。信息時(shí)代數(shù)據(jù)爆炸信息技術(shù)的發(fā)展為人們學(xué)習(xí)知識、掌握知識和運(yùn)用知識帶來了新的機(jī)遇和挑戰(zhàn)。雖然信息與知識并非完全等同,但通過信息技術(shù)的支持,人們可以更方便地獲取各種信息資源,并利用工具和平臺進(jìn)行知識的積累和應(yīng)用。中國信息通信研究院發(fā)布的《大數(shù)據(jù)白皮書(2020年)》中提到,根據(jù)國際權(quán)威機(jī)構(gòu)Statista的統(tǒng)計(jì)和預(yù)測,2035年全球數(shù)據(jù)產(chǎn)生量將達(dá)到2142ZB,全球數(shù)據(jù)量即將迎來更大規(guī)模的爆發(fā)。三次信息化浪潮人類記錄信息的方式不斷的變化著,記錄信息的方式經(jīng)歷了3次信息化浪潮三次信息化浪潮人類記錄信息的方式不斷的變化著,記錄信息的方式經(jīng)歷了3次信息化浪潮第一次信息化浪潮是計(jì)算機(jī)的普及
計(jì)算機(jī)的價(jià)格不斷下降,尺寸不斷縮小,進(jìn)入日常生活第二次信息化浪潮是互聯(lián)網(wǎng)的普及
獲取信息的便利性增大第三次信息化浪潮是大數(shù)據(jù)技術(shù)的發(fā)展網(wǎng)絡(luò)共享的數(shù)據(jù)不斷積累,通過數(shù)據(jù)挖掘,發(fā)現(xiàn)其中隱含的價(jià)值大數(shù)據(jù)的發(fā)展大數(shù)據(jù)的發(fā)展可以分為4個(gè)階段大數(shù)據(jù)的發(fā)展大數(shù)據(jù)萌芽階段(1980年—2008年)1980年,美國著名未來學(xué)家阿爾文·托夫勒(AlvinToffler)在《第三次浪潮》一書中提出大數(shù)據(jù)這一概念大數(shù)據(jù)發(fā)展階段(2009年—2011年)在大數(shù)據(jù)發(fā)展階段,處理海量數(shù)據(jù)已經(jīng)成為整個(gè)社會(huì)迫在眉睫的事情,全球范圍內(nèi)開始進(jìn)行大數(shù)據(jù)的研究探索和實(shí)際運(yùn)用。2010年,肯尼斯·庫克爾發(fā)表了長達(dá)14頁的大數(shù)據(jù)專題報(bào)告《數(shù)據(jù),無所不在的數(shù)據(jù)》,系統(tǒng)地分析了當(dāng)前社會(huì)中的數(shù)據(jù)問題大數(shù)據(jù)的發(fā)展大數(shù)據(jù)爆發(fā)階段(2012年—2016年)大數(shù)據(jù)成為各行各業(yè)討論的時(shí)代主題,對數(shù)據(jù)的認(rèn)知更新引領(lǐng)著思維變革、商業(yè)變革和管理變革,大數(shù)據(jù)應(yīng)用規(guī)模不斷擴(kuò)大,全球開始針對大數(shù)據(jù)制定相應(yīng)的戰(zhàn)略和規(guī)劃大數(shù)據(jù)成熟階段(2017年至今)在大數(shù)據(jù)成熟階段,與大數(shù)據(jù)相關(guān)的政策、法規(guī)、技術(shù)、教育、應(yīng)用等發(fā)展因素開始走向成熟,其中,政策和法規(guī)對技術(shù)的應(yīng)用進(jìn)行了約束和規(guī)范,起到了至關(guān)重要的作用大數(shù)據(jù)帶來思維模式的改變在計(jì)算機(jī)發(fā)明初期,由于技術(shù)條件的限制,人類無法獲取大量的數(shù)據(jù),沒有辦法完全利用已獲得的數(shù)據(jù)來分析問題,一般采用統(tǒng)計(jì)學(xué)方法和建立因果關(guān)系模型來分析。但是很多問題無法通過因果關(guān)系來描述,或其因果關(guān)系非常復(fù)雜難以準(zhǔn)確描述。在大數(shù)據(jù)時(shí)代,人類可以利用全部的樣本數(shù)據(jù),通過算法找出其中的繁雜關(guān)系;而且并不要求這些數(shù)據(jù)是完全精確的,可以是混雜的,完全符合客觀世界的真實(shí)規(guī)律。這樣的思路來分析問題,就是采用了大數(shù)據(jù)思維。大數(shù)據(jù)帶來思維模式的改變大數(shù)據(jù)思維是在利用數(shù)據(jù)解決業(yè)務(wù)問題的過程中所表現(xiàn)出來的思維模式,這個(gè)過程涉及一系列的步驟,包括選擇一個(gè)業(yè)務(wù)領(lǐng)域或主題,理解業(yè)務(wù)問題及其數(shù)據(jù),描述業(yè)務(wù)問題及其數(shù)據(jù)等。為了完整性,大數(shù)據(jù)思維還涉及尋找合適的方法分析數(shù)據(jù),以及如何恰當(dāng)?shù)卣故痉治鼋Y(jié)果,把數(shù)據(jù)處理整個(gè)流程的開始(業(yè)務(wù)需求)和結(jié)束(結(jié)果的解釋和展示)關(guān)聯(lián)起來,形成一個(gè)閉環(huán)。大數(shù)據(jù)的特點(diǎn)大數(shù)據(jù)的數(shù)據(jù)存儲和處理都不同于傳統(tǒng)數(shù)據(jù)庫數(shù)據(jù),而且出現(xiàn)了非結(jié)構(gòu)化數(shù)據(jù)。經(jīng)過總結(jié),可以得到大數(shù)據(jù)的5個(gè)特征,簡稱5V特征。Volume(數(shù)據(jù)量)Variety(多樣性)Value(價(jià)值)Velocity(速度)Veracity(真實(shí)性)實(shí)例引入:三次信息化浪潮迎來大數(shù)據(jù)時(shí)代大數(shù)據(jù)產(chǎn)業(yè)發(fā)展概況大數(shù)據(jù)技術(shù)體系大數(shù)據(jù)相關(guān)崗位需求大數(shù)據(jù)產(chǎn)業(yè)發(fā)展概況1.大數(shù)據(jù)產(chǎn)業(yè)發(fā)展現(xiàn)狀與市場規(guī)模我國大數(shù)據(jù)經(jīng)過多年高速發(fā)展,不斷取得重要突破,呈現(xiàn)良好發(fā)展態(tài)勢。一是產(chǎn)業(yè)規(guī)模高速增長,2021年,我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模增加到1.3萬億元,復(fù)合增長率(CompoundAnnualGrowthRate,CAGR)超過30%;二是創(chuàng)新能力不斷增強(qiáng),2021年我國發(fā)表大數(shù)據(jù)領(lǐng)域論文量占全球31%,大數(shù)據(jù)相關(guān)專利受理總數(shù)占全球超50%,均位居第一;三是生態(tài)體系持續(xù)優(yōu)化,2021年我國大數(shù)據(jù)市場主體總量超18萬家,一批大數(shù)據(jù)龍頭企業(yè)快速崛起,初步形成了大企業(yè)引領(lǐng)、中小企業(yè)協(xié)同、創(chuàng)新大數(shù)據(jù)產(chǎn)業(yè)發(fā)展概況2.大數(shù)據(jù)產(chǎn)業(yè)應(yīng)用領(lǐng)域及其應(yīng)用價(jià)值隨著大數(shù)據(jù)成為國家戰(zhàn)略以及大數(shù)據(jù)技術(shù)和商業(yè)模式逐漸成熟,大數(shù)據(jù)的應(yīng)用在各行業(yè)、各領(lǐng)域得到了快速拓展。在經(jīng)濟(jì)預(yù)警、輿情分析、健康醫(yī)療、農(nóng)業(yè)精準(zhǔn)管理、城市綜合治理、電信運(yùn)營、互聯(lián)網(wǎng)金融、電子商務(wù)等領(lǐng)域已出現(xiàn)先導(dǎo)應(yīng)用并在不斷深化。金融領(lǐng)域電子商務(wù)領(lǐng)域交通領(lǐng)域醫(yī)療衛(wèi)生行業(yè)3.大數(shù)據(jù)市場產(chǎn)業(yè)鏈大數(shù)據(jù)產(chǎn)業(yè)發(fā)展概況大數(shù)據(jù)產(chǎn)業(yè)是以數(shù)據(jù)采集、交易、存儲、加工、分析、服務(wù)為主的各類經(jīng)濟(jì)活動(dòng),包括數(shù)據(jù)資源建設(shè)、大數(shù)據(jù)軟硬件產(chǎn)品的開發(fā)、銷售、租賃活動(dòng)和相關(guān)信息技術(shù)服務(wù)。整體來看,大數(shù)據(jù)產(chǎn)業(yè)鏈由上游、中游和下游3部分組成,如右圖,上游是基礎(chǔ)支持,中游是大數(shù)據(jù)服務(wù),下游是大數(shù)據(jù)應(yīng)用,三者相互交融,形成完整的大數(shù)據(jù)產(chǎn)業(yè)鏈。實(shí)例引入:三次信息化浪潮迎來大數(shù)據(jù)時(shí)代大數(shù)據(jù)產(chǎn)業(yè)發(fā)展概況大數(shù)據(jù)技術(shù)體系大數(shù)據(jù)相關(guān)崗位需求大數(shù)據(jù)技術(shù)體系大數(shù)據(jù)技術(shù)體系內(nèi)容大數(shù)據(jù)的出現(xiàn)顛覆了傳統(tǒng)數(shù)據(jù)處理的一系列技術(shù),如大數(shù)據(jù)獲取方式的改變導(dǎo)致數(shù)據(jù)規(guī)模迅速膨脹,對傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)而言,其索引、查詢以及存儲技術(shù)都面臨著嚴(yán)峻的考驗(yàn),而且如何快速地完成大數(shù)據(jù)的分析也是傳統(tǒng)數(shù)據(jù)分析方法無法解決的問題。大數(shù)據(jù)技術(shù)應(yīng)用于大數(shù)據(jù)系統(tǒng)端到端的各個(gè)環(huán)節(jié),包括數(shù)據(jù)接入、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)可視化、數(shù)據(jù)治理,以及安全與隱私保護(hù)等。數(shù)據(jù)接入大數(shù)據(jù)系統(tǒng)需要從不同應(yīng)用和數(shù)據(jù)源(如互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等)進(jìn)行離線或?qū)崟r(shí)的數(shù)據(jù)采集、傳輸、分發(fā)。為了支持多種應(yīng)用和數(shù)據(jù)類型,大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)接入需要基于規(guī)范化的傳輸協(xié)議和數(shù)據(jù)格式,提供豐富的數(shù)據(jù)接口、讀入各種類型的數(shù)據(jù)。數(shù)據(jù)預(yù)處理預(yù)處理是大數(shù)據(jù)重點(diǎn)技術(shù)之一。由于采集到的數(shù)據(jù)在來源、格式、數(shù)據(jù)質(zhì)量等方面可能存在較大的差異,需要對數(shù)據(jù)進(jìn)行整理、清洗、轉(zhuǎn)換等操作,以便支撐后續(xù)數(shù)據(jù)處理、查詢、分析等進(jìn)一步應(yīng)用。數(shù)據(jù)存儲隨著大數(shù)據(jù)系統(tǒng)數(shù)據(jù)規(guī)模的擴(kuò)大、數(shù)據(jù)處理和分析維度的提升、以及大數(shù)據(jù)應(yīng)用對數(shù)據(jù)處理性能要求的不斷提高,數(shù)據(jù)存儲技術(shù)得到持續(xù)的發(fā)展與優(yōu)化。一方面,基于大規(guī)模并行數(shù)據(jù)庫(MassivelyParallelProcessingDatabase,MPPDB)集群實(shí)現(xiàn)了海量結(jié)構(gòu)化數(shù)據(jù)的存儲與高質(zhì)量管理,并能有效支持SQL和聯(lián)機(jī)交易處理(OnlineTransactionProcessing,OLTP)查詢。另一方面,Hadoop分布式文件系統(tǒng)(HadoopDistributdeFileSystem,HDFS)實(shí)現(xiàn)了對海量半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存儲,進(jìn)一步支撐內(nèi)容檢索、深度挖掘、綜合分析等大數(shù)據(jù)分析應(yīng)用。同時(shí),數(shù)據(jù)規(guī)模的快速增長,也使得分布式存儲成為主流的存儲方式,通過充分利用分布式存儲設(shè)備的資源,能夠顯著提升容量和讀寫性能,具備較高的擴(kuò)展性。數(shù)據(jù)處理數(shù)據(jù)處理方法說明如下表。近年來,為滿足不同數(shù)據(jù)分析場景在性能、數(shù)據(jù)規(guī)模、并發(fā)性等方面的要求,流計(jì)算、內(nèi)存計(jì)算、圖計(jì)算等數(shù)據(jù)處理技術(shù)不斷發(fā)展。同時(shí),人工智能的快速發(fā)展使得機(jī)器學(xué)習(xí)算法更多地融入數(shù)據(jù)處理、分析過程,進(jìn)一步提升了數(shù)據(jù)處理結(jié)果的精準(zhǔn)度、智能化和分析效率。方法說明離線處理離線處理通常是指對海量數(shù)據(jù)進(jìn)行批量的處理和分析,對處理操作的實(shí)時(shí)性要求不高,但數(shù)據(jù)量巨大、占用計(jì)算及存儲資源較多實(shí)時(shí)處理實(shí)時(shí)處理指對實(shí)時(shí)數(shù)據(jù)源(如流數(shù)據(jù))進(jìn)行快速分析,對分析處理操作的實(shí)時(shí)性要求高,單位時(shí)間處理的數(shù)據(jù)量大,對CPU和內(nèi)存的要求很高交互查詢交互查詢是指對數(shù)據(jù)進(jìn)行交互式的分析和查詢,對查詢操作響應(yīng)時(shí)間要求較高,對查詢語言支持要求高實(shí)時(shí)檢索實(shí)時(shí)檢索指對實(shí)時(shí)寫入的數(shù)據(jù)進(jìn)行動(dòng)態(tài)的查詢,對查詢操作響應(yīng)時(shí)間要求較高,并且通常需要支持高并發(fā)查詢數(shù)據(jù)可視化數(shù)據(jù)可視化是大數(shù)據(jù)技術(shù)在各行業(yè)應(yīng)用中的關(guān)鍵環(huán)節(jié)。其直觀反映出數(shù)據(jù)各維度指標(biāo)的變化趨勢,用以支撐用戶分析、監(jiān)控和數(shù)據(jù)價(jià)值挖掘。數(shù)據(jù)可視化技術(shù)還可使用戶借助圖表、2D/3D視圖等多種方式自定義配置可視化界面,實(shí)現(xiàn)對各類數(shù)據(jù)源進(jìn)行面向不同應(yīng)用要求的分析。數(shù)據(jù)治理數(shù)據(jù)治理涉及數(shù)據(jù)全生存周期端到端過程,不僅與技術(shù)緊密相關(guān),還與政策、法規(guī)、標(biāo)準(zhǔn)、流程等密切關(guān)聯(lián)。從技術(shù)角度來看,大數(shù)據(jù)治理涉及元數(shù)據(jù)管理、數(shù)據(jù)標(biāo)準(zhǔn)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全管理等多方面技術(shù)。當(dāng)前,數(shù)據(jù)資源分散、數(shù)據(jù)流通困難(模型不統(tǒng)一、接口難對接)、應(yīng)用系統(tǒng)孤立等問題已經(jīng)成為企業(yè)數(shù)字化轉(zhuǎn)型的極大挑戰(zhàn)。大數(shù)據(jù)系統(tǒng)需要通過提供集成化的數(shù)據(jù)治理能力,實(shí)現(xiàn)統(tǒng)一數(shù)據(jù)資產(chǎn)管理及數(shù)據(jù)資源規(guī)劃。安全與隱私保護(hù)大數(shù)據(jù)系統(tǒng)的安全與系統(tǒng)的各個(gè)組件、系統(tǒng)工作的各個(gè)環(huán)節(jié)相關(guān),需要從數(shù)據(jù)安全(例如,備份容災(zāi)、數(shù)據(jù)加密)、應(yīng)用安全(例如,身份鑒別和認(rèn)證)、設(shè)備安全(例如,網(wǎng)絡(luò)安全、主機(jī)安全)等方面全面保障系統(tǒng)的運(yùn)行安全。同時(shí)隨著數(shù)據(jù)應(yīng)用的不斷深入,數(shù)據(jù)隱私保護(hù)(包括個(gè)人隱私保護(hù)、企業(yè)商業(yè)秘密保護(hù)、國家機(jī)密保護(hù))也已成為大數(shù)據(jù)技術(shù)重點(diǎn)研究方向之一。實(shí)例引入:三次信息化浪潮迎來大數(shù)據(jù)時(shí)代大數(shù)據(jù)產(chǎn)業(yè)發(fā)展概況大數(shù)據(jù)技術(shù)體系大數(shù)據(jù)相關(guān)崗位需求大數(shù)據(jù)相關(guān)崗位需求近年來,隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,相關(guān)就業(yè)崗位的數(shù)量和種類也不斷地增加。大數(shù)據(jù)技術(shù)發(fā)展初期,受歡迎的是大數(shù)據(jù)算法開發(fā)工程師,但是大數(shù)據(jù)技術(shù)的發(fā)展帶動(dòng)了大數(shù)據(jù)配套產(chǎn)業(yè)的發(fā)展,相關(guān)的就業(yè)崗位也增加了,逐漸從大數(shù)據(jù)平臺開發(fā)向著大數(shù)據(jù)應(yīng)用領(lǐng)域開發(fā)擴(kuò)展,極大地增加了就業(yè)機(jī)會(huì),也拓寬了就業(yè)面。大數(shù)據(jù)相關(guān)崗位需求大數(shù)據(jù)主要崗位方向崗位崗位職責(zé)數(shù)據(jù)預(yù)處理數(shù)據(jù)采集工程師負(fù)責(zé)大數(shù)據(jù)采集方案設(shè)計(jì)與開發(fā),實(shí)現(xiàn)基于系統(tǒng)集成、日志、網(wǎng)絡(luò)爬蟲等的數(shù)據(jù)采集數(shù)據(jù)清洗工程師負(fù)責(zé)發(fā)現(xiàn)和處理數(shù)據(jù)異常,制定確保數(shù)據(jù)質(zhì)量的流程和制度數(shù)據(jù)存儲工程師負(fù)責(zé)設(shè)計(jì)和開發(fā)大數(shù)據(jù)存儲系統(tǒng),解決存儲性能優(yōu)化、容量規(guī)劃數(shù)據(jù)分析數(shù)據(jù)挖掘工程師負(fù)責(zé)利用算法從大量數(shù)據(jù)中搜索隱藏于其中的信息,提高大數(shù)據(jù)利用效率數(shù)據(jù)分析工程師負(fù)責(zé)數(shù)據(jù)統(tǒng)計(jì)分析、深度挖掘分析與業(yè)務(wù)預(yù)測,并形成分析報(bào)告數(shù)據(jù)可視化工程師負(fù)責(zé)開發(fā)數(shù)據(jù)可視化產(chǎn)品、輸出數(shù)據(jù)可視化圖表和報(bào)告數(shù)據(jù)管理數(shù)據(jù)治理工程師負(fù)責(zé)制定大數(shù)據(jù)戰(zhàn)略、組織結(jié)構(gòu)、規(guī)章制度數(shù)據(jù)管理工程師負(fù)責(zé)大數(shù)據(jù)全生命周期管理數(shù)據(jù)安全數(shù)據(jù)安全架構(gòu)工程師負(fù)責(zé)制定大數(shù)據(jù)安全體系頂層規(guī)劃與設(shè)計(jì),設(shè)計(jì)組織架構(gòu)和安全管理體系數(shù)據(jù)安全評估工程師負(fù)責(zé)分析、評估大數(shù)據(jù)中存在的威脅、漏洞及風(fēng)險(xiǎn),并提出改進(jìn)措施數(shù)據(jù)安全運(yùn)維工程師負(fù)責(zé)大數(shù)據(jù)安全巡檢、安全加固、脆弱性檢查、滲透性測試應(yīng)急保障小結(jié)經(jīng)過3次信息化浪潮,人類社會(huì)進(jìn)入了大數(shù)據(jù)時(shí)代。在信息爆炸的時(shí)代里,傳統(tǒng)的數(shù)據(jù)管理和分析技術(shù)已經(jīng)無法滿足大數(shù)據(jù)存儲與分析的需求,因此產(chǎn)生了大數(shù)據(jù)的存儲技術(shù),可對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲、管理,也產(chǎn)生了數(shù)據(jù)的分析和挖掘技術(shù),可在海量的數(shù)據(jù)中找到隱含的邏輯關(guān)系。在大數(shù)據(jù)時(shí)代里,需要新的技術(shù)、新的思維方式,相關(guān)的軟件和硬件也都要更新。與大數(shù)據(jù)相關(guān)的產(chǎn)業(yè)蓬勃發(fā)展,新的就業(yè)崗位也應(yīng)運(yùn)而生,如何使用大數(shù)據(jù)新技術(shù)和面對新改變是本書所研究的內(nèi)容。大數(shù)據(jù)采集實(shí)例引入:在線旅行社的用戶訪問行為數(shù)據(jù)采集大數(shù)據(jù)采集技術(shù)主流的大數(shù)據(jù)采集框架實(shí)例引入:在線旅行社的用戶訪問行為數(shù)據(jù)采集近年來,伴隨著國內(nèi)經(jīng)濟(jì)的持續(xù)增長,居民的消費(fèi)水平逐漸提升,我國旅游市場也持續(xù)升溫,旅游成為我國居民日常生活的選擇。隨著大數(shù)據(jù)應(yīng)用的普及,新時(shí)代賦予了大數(shù)據(jù)更重要的社會(huì)責(zé)任。例如,在線旅行社為了把握旅游產(chǎn)業(yè)發(fā)展趨勢,通過對用戶訪問行為數(shù)據(jù)的采集,研判增長趨勢、個(gè)性化及品質(zhì)型消費(fèi)的發(fā)展以及旅游消費(fèi)新熱點(diǎn)的轉(zhuǎn)化等。我們通過梳理在線旅行社的用戶訪問行為數(shù)據(jù)來源,對特定用戶行為或事件設(shè)定埋點(diǎn),根據(jù)運(yùn)營定義好的埋點(diǎn)接口形式采集用戶的訪問日志數(shù)據(jù)。用戶訪問行為數(shù)據(jù)分析的價(jià)值用戶訪問行為數(shù)據(jù)分析的指標(biāo)主要包括頁面訪問量、獨(dú)立訪客數(shù)、跳出率、訪問深度、停留時(shí)長等。總地來說,這些都屬于統(tǒng)計(jì)指標(biāo),反映的是用戶訪問頁面的總體情況。但是數(shù)據(jù)的價(jià)值除了反映現(xiàn)狀,更重要的是應(yīng)用。統(tǒng)計(jì)是數(shù)據(jù)匯總整理的結(jié)果,分析是促進(jìn)業(yè)務(wù)增長的依據(jù),因此可以利用從用戶訪問行為數(shù)據(jù)分析出的價(jià)值來指導(dǎo)業(yè)務(wù)活動(dòng)。用戶訪問行為數(shù)據(jù)分析的價(jià)值1.什么是用戶行為分析用戶行為分析是指對用戶在網(wǎng)站、應(yīng)用、社交媒體等平臺上產(chǎn)生的行為及行為背后的數(shù)據(jù)進(jìn)行深入的研究和分析。其目的是發(fā)現(xiàn)用戶的行為規(guī)律、偏好和需求,以便企業(yè)能夠更精準(zhǔn)地制定產(chǎn)品策略、營銷策略和運(yùn)營策略,實(shí)現(xiàn)業(yè)務(wù)的增長和優(yōu)化。用戶行為分析可以對用戶畫像進(jìn)行關(guān)鍵補(bǔ)充,構(gòu)建更精細(xì)、完整的用戶畫像。用戶訪問行為數(shù)據(jù)分析的價(jià)值2.用戶行為分析在應(yīng)用中的價(jià)值自定義留存分析;精細(xì)化渠道質(zhì)量評估;產(chǎn)品分析;精準(zhǔn)營銷。用戶訪問行為數(shù)據(jù)分析的價(jià)值2.用戶行為分析在應(yīng)用中的價(jià)值自定義留存分析;
定義:自定義留存分析是通過對用戶行為數(shù)據(jù)的深入分析,設(shè)定特定的條件或事件,以評估用戶在這些條件下的留存情況。目的:幫助企業(yè)更精準(zhǔn)地了解用戶在不同場景下的留存表現(xiàn),從而優(yōu)化產(chǎn)品或服務(wù),提升用戶體驗(yàn)和留存率。用戶訪問行為數(shù)據(jù)分析的價(jià)值2.用戶行為分析在應(yīng)用中的價(jià)值自定義留存分析;分析步驟確定分析主體;設(shè)定初始行為和后續(xù)行為;添加篩選條件;選擇時(shí)間范圍;分組展示。用戶訪問行為數(shù)據(jù)分析的價(jià)值2.用戶行為分析在應(yīng)用中的價(jià)值自定義留存分析;精細(xì)化渠道質(zhì)量評估;產(chǎn)品分析;精準(zhǔn)營銷。定義:精細(xì)化渠道質(zhì)量評估是確保企業(yè)產(chǎn)品在運(yùn)營和推廣中能夠找到高質(zhì)量渠道的重要步驟。原則:用戶群體匹配:確保渠道的用戶群體與產(chǎn)品的目標(biāo)人群和產(chǎn)品調(diào)性相匹配。數(shù)據(jù)量化監(jiān)控:結(jié)合定量數(shù)據(jù)進(jìn)行監(jiān)控,持續(xù)優(yōu)化投放策略。用戶訪問行為數(shù)據(jù)分析的價(jià)值2.用戶行為分析在應(yīng)用中的價(jià)值自定義留存分析;精細(xì)化渠道質(zhì)量評估;產(chǎn)品分析;精準(zhǔn)營銷。定義:產(chǎn)品分析是對產(chǎn)品進(jìn)行全面、系統(tǒng)的評估和研究,以便了解產(chǎn)品的優(yōu)點(diǎn)、缺點(diǎn)、市場定位、競爭環(huán)境等,從而為企業(yè)制定產(chǎn)品策略、優(yōu)化產(chǎn)品設(shè)計(jì)、提升市場競爭力提供依據(jù)。目的:明確產(chǎn)品的名稱,確定產(chǎn)品所屬的行業(yè)或細(xì)分市場,簡要介紹產(chǎn)品的功能、特點(diǎn)、用途等。用戶訪問行為數(shù)據(jù)分析的價(jià)值2.用戶行為分析在應(yīng)用中的價(jià)值自定義留存分析;精細(xì)化渠道質(zhì)量評估;產(chǎn)品分析;精準(zhǔn)營銷。定義:精細(xì)化渠道質(zhì)量評估是確保企業(yè)產(chǎn)品在運(yùn)營和推廣中能夠找到高質(zhì)量渠道的重要步驟。原則:用戶群體匹配:確保渠道的用戶群體與產(chǎn)品的目標(biāo)人群和產(chǎn)品調(diào)性相匹配。數(shù)據(jù)量化監(jiān)控:結(jié)合定量數(shù)據(jù)進(jìn)行監(jiān)控,持續(xù)優(yōu)化投放策略。指標(biāo):流量規(guī)模、拉新能力、渠道質(zhì)量。用戶行為分析在產(chǎn)品分析中的價(jià)值用戶行為分析在產(chǎn)品分析中的主要價(jià)值如下表。價(jià)值體現(xiàn)說明優(yōu)化用戶體驗(yàn)分析用戶行為路徑、使用習(xí)慣和反饋找出潛在的問題和痛點(diǎn),有針對性地優(yōu)化產(chǎn)品設(shè)計(jì),提升用戶體驗(yàn)精細(xì)化運(yùn)營了解不同用戶群體的特點(diǎn)和需求,根據(jù)不同群體的行為特征精細(xì)化運(yùn)營,提高運(yùn)營效果指導(dǎo)產(chǎn)品迭代方向了解用戶對產(chǎn)品的滿意度、核心功能的使用情況等,得出產(chǎn)品迭代的優(yōu)先級和方向,產(chǎn)品的更新更加符合用戶的需求和市場的發(fā)展預(yù)測用戶需求通過對用戶行為數(shù)據(jù)的深入挖掘,產(chǎn)品團(tuán)隊(duì)可以預(yù)測用戶未來的需求,提前做好功能儲備和優(yōu)化,提升產(chǎn)品的競爭力和市場占有率發(fā)現(xiàn)增長機(jī)會(huì)通過對比不同用戶群體的行為模式和轉(zhuǎn)化率,產(chǎn)品團(tuán)隊(duì)可以發(fā)現(xiàn)新的增長機(jī)會(huì),例如,哪些功能或服務(wù)對用戶的吸引力不足,哪些運(yùn)營活動(dòng)可以帶來更多的收益等,從而制定更加有效的增長策略用戶訪問行為數(shù)據(jù)采集方案的設(shè)計(jì)1.用戶訪問行為分析指標(biāo)指標(biāo)指標(biāo)說明示例WHO獲取登錄用戶的個(gè)人信息用戶名稱、角色WHEN獲取用戶訪問頁面每個(gè)模塊的時(shí)間開始時(shí)間、結(jié)束時(shí)間WHAT獲取用戶登錄頁面后的具體操作單擊頁面行為,單擊模塊行為WHERE確定用戶訪問頁面的具體網(wǎng)址和鏈接情況頁面URLWHY分析用戶單擊該模塊的目的用戶單擊意圖HOW用戶通過什么方式訪問的系統(tǒng)Web、App、小程序HOWLONG用戶訪問某個(gè)模塊、瀏覽某個(gè)頁面的時(shí)間長度時(shí)間(小時(shí)、分鐘、秒)WHO獲取登錄用戶的個(gè)人信息用戶名稱、角色用戶訪問行為數(shù)據(jù)采集方案的設(shè)計(jì)2.用戶訪問行為數(shù)據(jù)采集選擇埋點(diǎn)方式全埋點(diǎn);代碼埋點(diǎn);全埋點(diǎn)是前端的一種埋點(diǎn)方式,在產(chǎn)品中調(diào)用軟件開發(fā)工具包(SoftwareDevelopmentKit,SDK),通過界面配置的方式對關(guān)鍵的行為進(jìn)行定義,完成埋點(diǎn)采集。用戶訪問行為數(shù)據(jù)采集方案的設(shè)計(jì)2.用戶訪問行為數(shù)據(jù)采集選擇埋點(diǎn)方式全埋點(diǎn);代碼埋點(diǎn);代碼埋點(diǎn)是經(jīng)常使用的埋點(diǎn)方式。代碼埋點(diǎn)分為前端代碼埋點(diǎn)和后端代碼埋點(diǎn)。前端埋點(diǎn)類似于全埋點(diǎn),需要調(diào)用前端埋點(diǎn)SDK。后端埋點(diǎn)則將事件、屬性通過后端程序調(diào)用后端埋點(diǎn)SDK發(fā)送到后臺服務(wù)器。用戶訪問行為數(shù)據(jù)采集方案的設(shè)計(jì)2.用戶訪問行為數(shù)據(jù)采集選擇埋點(diǎn)方式埋點(diǎn)協(xié)作用戶訪問行為數(shù)據(jù)采集方案的設(shè)計(jì)2.用戶訪問行為數(shù)據(jù)采集選擇埋點(diǎn)方式埋點(diǎn)協(xié)作數(shù)據(jù)采集過程實(shí)例引入:在線旅行社的用戶訪問行為數(shù)據(jù)采集大數(shù)據(jù)采集技術(shù)主流的大數(shù)據(jù)采集框架了解大數(shù)據(jù)采集1.傳統(tǒng)的數(shù)據(jù)采集方式說明問卷調(diào)查問卷調(diào)查是指制定詳細(xì)周密的問卷,要求被調(diào)查者據(jù)此進(jìn)行回答以收集數(shù)據(jù)的方法。問卷調(diào)查是數(shù)據(jù)收集最常用的一種方式,操作方便,缺點(diǎn)是數(shù)據(jù)沒有針對性,無法得到深層次的數(shù)據(jù)。人工方式推廣時(shí)間比較慢,很耗人力,網(wǎng)上問卷通過自動(dòng)化實(shí)現(xiàn)了過程集成,更方便快速查閱資料查閱資料是最古老的數(shù)據(jù)收集的方式,通過查閱書籍、記錄等資料來得到想要的數(shù)據(jù)。查閱資料本來就有篩選性和分析性,所得到的數(shù)據(jù)可能更接近想要得到的結(jié)果。查閱資料的缺點(diǎn)是對操作者要求較高,并且現(xiàn)在的資料煩瑣、真假參半,需要操作者有很強(qiáng)的判斷力。目前,網(wǎng)絡(luò)查詢非常方便,給查閱資料提供了很好的環(huán)境實(shí)地考察實(shí)地考察是為了深入了解特定地點(diǎn)的研究行為,旨在揭示事物的真相、發(fā)展過程和現(xiàn)狀。通過直接觀察和詳細(xì)了解局部情況,實(shí)地考察提供了直觀的數(shù)據(jù)支持。在考察過程中,要隨時(shí)對自己觀察到的現(xiàn)象進(jìn)行分析,努力把握考察對象特點(diǎn)。實(shí)地考察的優(yōu)點(diǎn)是可以得到第一手資料,缺點(diǎn)是比較耗時(shí)耗力,需要考察人員之間相互配合,因?yàn)榭疾爝^程中變數(shù)很大,可能沒有辦法達(dá)到目標(biāo)實(shí)驗(yàn)根據(jù)科學(xué)研究的目的,盡可能地排除外界的影響,突出主要因素并利用一些專門的儀器設(shè)備,人為地變革、控制或模擬研究對象,使某一些事物(或過程)發(fā)生或再現(xiàn),從而去認(rèn)識自然現(xiàn)象、自然性質(zhì)、自然規(guī)律。實(shí)驗(yàn)是4種方法中最耗時(shí)間的一種。缺點(diǎn)是未知性很大,不管是實(shí)驗(yàn)周期還是實(shí)驗(yàn)結(jié)果都是不確定的了解大數(shù)據(jù)采集2.大數(shù)據(jù)采集線上行為數(shù)據(jù)機(jī)器系統(tǒng)中的內(nèi)容數(shù)據(jù)企業(yè)系統(tǒng)中的業(yè)務(wù)數(shù)據(jù)了解大數(shù)據(jù)采集3.大數(shù)據(jù)采集與傳統(tǒng)數(shù)據(jù)采集的區(qū)別采集對象采集數(shù)據(jù)量采集的數(shù)據(jù)結(jié)構(gòu)采集的效率大數(shù)據(jù)采集的數(shù)據(jù)對象包括射頻識別(Radio-FrequencyIdentif
ication,RFID)數(shù)據(jù)、傳感器數(shù)據(jù)、用戶行為數(shù)據(jù)、社交網(wǎng)絡(luò)交互數(shù)據(jù)及移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)等各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的海量數(shù)據(jù)。傳統(tǒng)數(shù)據(jù)采集的數(shù)據(jù)對象單一,包括從傳統(tǒng)企業(yè)的客戶關(guān)系管理系統(tǒng)、企業(yè)資源計(jì)劃系統(tǒng)及相關(guān)業(yè)務(wù)系統(tǒng)中獲取數(shù)據(jù)。了解大數(shù)據(jù)采集3.大數(shù)據(jù)采集與傳統(tǒng)數(shù)據(jù)采集的區(qū)別采集對象采集數(shù)據(jù)量采集的數(shù)據(jù)結(jié)構(gòu)采集的效率盡管企業(yè)系統(tǒng)的數(shù)據(jù)量與日俱增,但其仍屬于傳統(tǒng)數(shù)據(jù)采集的范疇。不過系統(tǒng)日志除外,原因是系統(tǒng)日志的增長趨勢大,極容易形成大規(guī)模數(shù)據(jù)。互聯(lián)網(wǎng)系統(tǒng)和機(jī)器系統(tǒng)產(chǎn)生的數(shù)據(jù)量要遠(yuǎn)遠(yuǎn)大于企業(yè)系統(tǒng)的數(shù)據(jù)量,而針對互聯(lián)網(wǎng)和機(jī)器系統(tǒng)的數(shù)據(jù)采集已經(jīng)達(dá)到大數(shù)據(jù)規(guī)模,數(shù)量級達(dá)PB級。了解大數(shù)據(jù)采集3.大數(shù)據(jù)采集與傳統(tǒng)數(shù)據(jù)采集的區(qū)別采集對象采集數(shù)據(jù)量采集的數(shù)據(jù)結(jié)構(gòu)采集的效率傳統(tǒng)數(shù)據(jù)采集的數(shù)據(jù)大部分是結(jié)構(gòu)化的數(shù)據(jù),而大數(shù)據(jù)采集系統(tǒng)不僅能采集結(jié)構(gòu)化的數(shù)據(jù),還能采集大量的視頻、音頻、照片等非結(jié)構(gòu)化數(shù)據(jù),以及網(wǎng)頁、博客、日志等半結(jié)構(gòu)化數(shù)據(jù)。了解大數(shù)據(jù)采集3.大數(shù)據(jù)采集與傳統(tǒng)數(shù)據(jù)采集的區(qū)別采集對象采集數(shù)據(jù)量采集的數(shù)據(jù)結(jié)構(gòu)采集的效率傳統(tǒng)數(shù)據(jù)采集的數(shù)據(jù)幾乎都是人為操作生成的,遠(yuǎn)遠(yuǎn)低于大數(shù)據(jù)采集時(shí)系統(tǒng)自動(dòng)化采集數(shù)據(jù)的效率。大數(shù)據(jù)采集的數(shù)據(jù)來源1.數(shù)據(jù)種類和示例數(shù)據(jù)種類示例業(yè)務(wù)數(shù)據(jù)消費(fèi)者數(shù)據(jù)、客戶關(guān)系數(shù)據(jù)、庫存數(shù)據(jù)、賬目數(shù)據(jù)等行業(yè)數(shù)據(jù)車流量數(shù)據(jù)、能耗數(shù)據(jù)、PM2.5數(shù)據(jù)等線下行為數(shù)據(jù)車輛位置和軌跡、用戶位置和軌跡、動(dòng)物位置和軌跡等線上行為數(shù)據(jù)頁面數(shù)據(jù)、交互數(shù)據(jù)、表單數(shù)據(jù)、會(huì)話數(shù)據(jù)、反饋數(shù)據(jù)等內(nèi)容數(shù)據(jù)應(yīng)用日志、電子文檔、語音數(shù)據(jù)、社交媒體數(shù)據(jù)等大數(shù)據(jù)采集的數(shù)據(jù)來源1.數(shù)據(jù)種類和示例企業(yè)系統(tǒng)機(jī)器系統(tǒng)互聯(lián)網(wǎng)系統(tǒng)企業(yè)在運(yùn)營時(shí)產(chǎn)生的數(shù)據(jù)、企業(yè)與其他企業(yè)合作時(shí)獲得的數(shù)據(jù)等。大數(shù)據(jù)采集的數(shù)據(jù)來源1.數(shù)據(jù)種類和示例企業(yè)系統(tǒng)機(jī)器系統(tǒng)互聯(lián)網(wǎng)系統(tǒng)交通流量儀獲取的車流量數(shù)據(jù)、智能電表獲取的用電量、智能交通監(jiān)控?cái)z像機(jī)自動(dòng)識別的人和交通工具的屬性和軌跡信息、野生動(dòng)物監(jiān)控?cái)z像頭獲知的動(dòng)物活動(dòng)軌跡信息。大數(shù)據(jù)采集的數(shù)據(jù)來源1.數(shù)據(jù)種類和示例企業(yè)系統(tǒng)機(jī)器系統(tǒng)互聯(lián)網(wǎng)系統(tǒng)用戶的反饋信息、評價(jià)信息、購買的產(chǎn)品信息、品牌信息、視頻與照片等。基于數(shù)據(jù)倉庫的數(shù)據(jù)批量采集1.傳統(tǒng)數(shù)據(jù)倉庫的體系架構(gòu)數(shù)據(jù)源數(shù)據(jù)存儲和管理聯(lián)機(jī)分析處理服務(wù)器前端工具和應(yīng)用數(shù)據(jù)源是數(shù)據(jù)倉庫的基礎(chǔ),即系統(tǒng)的數(shù)據(jù)來源,通常包含企業(yè)的各種外部數(shù)據(jù)和包括訂單系統(tǒng)、商家系統(tǒng)、客戶系統(tǒng)、客服系統(tǒng)等聯(lián)機(jī)事務(wù)處理(OnlineTransactionProcessing,OLTP)系統(tǒng)的數(shù)據(jù)以及文檔資料的內(nèi)部數(shù)據(jù)。基于數(shù)據(jù)倉庫的數(shù)據(jù)批量采集1.傳統(tǒng)數(shù)據(jù)倉庫的體系架構(gòu)數(shù)據(jù)源數(shù)據(jù)存儲和管理聯(lián)機(jī)分析處理服務(wù)器前端工具和應(yīng)用數(shù)據(jù)存儲和管理是整個(gè)數(shù)據(jù)倉庫的核心,是指在現(xiàn)有各業(yè)務(wù)系統(tǒng)的基礎(chǔ)上,周期性地對數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、加載(ExtractTranformLoad,ETL),按照主題進(jìn)行重新組織,最終確定數(shù)據(jù)倉庫的物理存儲結(jié)構(gòu),將數(shù)據(jù)存儲在數(shù)據(jù)倉庫管理系統(tǒng)中,并在面向如銷售、財(cái)務(wù)、市場等單一主題域時(shí),建立各類數(shù)據(jù)集。數(shù)據(jù)倉庫管理系統(tǒng)的檢測與運(yùn)維由數(shù)據(jù)倉庫檢測、運(yùn)行與維護(hù)工具負(fù)責(zé)。元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù),由元數(shù)據(jù)管理系統(tǒng)負(fù)責(zé)管理。基于數(shù)據(jù)倉庫的數(shù)據(jù)批量采集1.傳統(tǒng)數(shù)據(jù)倉庫的體系架構(gòu)數(shù)據(jù)源數(shù)據(jù)存儲和管理聯(lián)機(jī)分析處理服務(wù)器前端工具和應(yīng)用OLAP服務(wù)器將需要分析的數(shù)據(jù)按照多維數(shù)據(jù)模型進(jìn)行重組,以服務(wù)的形式支持用戶隨時(shí)多角度、多層次分析數(shù)據(jù),面向前端工具和應(yīng)用。基于數(shù)據(jù)倉庫的數(shù)據(jù)批量采集1.傳統(tǒng)數(shù)據(jù)倉庫的體系架構(gòu)數(shù)據(jù)源數(shù)據(jù)存儲和管理聯(lián)機(jī)分析處理服務(wù)器前端工具和應(yīng)用前端工具和應(yīng)用主要包括數(shù)據(jù)查詢工具、自由報(bào)表工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具和各類應(yīng)用系統(tǒng)等。基于數(shù)據(jù)倉庫的數(shù)據(jù)批量采集2.實(shí)時(shí)主動(dòng)數(shù)據(jù)倉庫基于數(shù)據(jù)倉庫的數(shù)據(jù)批量采集2.實(shí)時(shí)主動(dòng)數(shù)據(jù)倉庫方法說明數(shù)據(jù)整合利用數(shù)據(jù)倉庫技術(shù)的ETL工具將數(shù)據(jù)源中的數(shù)據(jù)批量地加載到數(shù)據(jù)倉庫數(shù)據(jù)聯(lián)邦在多個(gè)數(shù)據(jù)源的基礎(chǔ)上建立統(tǒng)一的邏輯視圖,對應(yīng)用而言,只有一個(gè)數(shù)據(jù)訪問入口,但在物理上被請求的數(shù)據(jù)仍然分布在各個(gè)數(shù)據(jù)源中數(shù)據(jù)傳播指數(shù)據(jù)在多個(gè)應(yīng)用之間傳播,不同應(yīng)用之間可以通過傳播消息交互數(shù)據(jù)混合區(qū)分?jǐn)?shù)據(jù)使用范圍,對于公用數(shù)據(jù)采取數(shù)據(jù)整合的方式進(jìn)行采集,對于特定應(yīng)用數(shù)據(jù)采取數(shù)據(jù)聯(lián)邦方式進(jìn)行采集網(wǎng)絡(luò)數(shù)據(jù)實(shí)時(shí)采集1.網(wǎng)絡(luò)數(shù)據(jù)實(shí)時(shí)采集方法網(wǎng)絡(luò)數(shù)據(jù)實(shí)時(shí)采集方法是指通過:網(wǎng)絡(luò)爬蟲;網(wǎng)站公開API;等方式從網(wǎng)站上獲取數(shù)據(jù)信息的方法。網(wǎng)絡(luò)數(shù)據(jù)實(shí)時(shí)采集2.網(wǎng)絡(luò)爬蟲原理一個(gè)通用的網(wǎng)絡(luò)爬蟲框架包括3個(gè)部分:Web接口;
索引與檢索;
信息采集。通過網(wǎng)絡(luò)爬蟲可自動(dòng)下載索引所鏈接的網(wǎng)頁,并將下載網(wǎng)頁的索引存放在索引庫,將網(wǎng)頁信息保存到文檔庫中。用戶通過用戶接口,可依次讀取索引庫中的索引,并利用索引指向文檔庫中的網(wǎng)頁信息。網(wǎng)絡(luò)數(shù)據(jù)實(shí)時(shí)采集3.網(wǎng)絡(luò)爬蟲工作流程網(wǎng)絡(luò)數(shù)據(jù)實(shí)時(shí)采集4.網(wǎng)絡(luò)爬蟲爬取策略遍歷策略是網(wǎng)絡(luò)爬蟲的核心問題,決定URL排列順序的方法叫作網(wǎng)絡(luò)爬蟲爬取策略,主要包括以下5種策略。0203廣度優(yōu)先遍歷深度優(yōu)先遍歷PartialPageRank010405OPIC大站優(yōu)先網(wǎng)絡(luò)數(shù)據(jù)實(shí)時(shí)采集5.網(wǎng)絡(luò)爬蟲系統(tǒng)按照網(wǎng)絡(luò)爬蟲的功能可以將其分為3類爬蟲:批量型爬蟲;
增量型爬蟲;
垂直型爬蟲。實(shí)例引入:在線旅行社的用戶訪問行為數(shù)據(jù)采集大數(shù)據(jù)采集技術(shù)主流的大數(shù)據(jù)采集框架Flume1.Flume設(shè)計(jì)動(dòng)機(jī)日志采集面臨以下問題:數(shù)據(jù)源種類繁多。各種服務(wù)均會(huì)產(chǎn)生日志,日志格式不同,采集日志的方式也不同,有的寫到本地日志文件中,有的通過HTTP發(fā)到遠(yuǎn)端等。
數(shù)據(jù)源是物理分布的。各種服務(wù)運(yùn)行在不同機(jī)器上,有的甚至是跨機(jī)房的。
數(shù)據(jù)是流式的,不間斷產(chǎn)生。日志是實(shí)時(shí)產(chǎn)生的,需要實(shí)時(shí)或近實(shí)時(shí)采集,以便于后端的分析和挖掘。
對可靠性有一定要求。日志采集過程中,希望能做到不丟失數(shù)據(jù),或只丟失可控的少量數(shù)據(jù)。Flume1.Flume設(shè)計(jì)動(dòng)機(jī)日志采集面臨以下問題,F(xiàn)lume系統(tǒng)可以較好地解決以上日志采集問題。Flume2.Flume基本思想及特點(diǎn)日志采集面臨以下問題,F(xiàn)lume系統(tǒng)可以較好地解決以上日志采集問題。Flume采用了插拔式軟件架構(gòu),所有組件均是可插拔的,用戶可以根據(jù)需求定制每個(gè)組件。Flume本質(zhì)上是一個(gè)中間件,屏蔽了流式數(shù)據(jù)源和后端中心化存儲系統(tǒng)之間的異構(gòu)性,使得整個(gè)數(shù)據(jù)流非常容易擴(kuò)展。Flume2.Flume基本思想及特點(diǎn)Flume主要具備以下幾個(gè)特點(diǎn)。良好的擴(kuò)展性;
高度定制化;
聲明式動(dòng)態(tài)化配置;
語意路由;
良好的可靠性。
Flume架構(gòu)是完全分布式的,沒有任何中心化組件,非常容易擴(kuò)展。Flume2.Flume基本思想及特點(diǎn)Flume主要具備以下幾個(gè)特點(diǎn)。良好的擴(kuò)展性;
高度定制化;
聲明式動(dòng)態(tài)化配置;
語意路由;
良好的可靠性。
各個(gè)組件,如Source、Channel和Sink等,均是可插拔的,用戶很容易根據(jù)需求定制組件。Flume2.Flume基本思想及特點(diǎn)Flume主要具備以下幾個(gè)特點(diǎn)。良好的擴(kuò)展性;
高度定制化;
聲明式動(dòng)態(tài)化配置;
語意路由;
良好的可靠性。
Flume提供了一套聲明式配置語言,用戶可根據(jù)需求動(dòng)態(tài)配置一個(gè)基于Flume的數(shù)據(jù)流拓?fù)浣Y(jié)構(gòu)。Flume2.Flume基本思想及特點(diǎn)Flume主要具備以下幾個(gè)特點(diǎn)。良好的擴(kuò)展性;
高度定制化;
聲明式動(dòng)態(tài)化配置;
語意路由;
良好的可靠性。
Flume可根據(jù)用戶的設(shè)置,將流式數(shù)據(jù)路由到不同的組件或存儲系統(tǒng)中,使得搭建一個(gè)支持異構(gòu)的數(shù)據(jù)流變得非常容易。Flume2.Flume基本思想及特點(diǎn)Flume主要具備以下幾個(gè)特點(diǎn)。良好的擴(kuò)展性;
高度定制化;
聲明式動(dòng)態(tài)化配置;
語意路由;
良好的可靠性。
Flume內(nèi)置了事務(wù)支持,能夠保證發(fā)送的每條數(shù)據(jù)能夠被下一環(huán)節(jié)接收而不會(huì)丟失。Flume3.FlumeNG基本架構(gòu)Flume是由一系列稱為Agent的組件構(gòu)成的,一個(gè)Agent可從客戶端(如網(wǎng)頁日志)或前一個(gè)Agent接收數(shù)據(jù),經(jīng)過過濾(可選)、路由等操作后,傳遞給下一個(gè)或多個(gè)Agent(完全分布式),直到抵達(dá)指定的目標(biāo)系統(tǒng),如HDFS。用戶可根據(jù)需要拼接任意多個(gè)Agent構(gòu)成一個(gè)數(shù)據(jù)流水線。Flume3.FlumeNG基本架構(gòu)Agent內(nèi)部的組件構(gòu)成:Sqoop1.Sqoop設(shè)計(jì)動(dòng)機(jī)Sqoop是連接關(guān)系數(shù)據(jù)庫和Hadoop的橋梁,主要功能是將關(guān)系數(shù)據(jù)庫的數(shù)據(jù)導(dǎo)入Hadoop及其相關(guān)的系統(tǒng)中(如Hive和HBase),或?qū)?shù)據(jù)從Hadoop系統(tǒng)里抽取并導(dǎo)出到關(guān)系數(shù)據(jù)庫。Sqoop1.Sqoop設(shè)計(jì)動(dòng)機(jī)Sqoop從工程角度解決了關(guān)系數(shù)據(jù)庫與Hadoop之間的數(shù)據(jù)傳輸問題,構(gòu)建了兩者之間的“橋梁”,使得數(shù)據(jù)遷移工作變得異常簡單。在實(shí)際項(xiàng)目中,如果遇到數(shù)據(jù)遷移、結(jié)果可視化分析、數(shù)據(jù)增量導(dǎo)入等任務(wù),可嘗試使用Sqoop完成。Sqoop2.Sqoop基本思想及特點(diǎn)Sqoop采用插拔式連接器(Connector)架構(gòu)。Connector是與特定數(shù)據(jù)源相關(guān)的組件,主要負(fù)責(zé)(從特定數(shù)據(jù)源中)抽取和加載數(shù)據(jù)。用戶可選擇Sqoop自帶的Connector或數(shù)據(jù)庫提供商發(fā)布的本地Connector,甚至根據(jù)自己的需要定制Connector,從而將Sqoop打造成一個(gè)公司級別的數(shù)據(jù)遷移統(tǒng)一管理工具。Sqoop2.Sqoop基本思想及特點(diǎn)Sqoop主要具備以下特點(diǎn):性能好;自動(dòng)類型轉(zhuǎn)換;自動(dòng)傳遞元數(shù)據(jù)。Sqoop采用MapReduce完成數(shù)據(jù)的導(dǎo)入導(dǎo)出,具備了MapReduce所具有的優(yōu)點(diǎn),包括并發(fā)度可控、容錯(cuò)性強(qiáng)、擴(kuò)展性強(qiáng)等。Sqoop2.Sqoop基本思想及特點(diǎn)Sqoop主要具備以下特點(diǎn):性能好;自動(dòng)類型轉(zhuǎn)換;自動(dòng)傳遞元數(shù)據(jù)。Sqoop可讀取數(shù)據(jù)源元數(shù)據(jù),自動(dòng)完成數(shù)據(jù)類型映射,用戶也可根據(jù)需求自定義數(shù)據(jù)類型映射關(guān)系。Sqoop2.Sqoop基本思想及特點(diǎn)Sqoop主要具備以下特點(diǎn):性能好;自動(dòng)類型轉(zhuǎn)換;自動(dòng)傳遞元數(shù)據(jù)。Sqoop在數(shù)據(jù)發(fā)送端和接收端之間傳遞數(shù)據(jù)的同時(shí),也會(huì)將元數(shù)據(jù)傳遞過去,保證接收端和發(fā)送端有一致的元數(shù)據(jù)。Sqoop3.Sqoop基本架構(gòu)導(dǎo)出和導(dǎo)入過程Sqoop1的基本架構(gòu)Sqoop2的基本架構(gòu)Sqoop3.Sqoop基本架構(gòu)導(dǎo)出和導(dǎo)入過程Sqoop1的基本架構(gòu)Sqoop2的基本架構(gòu)Sqoop3.Sqoop基本架構(gòu)導(dǎo)出和導(dǎo)入過程Sqoop1的基本架構(gòu)Sqoop2的基本架構(gòu)小結(jié)
本章以實(shí)例的形式引入了大數(shù)據(jù)采集的基本應(yīng)用場景,介紹了大數(shù)據(jù)采集的概念和數(shù)據(jù)來源、大數(shù)據(jù)采集技術(shù)等,初步了解了大數(shù)據(jù)采集在整個(gè)大數(shù)據(jù)生命周期中的基礎(chǔ)作用,也全面分析了大數(shù)據(jù)采集技術(shù)。最后,本章從設(shè)計(jì)動(dòng)機(jī)、基本思想、基本架構(gòu)等方面介紹了Flume和Sqoop這兩種主流的大數(shù)據(jù)采集框架,為深入實(shí)踐大數(shù)據(jù)采集奠定了基礎(chǔ)。大數(shù)據(jù)存儲與管理實(shí)例引入:從平安城市建設(shè)看海量數(shù)據(jù)存儲傳統(tǒng)的數(shù)據(jù)存儲技術(shù)大數(shù)據(jù)時(shí)代下的數(shù)據(jù)存儲技術(shù)主流的分布式存儲框架實(shí)例引入:從平安城市建設(shè)看海量數(shù)據(jù)存儲隨著信息通信技術(shù)的推進(jìn),各地大力推進(jìn)平安城市建設(shè)。平安城市建設(shè)是建設(shè)和諧的智慧城市,重點(diǎn)對城市的安防系統(tǒng)、道路交通系統(tǒng)、環(huán)境監(jiān)測系統(tǒng)等公共服務(wù)系統(tǒng)進(jìn)行綜合調(diào)度管理,為城市居民提供安全、便捷的生活環(huán)境。平安城市建設(shè)中的視頻監(jiān)控系統(tǒng)平安城市視頻監(jiān)控系統(tǒng)是基于云計(jì)算、物聯(lián)網(wǎng)等先進(jìn)技術(shù)的數(shù)字化、網(wǎng)絡(luò)化、高清化、智能化,城市級的高清數(shù)字視頻監(jiān)控管理應(yīng)用系統(tǒng)。系統(tǒng)在邏輯上由前端監(jiān)控點(diǎn)建設(shè)、視頻傳輸網(wǎng)絡(luò)系統(tǒng)建設(shè)、視頻存儲系統(tǒng)建設(shè)、視頻綜合管理應(yīng)用平臺建設(shè)4部分組成。平安城市視頻監(jiān)控?cái)?shù)據(jù)的存儲技術(shù)方案視頻存儲系統(tǒng)負(fù)責(zé)整個(gè)平安城市視頻監(jiān)控系統(tǒng)視頻的實(shí)時(shí)存儲和轉(zhuǎn)發(fā),其中視頻數(shù)據(jù)存儲設(shè)備及網(wǎng)絡(luò)架構(gòu)技術(shù)可包括:硬盤錄像機(jī)(DigitalVideoRecorder,DVR)技術(shù);SAN技術(shù);云存儲技術(shù)。平安城市視頻監(jiān)控?cái)?shù)據(jù)的存儲技術(shù)方案基于云存儲的視頻監(jiān)控由前端視頻采集系統(tǒng)、云存儲平臺、視頻業(yè)務(wù)服務(wù)組成。前端視頻采集系統(tǒng);云存儲平臺;視頻業(yè)務(wù)服務(wù)。實(shí)例引入:從平安城市建設(shè)看海量數(shù)據(jù)存儲傳統(tǒng)的數(shù)據(jù)存儲技術(shù)大數(shù)據(jù)時(shí)代下的數(shù)據(jù)存儲技術(shù)主流的分布式存儲框架傳統(tǒng)的數(shù)據(jù)存儲技術(shù)了解數(shù)據(jù)存儲數(shù)據(jù)存儲的數(shù)據(jù)類型文件系統(tǒng)關(guān)系數(shù)據(jù)庫數(shù)據(jù)倉庫并行數(shù)據(jù)庫了解數(shù)據(jù)存儲數(shù)據(jù)存儲的介質(zhì)經(jīng)歷了卡片、紙帶、磁帶、單磁盤、專用存儲設(shè)備、分布式存儲設(shè)備的演變,數(shù)據(jù)管理技術(shù)相應(yīng)也經(jīng)歷了人工管理、文件系統(tǒng)管理、傳統(tǒng)數(shù)據(jù)庫系統(tǒng)管理和大數(shù)據(jù)管理的演變,數(shù)據(jù)的存儲與應(yīng)用逐漸從分離走向融合。了解數(shù)據(jù)存儲當(dāng)前,數(shù)據(jù)存儲一般可分為內(nèi)置存儲和外置存儲。內(nèi)置存儲主要包括:分類緩存;內(nèi)存(RAM);硬盤;光驅(qū)。數(shù)據(jù)存儲的數(shù)據(jù)類型在數(shù)據(jù)存儲中,數(shù)據(jù)可分成文本、圖片、音頻和視頻等基本類型;同時(shí)根據(jù)數(shù)據(jù)的結(jié)構(gòu)特點(diǎn),也可分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)等。數(shù)據(jù)類型說明文本文本是一種由若干字符構(gòu)成的計(jì)算機(jī)文件,常見格式包括ASCII、MIME和TXT圖片圖片是指由圖形、圖像等構(gòu)成的平面媒體。圖片的格式很多,大體可以分為點(diǎn)陣圖和矢量圖兩大類。常見的BMP、JPG等格式都是點(diǎn)陣圖形,PSD是具有矢量內(nèi)容的點(diǎn)陣圖形,而SWF等格式的圖形則屬于矢量圖形音頻音頻是指存儲聲音內(nèi)容的文件,用特定的音頻程序播放音頻文件,即可還原以前錄下的聲音。音頻文件的格式很多,包括WAV、MP3、MID、WMA等視頻視頻通常指存儲各種動(dòng)態(tài)影像的文件,其存儲格式包括MPEG-4、AVI、DAT、RM、MOV、ASF、WMV、DivX等數(shù)據(jù)存儲的數(shù)據(jù)類型分類說明示例結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)是指可以使用關(guān)系數(shù)據(jù)庫表示和存儲,表現(xiàn)為二維形式的數(shù)據(jù)。一般特點(diǎn)是數(shù)據(jù)以行為單位,一行數(shù)據(jù)表示一個(gè)實(shí)體的信息,每一行數(shù)據(jù)的屬性是相同的。結(jié)構(gòu)化數(shù)據(jù)的存儲和排列是有規(guī)律的,規(guī)律性對查詢和修改數(shù)據(jù)等操作很有幫助日期、產(chǎn)品名稱半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)具有一定的結(jié)構(gòu)性,盡管其并不符合關(guān)系數(shù)據(jù)庫或其他數(shù)據(jù)表的形式及其關(guān)聯(lián)的數(shù)據(jù)模型結(jié)構(gòu),但包含相關(guān)標(biāo)記,可用來分割語義元素以及對記錄和字段進(jìn)行分層。因此,半結(jié)構(gòu)化數(shù)據(jù)也被稱為自描述的結(jié)構(gòu)數(shù)據(jù)日志文件、XML文檔、JSON文檔、郵件非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)是指沒有固定結(jié)構(gòu)的數(shù)據(jù),對于沒有固定結(jié)構(gòu)的數(shù)據(jù),一般直接對整體進(jìn)行存儲,并將其存儲為二進(jìn)制的數(shù)據(jù)格式文檔、圖片、視頻、音頻數(shù)據(jù)存儲的數(shù)據(jù)類型結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)都可以由人或機(jī)器生成,但兩者之間有一些明顯的區(qū)別,特別是非結(jié)構(gòu)化數(shù)據(jù)的不規(guī)則性和模糊行為增加了傳統(tǒng)程序理解的難度。對比內(nèi)容結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)特征預(yù)定義的數(shù)據(jù)模型明確的定義定量數(shù)據(jù)容易訪問容易分析沒有預(yù)定義的數(shù)據(jù)模型沒有明確的定義定性數(shù)據(jù)很難獲得很難分析存在關(guān)系數(shù)據(jù)庫數(shù)據(jù)倉庫電子表格NoSQL數(shù)據(jù)庫數(shù)據(jù)湖數(shù)據(jù)倉庫分析方法回歸分類聚類數(shù)據(jù)挖掘自然語言處理向量的搜索應(yīng)用在線預(yù)訂自動(dòng)取款機(jī)庫存控制系統(tǒng)語音識別圖像識別文本分析例子名字日期地址電話號碼信用卡號碼電子郵件信息健康記錄圖片音頻視頻文件系統(tǒng)文件系統(tǒng)是操作系統(tǒng)用于明確存儲設(shè)備(常見的是磁盤,也有基于NAND閃存的固態(tài)硬盤)或分區(qū)上的文件的方法和數(shù)據(jù)結(jié)構(gòu),即在存儲設(shè)備上組織文件的方法。操作系統(tǒng)中負(fù)責(zé)管理和存儲文件信息的軟件機(jī)構(gòu)稱為文件管理系統(tǒng),簡稱“文件系統(tǒng)”。文件系統(tǒng)接口
對象及其屬性操作管理對象的軟件集合關(guān)系數(shù)據(jù)庫數(shù)據(jù)庫指的是以一定方式儲存在一起,能為多個(gè)用戶共享、具有盡可能小的冗余度、與應(yīng)用程序彼此獨(dú)立的數(shù)據(jù)集合。目前,市場上常見的關(guān)系數(shù)據(jù)庫產(chǎn)品包括Oracle、SQLServer、MySQL、DB2等。數(shù)據(jù)倉庫數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。特點(diǎn)說明面向主題操作型數(shù)據(jù)庫的數(shù)據(jù)是面向事務(wù)處理任務(wù)組織的,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題進(jìn)行組織的。主題是指用戶使用數(shù)據(jù)倉庫做決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通常與多個(gè)操作型信息系統(tǒng)相關(guān)集成數(shù)據(jù)倉庫的數(shù)據(jù)來自分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來的數(shù)據(jù)中抽取出來,進(jìn)行加工與集成、統(tǒng)一與綜合之后才能進(jìn)入數(shù)據(jù)倉庫相對穩(wěn)定數(shù)據(jù)倉庫是不可更新的,數(shù)據(jù)倉庫主要是為決策分析提供數(shù)據(jù),涉及的操作主要是數(shù)據(jù)的查詢反映歷史變化在構(gòu)建數(shù)據(jù)倉庫時(shí),會(huì)每隔一定的時(shí)間(如每周、每天、每小時(shí))從數(shù)據(jù)源抽取數(shù)據(jù)并加載到數(shù)據(jù)倉庫并行數(shù)據(jù)庫并行數(shù)據(jù)庫是指在無共享的體系結(jié)構(gòu)中進(jìn)行數(shù)據(jù)操作的數(shù)據(jù)庫系統(tǒng),該數(shù)據(jù)庫系統(tǒng)大部分采用了關(guān)系數(shù)據(jù)模型并且支持SQL語句查詢,但為了能夠并行執(zhí)行SQL的查詢操作,系統(tǒng)中采用了關(guān)系表的水平劃分和SQL查詢的分區(qū)執(zhí)行等關(guān)鍵技術(shù)。并行數(shù)據(jù)庫系統(tǒng)的目標(biāo)是高性能和高可用性,通過多個(gè)節(jié)點(diǎn)并行執(zhí)行數(shù)據(jù)庫任務(wù),提高整個(gè)數(shù)據(jù)庫系統(tǒng)的性能和可用性。并行數(shù)據(jù)庫系統(tǒng)的主要缺點(diǎn)是沒有較好的彈性。另一個(gè)問題是系統(tǒng)的容錯(cuò)性較差。實(shí)例引入:從平安城市建設(shè)看海量數(shù)據(jù)存儲傳統(tǒng)的數(shù)據(jù)存儲技術(shù)大數(shù)據(jù)時(shí)代下的數(shù)據(jù)存儲技術(shù)主流的分布式存儲框架大數(shù)據(jù)時(shí)代下的數(shù)據(jù)存儲技術(shù)分布式存儲系統(tǒng)云存儲分布式存儲系統(tǒng)分布式存儲及系統(tǒng)的概念分布式數(shù)據(jù)庫分布式文件系統(tǒng)分布式存儲是將數(shù)據(jù)分散存儲在多臺獨(dú)立的設(shè)備上,采用可擴(kuò)展的系統(tǒng)結(jié)構(gòu)、利用多臺存儲服務(wù)器分擔(dān)存儲負(fù)荷、利用位置服務(wù)器定位存儲信息的一種數(shù)據(jù)存儲技術(shù)。分布式存儲系統(tǒng)分布式存儲及系統(tǒng)的概念分布式數(shù)據(jù)庫分布式文件系統(tǒng)
運(yùn)行在多個(gè)節(jié)點(diǎn)上,可分擔(dān)存儲負(fù)荷。
整合集群內(nèi)所有存儲空間資源,虛擬化并對外提供文件訪問服務(wù)。
更好的擴(kuò)展性,更大的容量,更適合大規(guī)模數(shù)據(jù)的性能需求。分布式存儲的特點(diǎn)如下:分布式存儲系統(tǒng)分布式存儲及系統(tǒng)的概念分布式數(shù)據(jù)庫分布式文件系統(tǒng)分布式存儲系統(tǒng)的常見分類類型說明分布式文件系統(tǒng)存儲非結(jié)構(gòu)化數(shù)據(jù)對象,作為其他存儲系統(tǒng)的底層存儲,可以存儲3種類型的數(shù)據(jù)——類文件對象、定長塊、大文件。分布式文件系統(tǒng)內(nèi)部按照數(shù)據(jù)塊來組織數(shù)據(jù),將數(shù)據(jù)塊分散到存儲集群,處理數(shù)據(jù)復(fù)制、一致性、負(fù)載均衡、容錯(cuò)等問題,如HDFS分布式鍵值系統(tǒng)存儲關(guān)系簡單的半結(jié)構(gòu)化數(shù)據(jù),支持?jǐn)?shù)據(jù)分布到集群中的多個(gè)存儲節(jié)點(diǎn),一致性哈希是分布式鍵值系統(tǒng)中常用的數(shù)據(jù)分布技術(shù),如HBase分布式表格系統(tǒng)存儲關(guān)系較為復(fù)雜的半結(jié)構(gòu)化數(shù)據(jù),以表格為單位組織數(shù)據(jù),支持主鍵增、刪、查、改功能以及范圍查找功能,針對單張表格操作,同一個(gè)表格的多個(gè)數(shù)據(jù)行不要求包含相同類型的列,可以做到超大規(guī)模,支持較多的功能,如BigTable分布式數(shù)據(jù)庫存儲結(jié)構(gòu)化數(shù)據(jù),目前為止最成熟的存儲技術(shù),采用二維表格組織數(shù)據(jù),支持類SQL關(guān)系查詢語言,如Hive分布式存儲系統(tǒng)分布式存儲及系統(tǒng)的概念分布式數(shù)據(jù)庫分布式文件系統(tǒng)分布式數(shù)據(jù)庫是指數(shù)據(jù)在物理上分布而在邏輯上集中的數(shù)據(jù)庫系統(tǒng)。物理上分布是指分布式數(shù)據(jù)庫的數(shù)據(jù)分布在物理位置不同、由網(wǎng)絡(luò)連接的節(jié)點(diǎn)或站點(diǎn)上,不同的節(jié)點(diǎn)可以分布在不同的機(jī)房和地區(qū)。邏輯上集中是指各節(jié)點(diǎn)在邏輯上是一個(gè)整體,并由統(tǒng)一的數(shù)據(jù)庫管理系統(tǒng)管理。分布式數(shù)據(jù)庫可分為NewSQL數(shù)據(jù)庫和NoSQL數(shù)據(jù)庫等。12NewSQL數(shù)據(jù)庫NoSQL數(shù)據(jù)庫分布式存儲系統(tǒng)分布式存儲及系統(tǒng)的概念分布式數(shù)據(jù)庫分布式文件系統(tǒng)1NewSQL數(shù)據(jù)庫具有代表性的NewSQL數(shù)據(jù)庫主要包括Spanner、Clustrix等。此外,還有一些在云端提供的NewSQL數(shù)據(jù)庫,包括亞馬遜公司的RDS、微軟公司的AzureSQLDatabase等。分布式存儲系統(tǒng)分布式存儲及系統(tǒng)的概念分布式數(shù)據(jù)庫分布式文件系統(tǒng)2NoSQL數(shù)據(jù)庫鍵值數(shù)據(jù)庫列族數(shù)據(jù)庫文檔數(shù)據(jù)庫圖數(shù)據(jù)庫分布式存儲系統(tǒng)分布式存儲及系統(tǒng)的概念分布式數(shù)據(jù)庫分布式文件系統(tǒng)2NoSQL數(shù)據(jù)庫NoSQL數(shù)據(jù)庫的特點(diǎn)特點(diǎn)說明靈活的可擴(kuò)展性NoSQL數(shù)據(jù)庫在設(shè)計(jì)之初是為了滿足“橫向擴(kuò)展”的需求,因此其天生具備良好的水平擴(kuò)展能力靈活的數(shù)據(jù)模型NoSQL數(shù)據(jù)庫摒棄了流行多年的關(guān)系數(shù)據(jù)模型,轉(zhuǎn)而采用鍵值、列族等非關(guān)系模型,允許在一個(gè)數(shù)據(jù)元素里存儲不同類型的數(shù)據(jù)與云計(jì)算緊密融合云計(jì)算具有很好的水平擴(kuò)展能力,可以根據(jù)資源使用情況進(jìn)行自由伸縮,各種資源可以動(dòng)態(tài)加入或退出。NoSQL數(shù)據(jù)庫可以憑借自身良好的橫向擴(kuò)展能力,充分自由利用云計(jì)算基礎(chǔ)設(shè)施,很好地融入云計(jì)算環(huán)境中,構(gòu)建基于NoSQL的云數(shù)據(jù)庫服務(wù)分布式存儲系統(tǒng)分布式存儲及系統(tǒng)的概念分布式數(shù)據(jù)庫分布式文件系統(tǒng)分布式文件系統(tǒng)(DistributedFileSystem,DFS)是一種通過網(wǎng)絡(luò)實(shí)現(xiàn)文件在多臺主機(jī)上進(jìn)行分布式存儲的文件系統(tǒng)。分布式文件系統(tǒng)的設(shè)計(jì)一般采用“客戶端/服務(wù)器”(Client/Server)模式,客戶端以特定的通信協(xié)議通過網(wǎng)絡(luò)與服務(wù)器建立連接,提出文件訪問請求,客戶端和服務(wù)器可以通過設(shè)置訪問權(quán)限來限制請求方對底層數(shù)據(jù)存儲塊的訪問。云存儲實(shí)際上是云計(jì)算中有關(guān)數(shù)據(jù)存儲、歸檔、備份的一個(gè)部分,是一種創(chuàng)新服務(wù)。在面向用戶的服務(wù)形態(tài)方面,云存儲是一種提供按需服務(wù)的應(yīng)用模式,用戶可以通過網(wǎng)絡(luò)連接云端存儲資源,在云端隨時(shí)隨地存儲數(shù)據(jù)。云存儲云存儲云平臺整體架構(gòu)云存儲概念云存儲特點(diǎn)云存儲代表產(chǎn)品云平臺按照服務(wù)類型大致可以分為基礎(chǔ)設(shè)施即服務(wù)(IaaS)、平臺即服務(wù)(PaaS)、軟件即服務(wù)(SaaS)3類。云存儲云平臺整體架構(gòu)云存儲概念云存儲特點(diǎn)云存儲代表產(chǎn)品云平臺服務(wù)類型服務(wù)類型說明IaaSIaaS將硬件設(shè)備等基礎(chǔ)資源以虛擬機(jī)的形式提供給用戶使用,如亞馬遜云計(jì)算AWS(AmazonWebService)的彈性計(jì)算云EC2PaaSPaaS進(jìn)一步抽象硬件資源,為用戶提供應(yīng)用程序的運(yùn)行環(huán)境,開發(fā)者只需將應(yīng)用程序提交至PaaS,PaaS會(huì)自動(dòng)完成程序部署、處理服務(wù)器故障、擴(kuò)容等操作,如GAE(GoogleAppEngine)就是PaaS。另外,微軟的云計(jì)算平臺WindowsAzurePlatform也可歸入PaaS類SaaSSaaS的針對性更強(qiáng),可以將某些特定應(yīng)用軟件轉(zhuǎn)成服務(wù),如Salesforce公司提供的在線客戶端管理CRM服務(wù)、谷歌公司的企業(yè)應(yīng)用套件GoogleApps等云存儲云平臺整體架構(gòu)云存儲概念云存儲特點(diǎn)云存儲代表產(chǎn)品云存儲是在云計(jì)算概念上衍生、發(fā)展出來的一個(gè)概念,除了可以節(jié)省整體的硬件成本(包括電力成本)外,還具備良好的可擴(kuò)展性、對用戶的透明性、按需分配的靈活性和負(fù)載的均衡性等特點(diǎn)。云存儲本質(zhì)上是一種理論,但在實(shí)際產(chǎn)品化的過程中,仍然依賴數(shù)據(jù)中心的物理設(shè)備。云存儲屬于云計(jì)算的底層支撐,通過網(wǎng)絡(luò)將大量普通存儲設(shè)備構(gòu)成的存儲資源池中的存儲資源和數(shù)據(jù)服務(wù)以統(tǒng)一的接口按需提供給授權(quán)用戶。云存儲將存儲資源集中起來,通過專門軟件進(jìn)行自動(dòng)管理,無須人為參與。云存儲云平臺整體架構(gòu)云存儲概念云存儲特點(diǎn)云存儲代表產(chǎn)品存儲設(shè)備、云存儲技術(shù)、云存儲系統(tǒng)、云存儲服務(wù)的關(guān)系云存儲云平臺整體架構(gòu)云存儲概念云存儲特點(diǎn)云存儲代表產(chǎn)品特點(diǎn)說明超大規(guī)模云存儲具有相當(dāng)大的規(guī)模,單個(gè)系統(tǒng)存儲的數(shù)據(jù)可以達(dá)到千億級,甚至萬億級可擴(kuò)展性云存儲的規(guī)模可以動(dòng)態(tài)伸縮,滿足數(shù)據(jù)規(guī)模增長的需要。可擴(kuò)展性包含兩個(gè)維度,第一,系統(tǒng)本身可以很容易地動(dòng)態(tài)增加服務(wù)器資源以應(yīng)對數(shù)據(jù)增長;第二,系統(tǒng)運(yùn)維可擴(kuò)展意味著隨著系統(tǒng)規(guī)模的增加,不需要增加太多運(yùn)維人員高可靠性和可用性通過多副本復(fù)制以及節(jié)點(diǎn)故障自動(dòng)容錯(cuò)等技術(shù),云存儲提供了很高的可靠性和可用性安全云存儲內(nèi)部通過用戶鑒權(quán)、訪問權(quán)限控制、安全通信(如HTTPS、TLS協(xié)議)等方式保障安全性云存儲云平臺整體架構(gòu)云存儲概念云存儲特點(diǎn)云存儲代表產(chǎn)品特點(diǎn)說明按需服務(wù)云存儲是一個(gè)龐大的資源池,用戶按需購買,其計(jì)費(fèi)方式類似于自來水、電和煤氣的透明服務(wù)云存儲以統(tǒng)一的接口(如RESTful接口)的形式提供服務(wù),后端存儲節(jié)點(diǎn)的變化(如增加節(jié)點(diǎn)、節(jié)點(diǎn)故障)對用戶是透明的低成本低成本是云存儲的重要目標(biāo)。云存儲的自動(dòng)容錯(cuò)使得自身可以采用普通的計(jì)算機(jī)服務(wù)器來構(gòu)建;云存儲的通用性使得資源利用率大幅提升;云存儲的自動(dòng)化管理使得運(yùn)維效率得到提升,運(yùn)維成本有效降低云存儲云平臺整體架構(gòu)云存儲概念云存儲特點(diǎn)云存儲代表產(chǎn)品目前已有多款關(guān)系型或非關(guān)系型的云存儲服務(wù),常見的云存儲產(chǎn)品主要有:騰訊云系列數(shù)據(jù)庫
阿里云關(guān)系數(shù)據(jù)庫
亞馬遜公司的DynamoDB、Redshift、SimpleDB
微軟公司的SQLServer、SQLDataSync
谷歌公司的CloudSQL、BigQuery、CloudDatastoreRackspace的Rackspace云數(shù)據(jù)庫
MongoLab的MongoDB實(shí)例引入:從平安城市建設(shè)看海量數(shù)據(jù)存儲傳統(tǒng)的數(shù)據(jù)存儲技術(shù)大數(shù)據(jù)時(shí)代下的數(shù)據(jù)存儲技術(shù)主流的分布式存儲框架主流的分布式存儲框架MySQLHiveHBaseMongoDBRedisMySQLMySQL層次結(jié)構(gòu)網(wǎng)絡(luò)連接層數(shù)據(jù)庫服務(wù)層存儲引擎層數(shù)據(jù)存儲層應(yīng)用場景MySQLMySQL層次結(jié)構(gòu)網(wǎng)絡(luò)連接層數(shù)據(jù)庫服務(wù)層存儲引擎層數(shù)據(jù)存儲層應(yīng)用場景網(wǎng)絡(luò)連接層位于整個(gè)MySQL體系架構(gòu)的最上層,主要擔(dān)任客戶端連接器的角色,提供與MySQL服務(wù)器建立連接的功能,幾乎支持所有主流的服務(wù)器端語言,如Java、C、C++、Python等,各語言都是通過各自的API與MySQL建立連接。MySQLMySQL層次結(jié)構(gòu)
網(wǎng)絡(luò)連接層數(shù)據(jù)庫服務(wù)層
存儲引擎層數(shù)據(jù)存儲層應(yīng)用場景數(shù)據(jù)庫服務(wù)層是整個(gè)數(shù)據(jù)庫服務(wù)器的核心,主要包括了系統(tǒng)管理和控制工具、連接池、SQL接口、解析器、查詢優(yōu)化器和緩存等部分。MySQLMySQL層次結(jié)構(gòu)
網(wǎng)絡(luò)連接層數(shù)據(jù)庫服務(wù)層
存儲引擎層數(shù)據(jù)存儲層應(yīng)用場景MySQL中的存儲引擎層主要負(fù)責(zé)數(shù)據(jù)的寫入和讀取,與底層的文件進(jìn)行交互,主要包括可插拔存儲引擎部分。MySQLMySQL層次結(jié)構(gòu)網(wǎng)絡(luò)連接層數(shù)據(jù)庫服務(wù)層存儲引擎層數(shù)據(jù)存儲層應(yīng)用場景數(shù)據(jù)存儲層主要是將數(shù)據(jù)存儲在運(yùn)行于裸設(shè)備的文件系統(tǒng)上,并完成與存儲引擎的交互。數(shù)據(jù)存儲層主要包括MySQL中存儲數(shù)據(jù)的文件系統(tǒng),與上層的存儲引擎進(jìn)行交互,是文件的物理存儲層。MySQLMySQL層次結(jié)構(gòu)網(wǎng)絡(luò)連接層數(shù)據(jù)庫服務(wù)層存儲引擎層數(shù)據(jù)存儲層應(yīng)用場景文件系統(tǒng)主要包括NTFS(NewTechnologyFileSystem)、ext4(FourthExtendedFileSystem)等,存儲的文件主要包括日志文件、數(shù)據(jù)文件、索引文件等,其中,日志文件主要包括二進(jìn)制日志、錯(cuò)誤日志、慢查詢?nèi)罩尽⒊R?guī)查詢?nèi)罩尽⒅刈鋈罩尽⒊蜂N日志等。MySQLMySQL層次結(jié)構(gòu)網(wǎng)絡(luò)連接層數(shù)據(jù)庫服務(wù)層存儲引擎層
數(shù)據(jù)存儲層應(yīng)用場景Web網(wǎng)站系統(tǒng)日志記錄系統(tǒng)嵌入式系統(tǒng)HiveHive是基于Hadoop的一個(gè)數(shù)據(jù)倉庫工具,可以將數(shù)據(jù)提取、轉(zhuǎn)化、加載、轉(zhuǎn)存到數(shù)據(jù)倉庫中,可以轉(zhuǎn)儲、查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù)。Hive的優(yōu)點(diǎn)是學(xué)習(xí)成本低,可以通過SQL語句等實(shí)現(xiàn)快速M(fèi)apReduce統(tǒng)計(jì),使MapReduce
的用法變得更加簡單,而不必開發(fā)專門的MapReduce應(yīng)用程序。Hive十分適合對數(shù)據(jù)倉庫進(jìn)行統(tǒng)計(jì)分析。HiveHive系統(tǒng)架構(gòu)應(yīng)用場景驅(qū)動(dòng)器包括:解析器(SQLParser)編譯器(PhysicalPlan)優(yōu)化器(QueryOptimizer)執(zhí)行器(Execution)HiveHive系統(tǒng)架構(gòu)應(yīng)用場景組成說明解析器解析器將SQL字符串轉(zhuǎn)換成抽象語法樹(AbstractSyntaxTree,AST),轉(zhuǎn)換的操作一般都用第三方工具庫完成,如ANTLR;對AST進(jìn)行語法分析,如表是否存在、字段是否存在、SQL語義是否有誤編譯器編譯器將AST編譯并生成邏輯執(zhí)行計(jì)劃優(yōu)化器優(yōu)化器對邏輯執(zhí)行計(jì)劃進(jìn)行優(yōu)化執(zhí)行器執(zhí)行器將邏輯執(zhí)行計(jì)劃轉(zhuǎn)換成可以運(yùn)行的物理計(jì)劃HiveHive系統(tǒng)架構(gòu)應(yīng)用場景Hive十分適合用于數(shù)據(jù)倉庫的統(tǒng)計(jì)分析和Windows注冊表文件,主要用于靜態(tài)的結(jié)構(gòu)以及需要經(jīng)常分析的工作。
統(tǒng)計(jì)網(wǎng)站訪問量和獨(dú)立訪客數(shù)量等指標(biāo)
多維數(shù)據(jù)分析
海量結(jié)構(gòu)化數(shù)據(jù)離線分析HBaseHBase系統(tǒng)架構(gòu)HBase數(shù)據(jù)存儲結(jié)構(gòu)應(yīng)用場景從HBase的底層系統(tǒng)架構(gòu)來看,HBase更像是一個(gè)多維映射。RegionServerMasterZooKeeperHDFSHBaseHBase系統(tǒng)架構(gòu)HBase數(shù)據(jù)存儲結(jié)構(gòu)應(yīng)用場景RegionServer中數(shù)據(jù)存儲過程主要涉及的內(nèi)容組成說明StoreFile存儲文件,保存實(shí)際數(shù)據(jù)的物理文件,StoreFile以HFile的形式存儲在HDFS上。每個(gè)Store會(huì)有一個(gè)或多個(gè)StoreFile,數(shù)據(jù)在每個(gè)StoreFile中都是有序的MemStore寫緩存,由于StoreFile中的數(shù)據(jù)要求是有序的,所以數(shù)據(jù)是先存儲在MemStore中,排好序后,等到達(dá)刷寫時(shí)機(jī)才會(huì)刷寫到StoreFile中,每次刷寫都會(huì)形成一個(gè)新的StoreFile預(yù)寫日志(Write-AheadLogfile,WAL)由于數(shù)據(jù)要經(jīng)MemStore排序后才能刷寫到StoreFile中,而將數(shù)據(jù)保存在內(nèi)存中會(huì)有很高的概率導(dǎo)致數(shù)據(jù)丟失。為了解決數(shù)據(jù)丟失問題,數(shù)據(jù)會(huì)先寫在WAL的文件中,然后再寫入MemStore中。所以在系統(tǒng)出現(xiàn)故障時(shí),數(shù)據(jù)可以通過日志文件重建HBaseHBase系統(tǒng)架構(gòu)HBase數(shù)據(jù)存儲結(jié)構(gòu)應(yīng)用場景HBase數(shù)據(jù)存儲結(jié)構(gòu)涵蓋邏輯結(jié)構(gòu)和物理存儲結(jié)構(gòu)HBaseHBase系統(tǒng)架構(gòu)HBase數(shù)據(jù)存儲結(jié)構(gòu)應(yīng)用場景一個(gè)列族(ColumnFamily)包含多個(gè)列,在物理結(jié)構(gòu)上一個(gè)列族是一個(gè)文件夾,一個(gè)文件夾中包含多個(gè)store文件。數(shù)據(jù)模型說明Namespace命名空間,類似于關(guān)系數(shù)據(jù)庫的DataBase概念,每個(gè)命名空間下有多個(gè)表。HBase有兩個(gè)自帶的命名空間,分別是hbase和default,hbase中存放的是HBase內(nèi)置的表,default表是用戶默認(rèn)使用的命名空間Region類似于關(guān)系數(shù)據(jù)庫的表概念。不同的是,HBase定義表時(shí)只需要聲明列族即可,不需要聲明具體的列。這意味著往HBase寫入數(shù)據(jù)時(shí),字段可以動(dòng)態(tài)、按需指定。因此,和關(guān)系數(shù)據(jù)庫相比,HBase能夠輕松應(yīng)對字段變更的場景RowHBase表中的每行數(shù)據(jù)都由一個(gè)RowKey(行鍵)和多個(gè)Column(列)組成,數(shù)據(jù)是按照RowKey的字典順序存儲的,并且查詢數(shù)據(jù)時(shí)只能根據(jù)RowKey進(jìn)行檢索,所以RowKey的設(shè)計(jì)十分重要ColumnHBase中的每個(gè)列都由ColumnFamily和ColumnQualifier(列限定符)進(jìn)行限定,例如,{info:name,info:age}。創(chuàng)建表時(shí),只需指明列族,而列限定符無須預(yù)先定義TimeStamp用于標(biāo)識數(shù)據(jù)的不同版本(version),每條數(shù)據(jù)寫入時(shí),如果不指定時(shí)間戳,系統(tǒng)會(huì)自動(dòng)為其加上該字段,其值為寫入HBase的時(shí)間Cell由{rowkey,columnFamily:columnQualifier,TimeStamp}唯一確定的單元(Cell)。Cell中的數(shù)據(jù)是沒有類型的,全部是字節(jié)碼形式存儲HBaseHBase系統(tǒng)架構(gòu)HBase數(shù)據(jù)存儲結(jié)構(gòu)應(yīng)用場景應(yīng)用場景說明?戶畫像HBase通過存儲大型的視頻網(wǎng)站、電商平臺等產(chǎn)生的用戶點(diǎn)擊行為、瀏覽行為等,為后續(xù)的智能推薦做數(shù)據(jù)支撐消息或訂單存儲因?yàn)镠Base具有低延時(shí)、高并發(fā)的訪問能力,所以可應(yīng)用于電商平臺,實(shí)現(xiàn)消息或訂單的存儲對象存儲對象存儲實(shí)際是中等對象存儲,是對HDFS存儲文件的一個(gè)緩沖過程。因?yàn)槿绻罅康?MB或2MB的小文件直接存儲在HDFS上,會(huì)增加NameNode元數(shù)據(jù)維護(hù)的壓力,所以可以在HBase中很好地做過程合并后再將文件持久化到HDFS上。HBase提供了存儲中等對象的功能,中等對象的大小范圍在100KB至10MB之間時(shí)序數(shù)據(jù)基于HBase可構(gòu)建適用于時(shí)序數(shù)據(jù)的存儲系統(tǒng),例如,OpenTSDB(OpenTimeSeriesDataBase)。它就是一個(gè)基于HBase的時(shí)序存儲系統(tǒng),適用于日志、監(jiān)控打點(diǎn)數(shù)據(jù)的存儲查詢Cube分析(KyLin)KyLin將Hive或Kafka中的數(shù)據(jù)用于構(gòu)建Cube,該Cube會(huì)存儲在HBase中,以供其他的應(yīng)用或系統(tǒng)做實(shí)時(shí)查詢或?qū)崟r(shí)展示Feeds流Feeds流是系統(tǒng)實(shí)時(shí)推送的根據(jù)一定規(guī)則排序的信息流,主要應(yīng)用在抖音或其他小視頻系統(tǒng)中,可以幫助用戶實(shí)時(shí)獲取最新的訂閱內(nèi)容。HBase的RowKey按字典序排序可實(shí)現(xiàn)Feed消息排序,在獲取某用戶發(fā)布的消息時(shí),通過指定搜索的時(shí)間范圍以滿足時(shí)間性要求MongoDBMongoDB是一個(gè)基于分布式文件存儲的數(shù)據(jù)庫,是一個(gè)介于關(guān)系數(shù)據(jù)庫和非關(guān)系數(shù)據(jù)庫之間的產(chǎn)品,由C++語言編寫,支持的數(shù)據(jù)結(jié)構(gòu)松散,是類似JSON的BSON格式,旨在為Web應(yīng)用提供可擴(kuò)展的高性能數(shù)據(jù)存儲解決方案。MongoDB最大的特點(diǎn)是支持的查詢語言非常強(qiáng)大,其語法有點(diǎn)類似于面向?qū)ο蟮牟樵冋Z言,幾乎可以實(shí)現(xiàn)類似關(guān)系數(shù)據(jù)庫單表查詢的絕大部分功能,而且還支持對數(shù)據(jù)建立索引。當(dāng)前MongoDB官方支持的客戶端API語言包括C、C++、Java、JavaScript、Perl、PHP、Python、Ruby等,社區(qū)開發(fā)的客戶端API語言還有Erlang、Go、Haskell等更多種類。MongoDBMongoDB系統(tǒng)結(jié)構(gòu)MongoDB結(jié)構(gòu)體系應(yīng)用場景MongoDB系統(tǒng)結(jié)構(gòu)層次分明,主要包括應(yīng)用層、查詢語言層、數(shù)據(jù)模型層和數(shù)據(jù)存儲層。MongoDBMongoDB系統(tǒng)結(jié)構(gòu)MongoDB結(jié)構(gòu)體系應(yīng)用場景結(jié)構(gòu)說明應(yīng)用層MongoDB支持IoT傳感器數(shù)據(jù)、內(nèi)容報(bào)告、廣告服務(wù)、實(shí)時(shí)分析以及各類移動(dòng)App業(yè)務(wù)需求查詢語言層MongoDB查詢語言層,可針對文檔做多種類型的查詢,支持簡單條件查詢、范圍檢索、連接操作、圖遍歷等。此外,該層還提供復(fù)雜處理管道,以支持?jǐn)?shù)據(jù)分析和轉(zhuǎn)化數(shù)據(jù)模型層MongoDB采用靈活的文檔模型,是其他數(shù)據(jù)模型的一個(gè)超集。MongoDB的文檔模型允許數(shù)據(jù)被表示為簡單鍵值對和扁平表結(jié)構(gòu),可存儲多格式的文檔及含嵌套數(shù)組和子文檔的對象數(shù)據(jù)存儲層MongoDB存儲架構(gòu)靈活,提供多種存儲引擎。允許前端根據(jù)負(fù)載、實(shí)際應(yīng)用和操作需求來選擇合適的存儲引擎以優(yōu)化處理MongoDBMongoDB系統(tǒng)結(jié)構(gòu)MongoDB結(jié)構(gòu)體系應(yīng)用場景MongoDB的結(jié)構(gòu)體系是一種層次結(jié)構(gòu):文檔(Document)集合(Collection)數(shù)據(jù)庫(DataBase)MongoDBMongoDB系統(tǒng)結(jié)構(gòu)MongoDB結(jié)構(gòu)體系應(yīng)用場景應(yīng)用場景說明游戲場景使用MongoDB直接以內(nèi)嵌文檔的形式存儲游戲用戶信息、裝備、積分等,方便查詢、更新物流場景使用MongoDB存儲訂單信息、訂單狀態(tài)、物流信息。訂單狀態(tài)在運(yùn)送過程中飛速更新,以MongoDB內(nèi)嵌數(shù)組的形式來存儲,一次查詢就能將訂單所有的變更查出來社交場景使用MongoDB存儲用戶信息、朋友圈信息,通過地理位置索引實(shí)現(xiàn)附近的人、定位功能物聯(lián)網(wǎng)場景使
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《第二單元 漢字輸入:第5課 詞語輸入速度快》教學(xué)設(shè)計(jì)-2024-2025學(xué)年浙江攝影版(2020)三年級下冊
- 2024秋八年級數(shù)學(xué)上冊 第13章 全等三角形13.5 逆命題與逆定理 3角平分線-角平分線的性質(zhì)教學(xué)設(shè)計(jì)(新版)華東師大版
- 8《課余生活真豐富》(教學(xué)設(shè)計(jì))-2024-2025學(xué)年統(tǒng)編版(2024)道德與法治一年級上冊
- 10方便的手輪 教學(xué)設(shè)計(jì)-2024-2025學(xué)年科學(xué)六年級上冊粵教粵科版
- 7 鹿角和鹿腿(教學(xué)設(shè)計(jì))-2024-2025學(xué)年語文三年級下冊統(tǒng)編版
- 2023三年級英語上冊 Unit 1 Hello Part A 第一課時(shí)教學(xué)設(shè)計(jì) 人教PEP
- 12我的環(huán)保小搭檔(教學(xué)設(shè)計(jì))-部編版(五四制)道德與法治二年級下冊
- 胃息肉術(shù)后護(hù)理診斷及措施
- 5《 煮雞蛋》(教學(xué)設(shè)計(jì))人教版勞動(dòng)三年級上冊
- 14 文言文二則 學(xué)弈 教學(xué)設(shè)計(jì)-2024-2025學(xué)年語文六年級下冊統(tǒng)編版
- 中醫(yī)春季情志養(yǎng)生知識講座
- 井下電纜及其連接裝置
- “少兒好舞蹈”大賽活動(dòng)報(bào)名表
- 復(fù)地A2A3附著式升降腳手架施工方案濟(jì)南復(fù)星國際中心A2A3地塊總承包工程
- 節(jié)前安全檢查表
- 動(dòng)物防疫與檢疫技術(shù)教案
- 英語中考復(fù)習(xí)研討課Problemsandadvice
- 頻譜儀N9020A常用功能使用指南
- 電氣自動(dòng)化設(shè)備安裝與維修專業(yè)(預(yù)備技師)人才培養(yǎng)方案(含一體化課程標(biāo)準(zhǔn))
- 業(yè)主委員會(huì)致全體業(yè)主的公開信
- 《旅游接待業(yè)》考試復(fù)習(xí)題庫(強(qiáng)化練習(xí)400題)
評論
0/150
提交評論