




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
現代通信技術基礎2
3.2運用大數據大數據的基本概念1大數據的工作流程2大數據的來源3大數據的特征4大數據的基本構架51、大數據的定義人類知識重要來源之一就是數據處理。而大數據則是一個全新的概念。從數據處理的角度,我們提出兩個概念,即為古典數據處理和大數據處理。31、大數據的基本概念古典數據處理案例從計算機科學的角度看,司馬遷編寫史記的過程可以解讀為一個經典的古典數據處理案例。在編寫《史記》的過程中,司馬遷遍訪全國,收集整理史書記載,民間傳說,然后整合編寫出一部偉大的紀傳體史書。在這個例子中,我們可以把民間和官方的歷史信息看做數據。需要指出的是,這種數據概念和我們在互聯網時代接觸的數據在表示上有所不同。從狹義的解釋,這種古典數據不同于我們接觸的以數據化,網絡化所表示的數據。從廣義上講,數據不僅是互聯網時代下生成的數字,而是包含眾多潛在知識的信息。在司馬遷編寫《史記》的過程中,官方以文字形式進行的記載,民間口述的故事或是歌謠,都包含了大量對于撰寫歷史記錄的重要的信息。41、大數據的基本概念現代數據處理案例Facebook作為一個在近幾年里積累了超過14億全球用戶的社交網絡平臺儲存了大量的數據。從圖中關于Facebook每月活躍用戶數量增長歷史中可以清楚發現,截止至2017年,Facebook每月的活躍用戶人數超過20億,這就意味著每月將會有20億的用戶在其平臺上產生數據,因此這也使得它成為數據處理的標志例子之一。根據2015年社交媒體報告指出,在Facebook平臺上平均每天有100億條消息被發布,45億個“贊”被點擊,超過5億的照片視頻被上傳。51、大數據的基本概念與古典數據處理時期相比,我們可以看到在Facebook這種標志性互聯網平臺數據處理任務體現了多種不同的特征。首先即是數據量很大。其次,數據表現出結構化和非結構化并存的狀態。Facebook的例子可以看成互聯網時代下大數據處理的重要案例。其公司的首席分析師KenRudin曾提到:“大數據關系到公司的生死存亡”。61、大數據的基本概念71、大數據的基本概念2、什么是大數據大數據是指無法在一定時間內用常規軟件工具對其內容進行抓取、管理和處理的數據集合。大數據技術,是指從各種各樣類型的數據中,快速獲得有價值信息的能力。其中適用于大數據的技術包括:大規模并行處理(MPP)數據庫;數據挖掘電網;分布式文件系統;分布式數據庫;云計算平臺;互聯網;可擴展的存儲系統。
總的來說,大數據的工作流程可以大致劃分為4步,分別是數據收集、數據處理、數據儲存以及知識生成(或者是數據分析)。其中數據處理也包括了數據清理這部分的工作,具體內容會在后續進行闡述。這四個步驟構成了一個數據工作的生命周期。82、大數據的工作流程1、數據收集數據收集為大數據處理的最初任務,指代為大數據處理收集足夠的、未經過任何加工的原始數據。在古典的數據處理中,這種收集往往是由人工完成,需要耗費大量的人力物力。在現在互聯網時代中,各個平臺以及移動應用程序已經產生了數量巨大的數據。因此,如何完成數據收集在現代大數據處理需要被重新定義。所收集的數據大小是否足夠可以被理解為是否足夠支持大數據分析并且做出可靠結論的數量。總的來說可以認為對數據有定量和定性這兩方面的要求。92、大數據的工作流程定量:即利用對應的機器學習算法,通過學習標注數據,從而達到建立學習模型的目的。在這個過程中,機器學習需要標注數據作為訓練集,額外的標注數據作為測試集和驗證集,從而保證模型的魯棒性。如果數據量不足,算法模型可能會陷入欠擬合的狀態,即無法準確描述訓練數據的數據分布性。定性:在要求有足夠數量數據的同時,也同樣要求這些數據是有效的數據,而并非是無效的數據。對于數據處理的所要求的數據大小不僅僅體現在數據集數量的要求,而且還體現在數據集質量的數量。102、大數據的工作流程2、數據處理狹義的數據處理可以被認為是對數據進行建模操作從而生成知識。對于數據處理,我們傾向于描述在利用數據建模前工程師和研發人員必要的數據清理、數據融合和數據建立索引的工作。這些工作一方面需要對數據進行操作,但這種操作不會產生直接作用于業務的結果。相反,這些處理結果服務的目標是業務處理數據流程。數據清理(或者被稱為數據預處理)也是數據處理中的一個重要環節。同時這部分的工作也會占據整個項目周期80%的工作時間。我們所收集的原始數據通常直接來源于終端用戶,而用戶之間對于他們應該產生的數據是什么樣的格式并沒有明確規定。用戶輸入的數據具有非結構化特點和高噪音特點。以下我們通過一個實例展現這些特征。112、大數據的工作流程122、大數據的工作流程13數據清理的常用方法:
數值缺失處理方法:對于數值缺失的情況,很有可能會導致在后續的處理過程中,出現“NaN”的情況,也就是NotaNumber(非數)。在數據量較大的情況下,我們可以使用一些方法來代替缺失的值,從而達到清理的目的,例如平均值,最大值或者是更為復雜的概率估計。
準確性監測方法:使用統計分析的方法來識別可能存在的錯誤值或者異常數值,例如偏差分析等方法,也可以由用戶來自定義相應的規則來檢查和約束數據。2、大數據的工作流程14重復數據解決方法:對于數據集中有著相同數值的數據被認為是重復數據,通常通過簡單的刪除重復數據即可清除(注意,這點與下面關于數據融合部分的內容不同,這里只是針對絕對相同的數據進行處理)。噪音處理方法:對于一些噪音或者異常點的數據,我們可以使用一些簡單的方法來進行處理,例如對于脈沖噪音,我們可以使用中值濾波法來對其進行非線性平滑處理。2、大數據的工作流程3、知識生成知識生成是大數據處理中最為關鍵的環節,其生成的知識可以被用于具體的業務,從而提供服務。以IBMBluemix中的自然語言生成為例。用戶可以將業務的文字作為輸入,讓云端的平臺進行訓練,從而學習到語言的規律,即語言模型。而當新的業務信息,比如用戶輸入一個新的問題,該學習模型可以通過所學到的語言模型從而自動生成回答來滿足客戶。這種模式則是目前在線機器問答的一個基本原理。而大數據系統學習的知識即為語言模型。152、大數據的工作流程
知識生成包含但不僅限于下列的兩個工作:數據挖掘和數據分析。數據挖掘:是指從數據庫的大量數據中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。數據分析:數據分析是指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。162、大數據的工作流程4、數據存儲在經過知識生成的處理后,還需要對所生成的知識進行存儲。這種數據存儲一方面要求我們有良好的物理硬件支持,從而保證海量的生成數據可以被接納。另一方面也需要為生成的知識建立方便訪問的服務,即建立索引,從而保證生成的知識可以被快速準確的訪問。172、大數據的工作流程
數據的來源可以是公司或是機構的內部來源或是外部來源,而數據產生的主體可以是終端用戶,也可以是大數據工程師或是科學家。而最終大數據公司將通過這些數據的來源確定業務目標,從而提供更好的大數據服務。互聯網以及線上金融數據183、大數據的來源社交平臺數據193、大數據的來源
通過獲取用戶在社交網站所上傳的文字、圖像、音頻和視頻,數據公司可以進行用戶刻畫,進而描述用戶的興趣、婚姻狀態、收入范圍、行為軌跡、喜好品牌、日常行為以及文化偏好等。203、大數據的來源213、大數據的來源傳感器數據物聯網的數據來源不僅包括著計算機和智能手機的大數據,還包括可以從每個可以發送數據的設備所生成的大數據。利用物聯網,數據可以來自醫療設備、車輛、視頻游戲、儀表數據、照相機以及各種家用電器。223、大數據的來源企業管理數據企業規劃數據由美國GartnerGroup公司提出。它定義了下一代制造業的運行流程和模式。為現代制造業提供了規劃,制造流程,賬目管理,營銷渠道,采購方案,產品監控管理,研究成本及效益管理,全業務流程管理,產品數據定義及未來規劃,產品物流儲存和分配,人力資源管理,以及企業具體的應收報告。這個模式是基于現代互聯網技術的管理方式。因此,該模式的運營必然產生大量的中間數據。而如何解讀和處理這些海量的數據從而提升企業經營效益是一個目前被廣為關注的議題。233、大數據的來源3V大數據的大容量(Volume)特征:指大數據處理業務的規模旁大。大數據的多樣化(Variety)特征:大數據的產生來源多樣化、數據的表現形式多樣化、產生的業務價值多樣化、處理要求多樣化。大數據的價值(Value)特征:大數據之所以非常之火爆,重要原因在于它蘊含的潛在價值。244、大數據的特征4V在3V的基礎上,數據科學家和工程師們針對大數據處理業務總結出來大數據科學的第四個特征:真實性(Veracity)。大數據真實性是大數據所有特征的基礎。254、大數據的特征5V264、大數據的特征容量(Volume):
IBM定義了大數據處理中目標數據量巨大。具體其包括數據收集、數據存儲和知識提取任務的量要求和處理內容都是十分巨大。其各個部分起始計量可以從PB(1000個T)級別到ZB(10億個T)級別。多樣性(Variety):大數據數據種類多樣化。大數據囊括了海量結構化、半結構化和非結構化數據。其具體的組織結構形式包含了通信數據、傳感器信號、文本文字文件、音頻數據、視頻數據、圖片數據、GPS地理信息位置等價值(Value):大數據的價值寶貴,但是有價值的數據比例很低。產生真實有價值的數據處理知識是一個重要而艱巨的任務速度(Velocity):大數據增長速度很快。實性(Veracity):大數據的準確性和可信賴程度。274、大數據的特征1、層級分布特點大數據的架構是采用一種層級架構設計的方案,每一個層級對應這一個具體的功能需求。五種不同的層級架構,包含基礎物理層、數據采集層、數據存儲層、業務支持層和數據應用層。285、大數據的基本構架2、架構功能特點數據存儲模塊:該模塊主要是負責數據存儲,建立索引,和數據讀取工作。
數據分布式模塊:該模塊主要負責數據的分布式架構設計
自然語言處理模塊:該模塊主要包含大量自然語言處理規則和算法模型,用以處理非結構化、半結構化和結構化文檔。它的任務包含但是不限于分詞功能、自然語言生成、自然語言識別、機器翻譯、情感探測、自然語言語義分析等等。
295、大數據的基本構架
圖像處理模塊:大數據系統需要的不僅僅是處理文本文檔,還包含大量的視頻或是圖片數據。在計算機科學領域中,我們可以將這兩類數據歸納為圖像數據。尤其是目前主流的視頻處理流程中,設計者往往把視頻首先劃分一個大量關鍵幀圖片,然后對于每個圖片進行分析。因此,圖像處理模塊肩負著同時處理視頻和圖片的任務。它往往包含視頻分割模塊,物體檢測模塊,圖像標題識別模塊等等。
305、大數據的基本構架
其他算法模塊:大數據輸入中同樣包含音頻數據、GPS地理信息數據、系統交互數據、傳感器生成數據等。這些數據往往和文本數據或是圖像數據在結構和表現形式上存在巨大差異。因此,大數據系統需要單獨的模塊對于它們進行處理。
融合模塊:大數據系統的知識生成需要多種數據分析決策共同作用的結果。因此,融合模塊的主要任務是將不同的算法模塊整合到一起。然后進行決策分析,以
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/Z 45388.1-2025工業過程測量、控制和自動化第1部分:工業設施和智能電網之間的系統接口
- 天然氣輸配過程中能耗降低技術考核試卷
- 橡膠制品的供應鏈管理與協同創新考核試卷
- 綠色農業與食品安全考核試卷
- 寶石的結晶學與晶體生長研究進展評價考核試卷
- 禮儀用品企業環境管理體系考核試卷
- 遼寧省葫蘆島市六校聯考2025屆普通高中畢業班教學質量監測物理試題含解析
- 昆山杜克大學《學校體育學A》2023-2024學年第一學期期末試卷
- 永州市冷水灘區2025屆三年級數學第二學期期末統考模擬試題含解析
- 山東醫學高等專科學校《數學規劃》2023-2024學年第一學期期末試卷
- 山東省高中名校2025屆高三4月校際聯合檢測大聯考生物試題及答案
- 2025年武漢數學四調試題及答案
- 【MOOC】數學建模精講-西南交通大學 中國大學慕課MOOC答案
- 職業病防護設施與個體防護用品的使用和維護
- 2024年全國高中數學聯賽北京賽區預賽一試試題(解析版)
- 綠化養護服務投標方案(技術標)
- 中國紡織文化智慧樹知到期末考試答案2024年
- (正式版)HGT 6313-2024 化工園區智慧化評價導則
- GB/T 3091-2015低壓流體輸送用焊接鋼管
- 實際控制人股東會決議
- 混凝土攪拌機設計論文
評論
0/150
提交評論