《物聯網工程導論 第3版》 課件 第7章-數據處理_第1頁
《物聯網工程導論 第3版》 課件 第7章-數據處理_第2頁
《物聯網工程導論 第3版》 課件 第7章-數據處理_第3頁
《物聯網工程導論 第3版》 課件 第7章-數據處理_第4頁
《物聯網工程導論 第3版》 課件 第7章-數據處理_第5頁
已閱讀5頁,還剩26頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

物聯網工程導論

(第3版)南開大學吳功宜

吳英第7章

智能數據處理與大數據本章知識點結構本章教學要求掌握物聯網數據的特征理解云計算在物聯網中的應用理解大數據的基本概念了解物聯網大數據研究的特殊性7.1數據處理的相關概念

7.1.1數據、信息與知識7.1.2智能物聯網數據的特點海量多態動態關聯從無線傳感器網TinyDB數據庫結構中可以清晰地看到物聯網數據“海量、動態、多態、關聯”的特點7.2數據處理的相關技術數據存儲數據融合數據挖掘智能決策7.2.1數據存儲與數據庫技術關系型數據庫(RDB)更適用于在線事務處理類應用,例如電子商務、酒店預訂、銀行業務等。流行的關系型數據庫主要有Oracle、MySQL、SQLServer、PostgreSQL等。關系型數據庫擅長處理表之間需要復雜查詢的事務數據數據倉庫(DWH)更適合在線分析處理類應用。數據倉庫提供對海量結構化數據的快速聚合功能。傳統的基于行的數據倉庫方案主要有Netezza、Teradata、Greenplum等。現代的數據倉庫方案使用列式存儲技術來提升查詢性能與I/O效率,例如AmazonRedshift、Snowflake、GoogleBigQuery等NoSQL數據庫技術NoSQL是各種非關系型數據庫的統稱,用于解決傳統關系型數據庫性能與擴展問題。NoSQL沒有明確的結構連接不同表中的數據。NoSQL支持多種數據模型,包括列式、鍵值、搜索、文檔、圖模型等文檔數據庫:用于存儲、管理與查詢面向文檔的數據,以及半結構化數據(例如JSON、XML等格式)。文檔數據庫主要有MongoDB、CloudKit、CouchDB等圖數據庫:用于存儲大量復雜、互連、低結構化的圖數據,例如社交網絡、推薦系統等應用場景。圖可以建立在關系型或非關系型數據庫上。圖數據庫主要有Neo4J、OrientDB、InfoGrid、GraphDB等非結構化數據存儲技術Hadoop采用主節點與子節點模式,數據分布在多個子節點,主節點協調執行數據查詢。依托大規模并行處理技術,Hadoop支持快速查詢各種類型數據,包括結構化數據與非結構化數據在創建Hadoop集群時,每個子節點都附帶一個磁盤存儲塊,稱為Hadoop分布式文件系統(HDFS)。Hadoop支持常見的數據查詢框架,包括Hive、Ping、Spark等。如果用戶使用HDFS存儲數據,則存儲與計算將耦合在一起面向物聯網的數據存儲技術在物聯網數據類型中,多數屬于非結構化數據與半結構化數據,同時也包含少量的結構化數據。數據存儲在充分利用物聯網數據方面扮演重要角色為物聯網應用系統選擇數據存儲技術,需要注意的因素:數據庫大小與規模、處理海量數據的有效性、異構性與數據集成、流程建模與事務處理、時間序列聚合與歸檔、查詢語言及效率,以及可移植性等適合物聯網應用系統的數據庫主要有:InfluxDB、MangoDB、SQLite、RethinkDB、Cassandra等7.2.2數據融合技術數據融合是指運用計算機相關技術,按特定規則對多個數據源(例如傳感器)收集數據進行融合操作,從而獲得對監測對象狀態與特征估計,以生成更完整、精確、滿足用戶需求的信息。與通過單一數據源收集的信息相比,通過數據融合操作能獲得更可靠的信息從不同的角度出發,數據融合有不同的分類方式。按照執行融合操作的層次,數據融合可以分為以下三類:數據級融合、特征級融合與決策級融合。數據級融合是一種在低層執行的融合處理,融合對象是由多個數據源(例如傳感器)采集的原始數據。特征級融合是一種在中間層執行的融合處理,融合對象是由多個數據源(例如傳感器)數據提取的特征信息。決策級融合是一種在高層執行的融合處理,融合對象是由多個數據源(例如傳感器)的數據獲得的決策信息7.2.3數據分析與數據挖掘技術數據分析(DataAnalysis)是利用適當的統計分析方法對收集到的海量數據進行分析,從中提取有用的信息并形成結論的處理過程。數據分析的目標是將信息從大量看似雜亂無章的數據中提煉出來,并借此總結出研究對象的內在規律數據分析的操作對象是各種數據,它涵蓋了數值、文字、音頻、視頻等表現形式。數據分析的原理是利用各種統計方法,既包括描述性統計等簡單方法,又包括推斷性統計、預測性統計等高級方法數據挖掘的概念數據挖掘(DataMining)是從海量數據中揭示出隱藏的、未知的、具有潛在價值的信息的處理過程隨著互聯網、移動互聯網與物聯網的快速發展,各類應用產生的數據量級在快速增長。這些海量數據之間的關系錯綜復雜,常規處理方法已難以適應數據處理需求,數據挖掘技術在這種背景下產生數據挖掘是基于人工智能、機器學習、模式識別、統計學、數據庫、可視化技術等,能夠自動對數據進行分析、歸納及推理,并從中挖掘出潛在的價值模式,幫助管理者更好地做出決策數據挖掘的概念數據挖掘主要實現兩個功能:通過描述性分析,做到“針對過去、揭示規律”;通過預測性分析,做到“面向未來、預測趨勢”數據挖掘的相關算法根據是否需要指導進行分類,數據挖掘可以分為兩類:有指導的數據挖掘與無指導的數據挖掘有指導的數據挖掘又稱為監督學習,它是利用原有的數據建立一個模型,該模型最終是有一個屬性值,它可能是離散型變量,也可能是連續型變量。有指導的數據挖掘可分為兩類:分類(離散型變量)與預測(連續型變量)無指導的數據挖掘又稱為無監督學習,在原有數據的所有屬性中尋找一種關系,其最終輸出結果沒有屬性值。無指導的數據挖掘可分為兩類:聚類與關聯規則7.3云計算技術與應用

7.2.1云計算技術發展背景1961年,JohnMcCarthy就曾經預言:未來的計算資源能夠像公共設施(例如水、電)一樣使用此后的幾十年,出現過分布式計算、集群計算、網格計算、效用計算、服務計算等概念。云計算(CloudComputing)在這些技術的基礎上發展2006年8月,Google公司在搜索引擎大會上首次提出了云計算的概念云計算引發了軟件開發部署模式的創新,成為承載各類應用的關鍵基礎設施,為大數據、物聯網、人工智能等新興領域的發展提供了支撐聚類與關聯規則7.3.2云計算的基本概念按需服務—根據用戶是實際計算量與數據存儲量,自動分配CPU的數量與存儲空間的大小,避免服務質量下降與資源浪費資源池化—利用虛擬化技術,根據需求定制用戶使用的計算與存儲資源,計算與存儲資源管理對用戶是透明的服務可計費—“云”可以監控用戶的計算、存儲資源的使用量,并根據資源的使用“量”進行計費泛在接入—用戶的各種終端設備,如PC機、筆記本計算機、智能手機和移動終端設備,都可以作為云終端,隨時隨地訪問“云”高可靠性—“云”采用數據多副本備份冗余,計算節點可替換等方法,提高云計算系統的可靠性快速部署—云計算不針對某一些特定的應用,用戶可以方便地開發各種應用軟件,組建自己的應用系統,快速部署業務云計算工作模式云計算是一種計算模式,它是將計算與存儲資源、軟件與應用作為服務,通過網絡提供給用戶7.3.3云計算服務模式IaaS:基礎設施即服務,只涉及到租用硬件,是一種最基礎的服務PaaS:平臺即服務,已經從硬件的基礎上,租用一個特定的操作系統與應用程序,來自己進行應用軟件的開發SaaS:軟件即服務,在云平臺提供的定制軟件上,直接部署自己的應用系統7.3.4云計算部署模式公有云(publiccloud)是向整個社會提供共享資源服務的云平臺。“云”中的資源開放給全社會或某個大型行業使用,用戶通過互聯網按需付費使用“云”中的資源私有云(privatecloud)是由某個組織或機構自行組建、運行與管理,內部員工通過內部網或VPN訪問的云平臺社區云(communitycloud)具有公有云與私有云的雙重特征。社區云與私有云的相似點:對社區云的訪問受到一定的限制。社區云與公有云的相似點:社區云的資源專門提供給特定單位的內部用戶使用混合云(hybridcloud)由公共云、私有云、社區云中的至少兩種構成,其中每個云平臺都是獨立運行,通過標準接口或專用技術,實現不同云平臺之間的平滑銜接7.3.5

云計算的應用用戶的對手并不是與機器人,而是“隱藏”在“云”中的“虛擬”國際象棋大師7.4大數據技術與應用

7.4.1大數據發展背景Google工程師將美國用戶最頻繁檢索的關鍵字,例如“哪些是治療咳嗽與發熱的藥物”,與美國疾控中心從2003至2008年季節性流感傳播數據進行比較。為了找出特定關鍵字的使用頻率與流感傳播在時間、空間上的聯系,總共處理了4.5億個數學模型。研究人員選擇了45個關鍵字與相應的數學模型進行分析,計算結果與2007年、2008年美國疾控中心公布的流感病例數據對比,相關度高達97%基于大數據的分析結果能判斷某個地區可能患上流感的人數。這種預測更加及時,不像疾控中心在流感爆發之后一至兩周才能做出判斷7.4.2大數據基本概念大數據并沒有一個非常準確的定義。對于多大的數據屬于大數據,不同的學科、行業有不同的理解。例如,大數據是大到難以采用傳統方法進行處理的數據集;大數據是大小超過標準數據庫工具軟件能夠收集、存儲、管理與分析的數據集“大數據”人為的主觀定義將隨著技術發展而變化,同時不同行業對大數據的“量”的衡量標準也會不同。目前,不同行業比較一致的看法是數據量在幾百TB到幾十PB的數據集都可以稱為“大數據”大數據研究的價值2007年圖靈獎獲得者吉姆·格雷指出:科學研究將從實驗科學、理論科學、計算科學,發展到數據科學;“數據密集型科學發現”將成為科學研究的第四范式;科學研究將從實驗科學、理論科學、計算科學發展到目前興起的數據科學大數據對世界經濟、自然科學、社會科學的發展將會產生重大和深遠的影響;物聯網的大數據應用是國家大數據戰略的重要組成部分,結合物聯網應用的大數據研究必將成為物聯網研究的重要內容大數據的“5V”特征大體量(Volume):數據量達到數百TB到數百PB,甚至是EB的規模多樣性(Variety):數據為各種格式與各種類型時效性(Velocity):數據需要在一定的時間限度下得到及時處理準確性(Veracity):處理結果要保證一定的準確性大價值(Value):分析挖掘的結果可以帶來重大的經濟效益與社會效益7.4.3大數據技術發展7.4.4大數據研究的共性問題可視化分析—物聯網大數據分析的可視化能夠以非常直觀的形式呈現給物聯網用戶,更容易幫助不同行業的物聯網用戶從中提取有價值的知識,幫助科學決策數據挖掘算法—物聯網行業應用關系國計民生與生命安全,對數據挖掘結果的時效性、可靠性與可信性要求很高,必須由大數據專家與行業專家合作研究數據挖掘算法預測性分析能力—對于物聯網應用預測性分析十分重要,需要組織行業專家、物聯網專家與大數據專家相結合的研究隊伍,研究適應不同行業物聯網大數據的預測模型與算法語義引擎—物聯網需要一套新的理論與方法來實現對地理位置分布的各種數據資源進行規范和靈活地組織,方便用戶通過關鍵詞、標簽關鍵詞或其他輸入語義的搜索,提高主動獲取知識的能力數據質量與數據管理—不同傳感器感知的原始數據的匯聚,多維數據融合、多用戶協同感知與數據質量管理,使得處理之后的結果更能夠高精度地反映真實面貌,是物聯網大數據研究的重點7.4.5智能物聯網大數據研究的個性問題異構性與多樣性—物聯網的數據來自不同的行業、不同的應用、不同的感知手段,有人與人、人與物、物與物、機器與人、機器與物、機器與機器等各種數據,這些數據可以進一步分為:狀態數據、位置數據、個性化數據、行為數據與反饋數據

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論