Matlab 數據分析 課件 康海剛 第1、2章 數據的基本概念及其應用、Matlab 基礎_第1頁
Matlab 數據分析 課件 康海剛 第1、2章 數據的基本概念及其應用、Matlab 基礎_第2頁
Matlab 數據分析 課件 康海剛 第1、2章 數據的基本概念及其應用、Matlab 基礎_第3頁
Matlab 數據分析 課件 康海剛 第1、2章 數據的基本概念及其應用、Matlab 基礎_第4頁
Matlab 數據分析 課件 康海剛 第1、2章 數據的基本概念及其應用、Matlab 基礎_第5頁
已閱讀5頁,還剩68頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Matlab數據分析第1章數據的基本概念及其應用第2章Matlab基礎第3章隨機模擬第4章數據預處理第5章數據探索與分析第6章多元線性回歸模型第7章聚類分析第8章分類第1章數據的基本概念及其應用1.1數據與數據處理1.1.1數據的相關基本概念1.數據2.大數據(1)Volume(大量)數據存儲單位從過去的GB、TB,到現在的PB、EB、ZB量級了。(2)Velocity(高速)生活中每個人都離不開互聯網,每個人每天都在向大數據中心提供大量的信息,通過互聯網傳輸,大數據的產生非常迅速。(3)Variety(多樣)廣泛的數據來源決定了大數據形式的多樣性,任何形式的數據都可以產生作用。(4)Value(價值)大數據最大的價值在于通過從大量不相關的各種類型的數據中,挖掘出對未來趨勢與模式的預測分析有價值的數據。3.信息1.1數據與數據處理4.信息量1.1.2數據處理的主要概念1.算法2.數據挖掘3.機器學習1.1數據與數據處理1.1.3數據處理的流程第一階段:制定目標?該組織或單位什么要設立和研究該項目?缺少什么以及需要什么??該組織或單位正在做什么事情來解決問題?什么還不夠好?是否有可借鑒的經驗??你需要什么種類的數據以及需要多少?團隊需要什么人員、哪些技術、多少時問?計算資源是什么??該組織或單位如何實施和應用你的結果?為了成功地應用部署,必須滿足哪些約束條件?1.1數據與數據處理第二階段:數據準備?什么數據可以我所用??這些數據是否有助于解決問題??這些數據是否足夠多??數據的質量是否足夠好?第三階段:建立模型1)特征化。2)打分。3)排序。4)關聯。5)分類。1.1數據與數據處理6)聚類。7)異常檢測。第四階段:評價與批判模型?對你的需求來說是否足夠準確?它是否能很好地概括需求??它是否比“直觀猜測”表現得更好?比你當前使用的任何估計都表現得更好?比之前使用的模型方法是否更好??模型結果(系數、聚簇、規則)在專業領域的情景是否有意義?也就是說,模型給出的結果是否符合實際情況??模型是否足夠精確?是否有更好的方式?第五階段:展示結果和文檔第六階段:模型實施與維護1.1數據與數據處理1.1.4數據處理的誤區1.不要用單一類型的數據去評價全局2.不要夸大偶然事件,認為帶來必然結果3.避免唯數據論4.不是從問題實際出發,寄希望于軟件“黑箱”工具1.2數據處理涉及的主要領域1.2.1統計學1.2.2數據挖掘1)處理的數據規模十分龐大,達到GB、TB數量級。2)查詢一般是決策制定者提出的即時查詢,往往不能形成精確的查詢要求,需要靠系統本身尋找其可能感興趣的內容。3)在一些應用領域,由于數據變化迅速,因此要求數據挖掘能快速做出相應反應以隨時提供決策支持。4)數據挖掘中,規則的發現基于統計規律。5)數據挖掘所發現的規則是動態的,它只反映了當前狀態的數據庫具有的規則,隨著不斷地向數據庫中加入新數據,需要隨時對其進行更新。1.2數據處理涉及的主要領域1.2.3云計算(1)超大規模“云”具有相當的規模,Google云計算已經擁有100多萬臺服務器,Amazon、IBM、微軟、Yahoo等的“云”均擁有幾十萬臺服務器。(2)虛擬化云計算支持用戶在任意位置、使用各種終端獲取應用服務。(3)高可靠性“云”使用了數據多副本容錯、計算節點同構可互換等措施來保障服務的高可靠性,使用云計算比使用本地計算機可靠。(4)通用性云計算不針對特定的應用,在“云”的支撐下可以構造出千變萬化的應用,同一個“云”可以同時支撐不同的應用運行。(5)高可擴展性“云”的規模可以動態伸縮,滿足應用和用戶規模增長的需要。(6)按需服務“云”是一個龐大的資源池,可按需購買;云可以像白來水、電、煤氣那樣計費。(7)極其廉價由于“云”的特殊容錯性,可以采用極其廉價的節點來構成云,“云”的自動化集中式管理使大量企業無須負擔日益高昂的數據中心管理成本,“云”的通用性使資源的利用率較之1.2數據處理涉及的主要領域傳統系統大幅提升,因此用戶可以充分享受“云”的低成本優勢,經常只要花費幾百美元、幾天時間就能完成以前需要數萬美元、數月時間才能完成的任務。(8)潛在的危險性云計算除了提供計算服務外,還必然提供了存儲服務。常見的云計算平臺有以下9個:(1)GoogleAppEngine

GoogleAppEngine是Google提供的服務,允許開發者在Google的基礎架構上運行網絡應用程序。(2)AmazonElasticBeanstalkElasticBeanstalk為在AWS(AmazonWebServices)云中部署和管理應用提供了一種方法。(3)微軟云Azure云計算服務平臺可以使客戶選擇的權力部署在以云計算基礎的互聯網服務上,或通過服務器,或把它們混合起來以任何方式提供給需要的業務。(4)阿里云與傳統的操作系統相比,依托云計算的阿里云OS具有明顯的優勢。1.2數據處理涉及的主要領域(5)百度BAE平臺針對大數據的規模大、類型多、價值密度低等特征,百度云平臺提供的BAE(百度應用引擎)將提供高并發的處理能力,以滿足處理速度快的要求。(6)新浪SAE云計算平臺作為典型的云計算,SAE采用“所付即所用,所付僅所用”的計費理念,通過日志和統計中心精確地計算每個應用的資源消耗(包括CPU、內存、磁盤等)。(7)騰訊云騰訊云有著深厚的基礎架構,并且有著多年對海量互聯網服務的經驗,可以為開發者及企業提供云服務器、云存儲、云數據庫和彈性Web引擎等整體一站式服務方案。(8)華為云華為云通過基于瀏覽器的云管理平臺,以互聯網線上自助服務的方式,為用戶提供云計算IT基礎設施服務。(9)盛大云盛大云是一個安全、快捷、自助化Taas和Paas服務的門戶入口。1.3數據處理的主要方法1.3.1數據采集(1)數據抓取通過程序從現有的網絡資源中提取相關信息,錄入到數據庫中。(2)數據導入將指定的數據源導入數據庫中,通常支持的數據源包括Excel表格、數據庫文件、XMI文檔、文本文件以及常用的數據庫(如SQLServer、Oracle、MySQL等)。(3)傳感設備自動采集數據有關數據或信息通過傳感設備傳輸到主控板,主控板對數據或信息進行信號解析、算法分析和數據量化,將數據通過無線通信方式進行傳輸。1.3.2數據預處理(1)數據清理它是通過填寫缺失的值、光滑噪聲數據、識別或刪除離群點并解決不一致性來“清理”數據的。(2)數據集成將多個數據源中的數據結合起來并統一存儲,建立數據倉庫的過程實際上就是數據集成。1.3數據處理的主要方法(3)數據變換通過平滑聚集、數據概化、規范化等方式將數據轉換成適用于數據挖掘的形式。(4)數據歸約數據挖掘時往往數據量非常大,在少量數據上進行挖掘分析需要很長的時間,數據歸約技術可以用來得到數據集的歸約表示,這就使數據量小得多,但仍然接近于保持原數據的完整性,使結果與歸約前結果相同或幾乎相同。1.3.3數據分析1)老七種工具,即排列圖、因果圖、分層法、調查表、散步圖、直方圖、控制圖。2)新七種工具,即關聯圖、系統圖、矩陣圖、KJ法、計劃評審技術、PDPC法、矩陣數據圖。1.描述性數據分析2.探索性數據分析3.驗證性數據分析1.3數據處理的主要方法1.3.4數據挖掘算法1.3數據處理的主要方法1.監督學習模型(1)決策樹決策樹是用于分類和預測的主要技術之一,決策樹學習是以實例為基礎的歸納學習算法,它著眼于從一組無次序、無規則的實例中推理出以決策樹表示的分類規則。(2)貝葉斯算法貝葉斯(Bayes)算法是一類利用概率統計知識進行分類的算法,如樸素貝葉斯(NaiveBayes)算法。(3)神經網絡神經網絡是一種具有類似于大腦神經突觸連接結構并能進行信息處理等應用的數學模型。(4)支持向量機(SupportVectorMachine,SVM)支持向量機是根據統計學習理論提出的一種新的學習方法,它的最大特點是根據結構風險最小化準則,以最大化分類間隔構造最優分類超平面來提高學習機的泛化能力,較好地解決了非線性、高維數、局部極小點等問題。(5)集成學習分類模型集成學習是一種機器學習范式,它試圖通過連續調用單個的學習算法,獲得不同的基學習器,然后根據規則組合這些學習器來解決同一個問題,可以顯著地提高學習系統的1.3數據處理的主要方法泛化能力。(6)其他分類學習模型此外還有logistics回歸模型、隱馬爾科夫分類模型(HMM)、基于規則的分類模型等眾多的分類模型,對于處理不同的數據、分析不同的問題,各種模型都有自己的特性和優勢。2.無監督學習模型(1)k-means聚類k-means算法的基本思想是初始隨機給定K個簇中心,按照最鄰近原則把待分類樣本點分到各個簇,然后按平均法重新計算各個簇的質心,從而確定新的簇心,一直迭代,直到簇心的移動距離小于某個給定的值。(2)基于密度的聚類根據密度完成對象的聚類。(3)層次聚類層次聚類就是對給定的數據集進行層次分解,直到滿足某種條件為止。(4)譜聚類譜聚類(SpectralClustering,SC)是一種基于圖論的聚類方法———將帶權無向圖劃分為兩個或兩個以上的最優子圖,使子圖內部盡量相似,而子圖間距離盡量較遠,以達到常見聚類1.3數據處理的主要方法的目的。第2章Matlab基礎2.1

Matlab簡介2.1

Matlab簡介2.1.1Matlab的特點1)Matlab是一個交互式軟件系統,輸入一條命令,立即就可以得到該命令的結果。2)具有強大的數值計算功能。3)Matlab符號運算功能。4)Matlab繪圖功能。5)編程功能。6)豐富的APPS。7)源程序開放。2.1.2Matlab窗口簡介?命令窗口(CommandWindow)?歷史命令窗口(HistoryCommandWindow)2.1

Matlab簡介?編輯調試窗口(Edit/DebugWindow)?圖像窗口(FigureWindow)?工作空間(Workspace)?當前目錄文件夾(CurrentFolder)?幫助窗口(HelpBrowser)?當前路徑窗口(CurrentDirectoryBrowser)本節將簡單介紹其中幾個窗口的基本操作方式。2.1

Matlab簡介1.命令窗口(CommandWindow)2.1

Matlab簡介2.1

Matlab簡介2.歷史命令窗口(HistoryCommandWindow)3.編輯調試窗口(Edit/DebugWindow)2.1

Matlab簡介4.圖像窗口(FigureWindow)2.1

Matlab簡介5.工作空間(Workspace)2.1

Matlab簡介2.1

Matlab簡介6.當前目錄文件夾(CurrentFolder)2.1

Matlab簡介2.2數組及其運算2.2.1變量和數組1.數值的記述2.變量命名規則1)變量名、函數名對字母大小寫是敏感的,如變量myvar和MyVar表示兩個不同的變量。2)變量名的第一個字符必須是英文字母,最多可包含63個字符(英文、數字和下連符),如myvar201是合法的變量名。3)變量名中不得包含空格、標點、運算符,但可以包含下連符。4)盡量避免與預定義變量名相同。3.Matlab默認的預定義變量2.2數組及其運算①如果用戶對表中任何一個預定義變量進行賦值,則該變量的默認值將被用戶新賦的值“臨時”覆蓋。②在遵循IEEE算法規則的機器上,被0除是允許的。2.2數組及其運算4.數組2.2數組及其運算5.數據類型2.2數組及其運算2.2.2變量的初始化1)用賦值語句初始化變量。2)用input函數從鍵盤輸入初始化變量。3)從文件讀取一個數據。1.用賦值語句初始化變量2.用捷徑表達式賦值3.用內置函數來初始化2.2數組及其運算4.用關鍵字input初始化變量2.2.3多維數組1.多維數組在內存中的存儲2.2數組及其運算2.用單個下標訪問多標數組2.2數組及其運算2.2.4子數組1.end函2.子數組在左邊的賦值語句的使用3.用一標量來給子數組賦值4.子數組的刪除2.2.5單元陣列2.2數組及其運算2.2數組及其運算2.2.6顯示輸出數據1.改變默認格式2.2數組及其運算2.disp函數3.用fprintf函數格式化輸出數據2.2.7數據文件2.2.8數組運算和矩陣運算2.2數組及其運算2.2數組及其運算2.2.9內置函數1.常用內置函數2.2數組及其運算2.其他內置函數(1)randrand產生一個在(0,1)之間的均勻分布的數。(2)randnrandn產生一個服從N(0,1)正態分布的隨機數。(3)find找出非0元素,也可以查找指定條件的元素,并返回元素所在位置索引。1)示例1:2)示例2:2.2數組及其運算3)示例3:(4)sort[Y,1]=sort(x)返回索引矩陣I,如果x是一個向量,則Y=x(I)。(5)fprintf格式化數據輸出與C語言中的printf函數用法相似,常見的數值處理函數見表2-8。2.2數組及其運算2.3作圖入門2.3作圖入門2.3.1簡單的直角坐標系作圖1.基本作圖操作2.3作圖入門2.3作圖入門2.3作圖入門2.聯合作圖2.3作圖入門2.3作圖入門2.3作圖入門2.3.2作圖的附加特性1.圖例2.3作圖入門2.3作圖入門2.控制坐標軸范圍2.3作圖入門3.在同一坐標系內畫出多個圖像2.3作圖入門2.3作圖入門4.創建多個圖像窗口5.子窗口2.3作圖入門2.3作圖入門6.對畫線的增強控制2.3作圖入門2.3作圖入門7.極坐標圖像2.4

Matlab程序設計2.4.1關系運算符和邏輯運算符1.關系運算符2.4

Matlab程序設計2.邏輯運算符2.4

Matlab程序設計3.邏輯函數2.4.2選擇結構1.if結構2.4

Matlab程序設計例2.1求一元二次方程的根。步驟1打開Script文件,在CommandWindow中輸入edit命令或按“Ctrl+N”組合鍵。步驟2在edit文件中輸入下述命令:步驟3保存Script文件。步驟4運行和調試Script文件。2.switch結構例2.2編寫一個學生成績管理程序。3.try/catch結構2.4

Matlab程序設計2.4.3循環結構1.

while循環例2.3使用歐幾里得算法求兩個整數的最大公約數,偽代碼如下:2.4

Matlab程序設計2.for循環1)在for循環開始時,Matlab產生了控制表達式。2)第一次進入循環,程序把循環控制表達式的第一列賦值于循環變量index,然后執行循環體內的語句。3)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論