




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
項目一
Python數據分析概述《財務大數據分析》課程JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業技術學院財務大數據分析課程團隊
目錄任務一認識數據分析任務二Python數據分析的工具?JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業技術學院1.掌握廣義的數據分析和狹義的數據分析的概念;
2.掌握典型的數據分析流;
3.了解七大類常見的數據分析應用場景;
4.了解數據分析常用的Python、R和MATLAB工具;
5.了解使用Python工具進行數據分析的優勢;
6.了解7個Python數據分析常用類庫。學習任務JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業技術學院任務一
認識數據分析?JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業技術學院數據分析的概念一大數據是一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。大數據是一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合具有海量的數據規模快速的數據流轉多樣的數據類型價值密度低四大特征數據分析的概念一數據分析是指用適當的分析方法對收集來的大量數據進行分析,提取有用信息和形成結論,對數據加以詳細研究和概括總結的過程。隨著計算機技術的全面發展,企業生產、收集、存儲和處理數據的能力大大提高,數據量與日俱增。而在現實生活中,需要把這些業務部門繁多、復雜的數據通過統計分析進行提煉,以此研究出數據的發展規律,進而幫助企業管理層做出決策。一數據分析的概念廣義的數據分析包括狹義數據分析和數據挖掘。狹義的數據分析是指根據分析目的,生產部門采用對比分析、分組分析、交叉分析和回歸分析等分析方法,對收集的數據進行處理與分析,提取有價值的信息,發揮數據的作用,得到一個特征統計量結果的過程。數據挖掘則是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,通過應用聚類模型、分類模型、回歸和關聯規則等技術,挖掘潛在價值的過程。一數據分析的概念數據分析已經逐漸演化為一種解決問題的過程,甚至是一種方法論。雖然每個公司都會根據自身需求和目標創建最適合的數據分析流程,但數據分析的核心步驟是一致的。數據分析的流程二需求分析一詞來源于產品設計,主要是指從用戶提出的需求出發,挖掘用戶內心的真實意圖,并轉化為產品需求的過程。產品設計的第一步就是需求分析,也是最關鍵的一步,因為需求分析決定了產品方向。錯誤的需求分析可能導致在產品實現過程中走入錯誤方向,甚至對企業造成損失。數據分析中的需求分析是數據分析環節的第一步,也是非常重要的一步,決定了后續的分析方向和方法。數據分析中的需求分析的主要內容是,根據業務、生產和財務等部門的需要,結合現有的數據情況,提出數據分析需求的整體分析方向、分析內容,最終和需求方達成一致意見。(1)需求分析(2)數據獲取網絡數據本地數據二數據分析的流程數據獲取是數據分析工作的基礎,是指根據需求分析的結果提取、收集數據。數據獲取主要有兩種方式:網絡數據是指存儲在互聯網中的各類視頻、圖片、語音和文字等信息;本地數據則是指存儲在本地數據庫中的生產、營銷和財務等系統的數據。本地數據按照數據時間又可以劃分為兩部分:歷史數據與實時數據。歷史數據是指系統在運行過程中遺存下來的數據,其數據量隨系統運行時間的增加而增長;實時數據是指最近一個單位時間周期(月、周、日、小時等)內產生的數據。(3)數據預處理數據預處理是指對數據進行數據合并、數據清洗、數據標準化和數據變換,并直接用于分析建模的這一過程的總稱。其中,數據合并可以將多張互相關聯的表格合并為一張;數據清洗可以去掉重復、缺失、異常、不一致的數據;數據標準化可以去除特征間的量綱差異;數據變換則可以通過離散化、啞變量處理等技術滿足后期分析與建模的數據要求。在數據分析的過程中,數據預處理的各個過程互相交叉,并沒有明確的先后順序。二數據分析的流程(4)分析與建模分析與建模是指通過對比分析、分組分析、交叉分析、回歸分析等分析方法,以及聚類模型、分類模型、關聯規則、智能推薦等模型與算法,發現數據中的有價值信息,并得出結論的過程。二數據分析的流程二數據分析的流程分析與建模的方法按照目標不同可以分為幾大類。如果分析目標是描述客戶行為模式的,可采用描述型數據分析方法,同時還可以考慮關聯規則、序列規則和聚類模型等。如果分析目標是量化未來一段時間內某個事件發生概率的,則可以使用兩大預測分析模型,即分類預測模型和回歸預測模型。在常見的分類預測模型中,目標特征通常都是二元數據,例如欺詐與否、流失與否、信用好壞等。在回歸預測模型中,目標特征通常都是連續想要據,常見的有股票價格預測和違約損失率預測等。(5)模型評價與優化模型評價是指對于已經建立的一個或多個模型,根據其模型的類別,使用不同的指標評價其性能優劣的過程。常用的聚類模型評價指標有ARI評價法(蘭德系數)、AMI評價法(互信息)、V-measure評分、FMI評價法和輪廓系數等。常用的分類模型評價指標有準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值(FlValue)、ROC和AUC等。常用的回歸模型評價指標有平均絕對誤差、均方誤差、中值絕對誤差和可解釋方差值等。二數據分析的流程模型優化則是指模型性能在經過模型評價后已經達到了要求,但在實際生產環境應用過程中,發現模型的性能并不理想,繼而對模型進行重構與優化的過程。在多數情況下。模型優化和分析與建模的過程基本一致。二數據分析的流程(6)部署部署是指將數據分析結果與結論應用至實際生產系統的過程。根據需求的不同,部署階段可以是一份包含了現狀具體整改措施的數據分析報告,也可以是將模型部署在整個生產系統的解決方案。在多數項目中,數據
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 山東省濟南市萊蕪區市級名校2024-2025學年初三下學期第五次模擬考試語文試題含解析
- 臨床免疫學檢驗課件 第17章 補體的檢測及應用學習資料
- 山東菏澤市曹縣重點中學2024-2025學年初三復習統一檢測試題數學試題含解析
- 廊坊師范學院《材料電化學》2023-2024學年第二學期期末試卷
- 遼寧省沈陽市實驗北重點名校2025年第二次高中畢業生復習統一檢測試題生物試題含解析
- 陜西西安市愛知中學2025年初三第二次診斷性考試數學試題含解析
- 二零二五應聘護士勞動的合同
- 年薪合同書協議書二零二五年
- 二零二五產品設計合同書范例
- 二零二五版正式正規離婚協議書
- 員工食堂就餐協議書
- 創傷緊急救護知識課件
- 醫院單位單位內部控制自我評價報告
- 湖北省第十屆湖北省高三(4月)調研模擬考試數學試題及答案
- 五一勞動節前安全檢查重點
- 2025年03月廣東深圳市光明區科技創新局公開招聘專干5人筆試歷年典型考題(歷年真題考點)解題思路附帶答案詳解
- 內蒙古通遼市科左中旗實驗小學2025屆數學三下期末質量檢測試題含解析
- 高溫急救知識培訓
- 學前教育學 課件 第1、2章 緒論;學前教育的目標、內容的方法
- 2025北京豐臺高三一模物理試題及答案
- 江南美術遺產融入美育的數智化路徑探索
評論
0/150
提交評論