Python數據分析與挖掘實戰PPT完整全套教學課件

上傳人：b*** IP屬地：浙江上傳時間：2023-06-28 格式：PPTX 頁數：632 大小：22.81MB 積分：35 舉報 版權申訴

已閱讀5頁，還剩627頁未讀，繼續免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

數據挖掘基礎第1章數據挖掘基礎第2章Python數據分析簡介第3章數據探索第4章數據預處理第5章數據挖掘算法基礎-（1）分類與回歸第5章數據挖掘算法基礎-（2）聚類第5章數據挖掘算法基礎-（3）關聯規則第5章數據挖掘算法基礎-（4）智能推薦第5章數據挖掘算法基礎-（5）時間序列第5章數據挖掘算法基礎第6章信用卡高風險客戶識別第7章餐飲企業菜品關聯分析第8章金融服務機構資金流量預測第9章O2O優惠券使用預測第10章電視產品個性化推薦第11章基于TipDM數據挖掘建模平臺實現金融服務機構資金流量預測1數據挖掘的基本任務目錄數據挖掘發展史2數據挖掘的通用流程3常用數據挖掘建模工具4Python數據挖掘環境配置5數據挖掘的發展史1989年從數據庫中發現知識（KDD）1995年第一屆國際知識發現與數據挖掘大會1997第三屆國際學術大會數據挖掘發展史數據挖掘是知識發現中的核心部分，它是指從數據集合中自動抽取隱藏在數據中的那些有價值的信息的過程。1數據挖掘的基本任務目錄數據挖掘發展史2數據挖掘的通用流程3常用數據挖掘建模工具4Python數據挖掘環境配置5分類與回歸預測分類是一種對離散型隨機變量建模或預測的方法，如：客戶流失預測；而回歸是通過建模來研究變量之間相互關系的密切程度、結構狀態以及進行模型預測的工具，如財政收入預測等。

數據挖掘的基本任務聚類分析代墊學生高收入貿易文書高矮低收入Group1Group2Group3Groupn

聚類分析是指在預先不知道類別標簽的情況下，根據信息的相似度原則進行信息聚集的一種方法。目的是使得類別內數據的“差異性”盡可能小(即“同質性”盡可能大)，類別間“差異性”盡可能大。數據挖掘的基本任務關聯規則關聯模式挖掘旨在從大量的數據當中發現特征之間或數據之間的相互依賴關系。這種存在于給定數據集中的頻繁出現的關聯模式，又稱為關聯規則。前項(Antecedent)后項(Consequent)蔬菜鮮魚紅酒?啤酒?前項(Antecedent)后項(Consequent)耳機?內存?手機配飾前提(1)&前提(2)&…&前提(m)

結論AntecedentsConsequentBuyingPattern

數據挖掘的基本任務智能推薦智能推薦用于聯系用戶和信息，并利用信息分析用戶的興趣偏好，為用戶推薦感興趣信息。數據挖掘的基本任務

時間序列

對不同時間下取得的樣本數據進行挖掘，用于分析樣本數據之間的變化趨勢，如：股指預測、天氣預測等。時間

數據挖掘的基本任務1數據挖掘的基本任務目錄數據挖掘發展史2數據挖掘的通用流程3常用數據挖掘建模工具4Python數據挖掘環境配置5數據挖掘的通用流程數據挖掘的通用流程抽取數據的標準：相關性、可靠性、有效性衡量數據質量的標準：資料完整無缺，各類指標項齊全；數據準確無誤，反映的都是正常狀態下的水平。數據挖掘的通用流程隨機抽樣等距抽樣分層抽樣按起始順序抽樣分類抽樣抽取方式：1數據挖掘的基本任務目錄數據挖掘發展史2數據挖掘的通用流程3常用數據挖掘建模工具4Python數據挖掘環境配置5常用數據挖掘建模工具Python是一種面向對象、解釋性的計算機程序設計語言，它擁有高效的數據結構。

R是一種由統計計算基金會支持的用于統計計算和圖形的編程語言和自由軟件環境，R語言及其庫實現了各種各樣的統計和圖形技術，包括線性和非線性建模、時間序列分析、分類、聚類等。常用數據挖掘建模工具Matlab是一種主要用于算法開發、數據可視化、數據分析以及數值計算的高級技術計算語言。常用數據挖掘建模工具SPSS(StatisticalProductandServiceSolutions)采用類似EXCEL表格的方式輸入與管理數據，數據接口較為通用，能方便的從其他數據庫中讀入數據，輸出結果十分美觀。常用數據挖掘建模工具KNIME是基于Java開發的，采用類似數據流的方式來建立分析挖掘模型。常用數據挖掘建模工具RapidMiner也叫YALE(YetAnotherLearningEnvironment)，提供圖形化界面，拖拽操作，無需編程，運算速度快。常用數據挖掘建模工具TipDM開源建模平臺是基于Python引擎的，可以通過拖拽功能組件的方式實現數據的輸入輸出，數據預處理，挖掘建模，模型評估等操作，以達到數據挖掘的目的。常用數據挖掘建模工具1數據挖掘的基本任務目錄數據挖掘發展史2數據挖掘的通用流程3常用數據挖掘建模工具4Python數據挖掘環境配置5Anaconda是一個Python的集成開發環境，可以便捷的地獲取庫，且提供對庫的管理功能，對環境可以進行統一管理。Python數據挖掘環境配置Python數據挖掘環境配置Python數據挖掘環境配置Python數據挖掘環境配置Python數據挖掘環境配置Python數據挖掘環境配置Python數據挖掘環境配置小結本章節主要介紹數據挖掘的基礎知識，包括數據挖掘的發展史、基本任務、通用流程和常用工具，以及Python數據挖掘的環境配置。數據挖掘的基本任務包括分類與回歸、聚類、關聯規則、智能推薦、時間序列。數據挖掘的通用流程包括了目標分析、數據抽取、數據探索、數據預處理、分析與建模、模型評價。常用的挖掘工具包括了Python、R、Matlab、IBMSPSSModeler、TipDM開源數據挖掘建模平臺等。

Python數據挖掘編程基礎1Python數據分析預處理常用庫目錄Python使用入門2Python數據挖掘建模常用庫和框架3賦值運算乘法運算冪運算多重賦值字符串操作基本命令基本運算a=3a*3a**3a,b,c=1,2,3#多重賦值#字符串操作a='ThisisthePythonworld'a+'Welcome!'#將a與'Welcome!'拼接，得到'ThisisthePythonworldWelcome!'a.split('')#將a以空格分割，得到列表['This','is','the','Python','world']基本命令基本運算判斷語句基本命令判斷與循環程序1程序2程序3if條件表達式：

elif條件表達式：

FalseTrueFalseTruefor循環語句基本命令條件表達式FalseTrue循環體while循環語句基本命令while條件表達式：True程序Falseforiinrange(1,5,1):print(i)基本命令range函數Python要像C語言的格式進行循環，實際上需要的是一個數字序列。range函數能夠快速構造一個數字序列。defpea(x):returnx+1print(pea(1))#輸出結果為2基本命令函數

函數是Python為了代碼效率的最大化，減少冗余而提供的最基本的程序結構。Python使用def自定義函數：c=lambdax:x+1#定義函數c(x)=x+1d=lambdax,y:x+y+6#定義函數d(x,y)=x+y+6基本命令使用def定義函數需要使用規范的命名、添加計算內容，以及明確返回值，將會相對復雜。因此，Python支持使用lambda定義“行內函數”。數據結構序列類型：列表、元組映射類型：字典集合類型：可變集合、不可變集合數據結構Python中的數據結構主要分為三種類型：集合（Set）、序列（Sequence）、映射（Mapping），它們可以統稱為容器（container）。數據結構數據結構列表（可變）元組（不可變）字典（可變）集合可變數據類型可以直接對數據結構對象的內容進行修改（并非是重新對對象賦值操作），即可以對數據結構對象進行元素的賦值修改、刪除或增加等操作。不可變數據類型與可變數據類型不同，不可變數據類型不能對數據結構對象的內容進行修改操作（對對象當中的元素進行增加、刪除和賦值修改）。（1）列表的基本操作列表的創建列表的長度列表元素計數列表的下標列表的切片與索引列表的運算列表的增、刪、改、查操作數據結構列表方法功能m.append(1)將1添加到列表m末尾m.count(1)統計列表m中元素1出現的次數m.extend([1,2])將列表[1,2]的內容追加到列表m的末尾中m.index(1)從列表m中找出第一個1的索引位置m.insert(2,1)將1插入列表m的索引為2的位置m.pop(1)移除列表m中索引為1的元素（2）列表的其他常用函數數據結構函數功能函數功能cmp(m,n)比較兩個列表的元素min(m)返回列表中元素最小值len(m)返回列表元素個數sum(m)將列表中的元素求和max(m)返回列表元素最大值sorted(m)對列表的元素進行升序排序（1）元組的基本操作元組的創建元組的長度元組元素計數元組的下標元組的切片與索引元組的運算元組的查詢操作數據結構元組1'word'True'pear'0123-4-3-2-1在數學上，字典實際上是一個映射。字典將鍵映射到值，通過鍵來調取數據。數據結構字典123ABC數據結構集合集合既不是序列也不是映射類型，更不是標量。集合是自成一體的類型。集合是唯一的，無序的。一般通過{}或set函數創建一個集合。k={1,1,2,3,3}#注意1和3會自動去重，得到{1,2,3}k=set([1,1,2,3,3])#同樣地，將列表轉換為集合，得到{1,2,3}數據結構集合的運算a=f|g#f和g的并集b=f&g#f和g的交集c=f–g#求差集（項在f中，但不在g中）d=f^g#對稱差集（項在f或g中，但不會同時出現在二者中）

函數式編程（Functionalprogramming）或函數程序設計，又稱泛函編程，是一種編程范型。在Python中，函數式編程主要由lambda、map、reduce、filter幾個函數構成。假設有一個列表a=[5,6,7]，需要為列表a中的每個元素都加3，使用map函數實現并生成一個新列表：數據結構函數式編程a=[5,6,7]b=map(lambdax:x+3,a)b=list(b)print(b)#輸出結果也為[8,9,10]函數式編程（Functionalprogramming）或函數程序設計，又稱泛函編程，是一種編程范型。在Python中，函數式編程主要由lambda、map、reduce、filter幾個函數構成。假設有一個列表a=[5,6,7]，需要為列表a中的每個元素都加3，使用map函數實現并生成一個新列表：數據結構a=[5,6,7]b=map(lambdax:x+3,a)b=list(b)print(b)#輸出結果也為[8,9,10]庫的導入與添加庫的導入Python本身內置了很多強大的庫，如數學相關的math庫，可以為我們提供更加豐富復雜的數學運算。#使用math庫進行數學運算importmathmath.sin(2)#計算正弦math.exp(2)#計算指數math.pi#內置的圓周率常數庫的導入與添加導入庫中的所有函數frommathimport*#導入math庫中包含的所有函數，若大量地這樣引入第三庫，則可能會容易引起命名沖突exp(2)sin(2)庫的導入與添加添加第三方庫思路特點下載源代碼自行安裝安裝靈活，但需要自行解決上級依賴問題用pip命令安裝比較方便，自動解決上級依賴問題用easy_install命令安裝比較方便，自動解決上級依賴問題，比pip稍弱下載編譯好的文件包一般是Windows系統才提供現成的可執行文件包系統自帶的安裝方式Linux或Mac系統的軟件管理器自帶了某些庫的安裝方式1Python數據分析預處理常用庫目錄Python使用入門2Python數據挖掘建模常用庫和框架3NumPyNumPy的前身Numeric最早是由吉姆·弗賈寧（JimHugunin）與其他協作者共同開發，2005年，特拉維斯.奧利芬特（TravisOliphant）在Numeric中結合了另一個同性質的程序庫Numarray的特色，并加入了其他擴展而開發了NumPy。進行科學計算的基礎軟件包。更多高級擴展庫的依賴庫。內置函數處理數據的效率較高。pandaspandas的名稱源自面板數據（paneldata）和Python數據分析（DataAnalysis），最初是被作為金融數據分析工具而開發出來，由AQRCapitalManagement于2008年4月開發，并于2009年底開源。提供了快速、靈活、明確的數據結構。帶有豐富的數據預處理函數。支持數據的增、刪、改、查。Matplotlib是約翰·亨特（JohnHunter）在2008年左右的博士后研究中發明出來的，最初只是為了可視化癩痢病人的一些健康指標，慢慢的Matplotlib變成了Python上最廣泛使用的可視化工具包。支持折線圖、條形圖、柱狀圖、餅圖的繪制。支持交互式繪圖和非交互式繪圖。支持Linux、Windows、MacOSX與Solaris的跨平臺繪圖。遷移學習的成本比較低。Matplotlib1Python數據分析預處理常用庫目錄Python使用入門2Python數據挖掘建模常用庫和框架3scikit-learn還是Python下強大的機器學習工具包，提供了完善的機器學習工具箱，是一種簡單高效的數據分析和挖掘的工具。scikit-learn不僅提供了一些實例數據用于練習，還提供了很多功能接口：model.fit()：用于訓練模型model.predict(X_new)：預測新樣本model.predict_proba(X_new)：預測概率model.score()：得分越高，模型擬合效果越好model.transform()：在fit函數的基礎上，進行標準化，降維，歸一化等數據處理操作model.fit_transform()：fit函數和transform函數的組合，既包括了訓練又包含了數據處理操作。Scikit-learn深度學習TensorflowTensorflow是基于Google2011年開發的深度學習基礎框架DistBelief構建而成。主要用于搭建深度神經網絡。TensorFlow即Tensor和Flow，Tensor意味著data，Flow意味著流動、計算、映射，即數據的流動、數據的計算、數據的映射，同時也體現數據是有向的流動、計算和映射的。Keras是由Python編寫而成并使用TensorFlow、Theano以及CNTK作為后端的一個深度學習框架，也是深度學習框架中最容易使用的一個。Keras具有高度模塊化、用戶友好性和易擴展特性。支持卷積神經網絡和循環神經網絡，以及兩者的組合。Keras可無縫銜接CPU和GPU的切換。深度學習KerasPyTorch可幫助構建深度學習項目，其強調靈活性，并允許用Python表達深度學習模型；命令式體驗，直接使用nn.module封裝便可使網絡搭建更快速和方便；調試簡單，調試PyTorch就像調試Python代碼一樣簡單。除此之外，PyTorch中還存在著較為完備的應用領域所對應的庫：深度學習PyTorch應用領域對應的PyTorch庫計算機視覺TorchVision自然語言處理PyTorchNLP圖卷積PyTorchGeometric工業部署FastaiPaddlePaddle支持超大規模深度學習模型的訓練、多端多平臺部署的高性能推理引擎等。命令式編程模式（動態圖）功能、性能和體驗；原生推理庫性能顯著優化，輕量級推理引擎實現了對硬件支持的極大覆蓋。新增了CUDA下多線程多流支持、TRI子圖對動態shape輸入的支持，強化量化推理，性能顯著優化；全面提升對支持芯片的覆蓋度（包括寒武紀、比特大陸等）以及對應的模型數量和性能。深度學習PaddlePaddleCaffe是由伯克利人工智能研究所和社區貢獻者共同開發的。主要應用在視頻、圖像處理等方面，核心語言是C++，支持命令行、Python和MATLAB接口，及支持在CPU上運行、GPU上運行，且Caffe通用性好、非常穩健、快速以及性能優異。深度學習Caffe除了前面所介紹的常用于數據挖掘建模的庫之外，還有許多的庫也是運用于數據挖掘建模：其他庫名版本PyMySQL0.10.0SciPy1.4.1Statsmodels0.11.1XGBoost1.2.1小結本章結合了Python數據挖掘編程基礎，重點介紹了Python的使用入門、Python數據分析常用庫和Python數據挖掘建模常用庫。結合實際操作，對Python基本語句的使用進行操作。結合實際意義與作用，對常用庫進行簡單的介紹。

第3章數據探索1數據特征分析目錄數據校驗2時間范圍不一致一致性校驗時間校驗time_1time_22020-01-0108:35:002020-01-1710:31:002020-01-0209:16:002020-01-1811:36:002020-01-0310:33:002020-01-199:45:00…………2020-01-3015:20:002020-02-1919:27:002020-01-3121:18:002020-02-2023:55:00時間粒度不一致一致性校驗unupgraded_time_1upgrade_time_22020/03/1610:35:002020/6/814:12:302020/03/1610:36:002020/6/814:13:002020/03/1610:37:002020/6/814:13:302020/03/1610:38:002020/6/814:14:002020/03/1610:39:002020/6/814:14:30時間格式不一致一致性校驗order_time1end_time22020-08-1515:16:00202011051430002020-08-1515:25:00202011051435002020-08-1515:33:00202011051442002020-08-1515:40:00202011051448002020-08-1515:47:0020201105145100時區不一致一致性校驗Overseas_sever_timeLocal_sever_time2020/05/1009:10:302020/05/1014:10:302020/05/1009:11:002020/05/1014:11:002020/05/1009:11:302020/05/1014:11:302020/05/1009:12:002020/05/1014:12:002020/05/1009:12:302020/05/1014:12:30同名異議一致性校驗字段信息校驗Number（A）Number（B）1004538109101600016210045383061016000175100453842542380003391004538333423800034810045380074238000256同名同義一致性校驗Sold_dtSales_dt2020/7/012020/7/012020/7/032020/7/032020/7/102020/7/102020/7/152020/7/152020/7/242020/7/24單位不統一一致性校驗Gold_coins（A）Gold_coins（B）49.56.343456.97.291743.05.510480.610.328867.28.6116信息暫時無法獲取或獲取信息的代價太大信息遺漏屬性值不存在缺失值校驗缺失值產生的原因缺失值校驗缺失值產生的影響丟失大量有用信息不確定性更加顯著，模型中蘊涵的規律更難把握使建模過程陷入混亂，導致不可靠的輸出函數或方法名函數或方法功能使用格式isnull用于判斷是否為空值pandas.DataFrame.isnull()或pandas.isnull(obj)notnull用于判斷是否為非空值pandas.DataFrame.notnull()或pandas.notnull(obj)count用于計算非空元素pandas.DataFrame.count(axis=0,level=None,numeric_only=False)缺失值校驗缺失值產生的校驗簡單統計質量分析

可以先對變量做一個描述性統計分析，進而查看哪些數據是不合理的。Python異常值檢測函數或方法：異常值校驗函數或方法名函數或方法功能使用格式percentile用于計算百分位數numpy.percentile(a,q,axis=None,out=None,overwrite_input=False,interpolation='linear',keepdims=False)mean用于計算平均值pandas.DataFrame.mean(axis=None,skipna=None,level=None,numeric_only=None,**kwargs)std用于計算標準差pandas.DataFrame.std(axis=None,skipna=None,level=None,ddof=1,numeric_only=None,**kwargs)函數或方法名參數名參數說明percentilea接收array_like。表示輸入數組或可以轉換為數組的對象。無默認值q接收浮點數的array_like。表示要計算的百分位數或百分位數的序列，必須在0到100之間（含0和100）。無默認值axis接收int、int元組、None。表示計算百分位數的一個或多個的軸。默認為Nonemeanaxis接收int。表示所要應用的功能的軸，可選0和1。默認為Noneskipna接收bool。表示排除空值。默認為Nonelevel接收int或級別名稱。表示標簽所在級別。默認為Nonestdaxis接收int。表示所要應用的功能的軸，可選0和1。默認為Noneskipna接收bool。表示排除NA或空值。默認為Nonelevel接收int或級別名稱。表示標簽所在級別。默認為Noneddof接收int。表示Delta的自由度。默認為1異常值校驗

Python異常值檢測函數或方法的常用參數及其說明：如果數據服從正態分布，異常值被定義為一組測定值中與平均值的偏差超過三倍標準差的值。如果數據不服從正態分布，則與平均值的偏差超過兩倍標準差的數據為異常值，稱為四分位距準則（IQR）。使用IQR準則和3σ原則可以檢測ary=(19,57,68,52,79,43,55,94,376,4581,3648,70,51,38)中的異常值，返回為異常值的元素，并計算元組ary異常值所占的比例：異常值校驗3σ原則檢測方法檢測的異常值異常值比例IQR準則[376,4581,3648]0.21428571428571427原則[4581,3648]0.14285714285714285

異常值校驗箱型圖分析1數據特征分析目錄數據校驗2集中趨勢是指總體中各單位的次數分布從兩邊向中間集中的趨勢，用于對比同類現象在不同的時間、地點和條件下的一般水平，反映同一總體某類現象在不同時間上變化的規律性、分析現象之間的依存關系。描述性統計分析集中趨勢度量指在一組數據中所有數據之和再除以這組數據的個數均值指將一組觀察值從小到大進行排列，位于中間的數據中位數指數據集中出現最頻繁的值中位數離中趨勢是指總體中各單位標志值背離分布中心的規模或程度，用于衡量和比較平均數代表性的大小、反映社會經濟活動過程的均衡性和節奏性、衡量風險程度。描述性統計分析離中趨勢度量極差數據的離散程度標準差數據偏離均值的程度變異系數標準差相對于均值的離中趨勢四分位數間距標間距準差相對于均值的離中趨勢pandas庫的describe()方法可以給出一些基本的統計量，包括均值、標準差、最大值、最小值、分位數等。describe()方法的基本使用格式及參數說明如下：pandas.DataFrame.describe(percentiles=None,include=None,exclude=None,datetime_is_numeric=False)描述性統計分析參數名稱參數說明percentiles接收int。表示要包含在輸出中的百分比，須介于0~1。默認為Noneinclude接收類似dtype的列表。表示包括在結果中的數據類型的白名單。默認為Noneexclude接收類似dtype的列表型。表示從結果中忽略的數據類型黑名單。默認為Nonedatetime_is_numeric接收bool。表示是否將datetimedtypes視為數字。默認為False頻率分布分析主要步驟：定量數據分組遵循的主要原則如下：各組之間必須是相互排斥的。各組必須將所有的數據包含在內。各組的組寬最好相等。分布分析定量數據的分布分析求極差決定組距與組數決定分點列出頻率分布表繪制頻率分布直方圖對于定性數據，常根據數據的分類類型進行分組，可以采用餅圖和柱形圖對定性變量進行分布分析。以某餐館的各菜系在某段時間內的銷售額為例，采用定性數據的分布分析方法進行分析：分布分析定性數據的分布分析對比分析是指將兩個相互聯系的指標進行比較，從數量上展示和說明研究對象規模的大小、水平的高低、速度的快慢，以及各種關系是否協調，適用于指標間的橫縱向比較、時間序列的比較分析。對比分析主要有以下兩種形式：對比分析絕對數比較是利用絕對數進行對比，從而尋找差異的一種方法絕對數比較用于反映客觀現象之間數量聯系程度的綜合指標相對數比較由于研究目的和對比基礎不同，相對數可以分為以下幾種：對比分析結構相對數將同一總體內的部分數值與全部數值對比求得比重比例相對數將同一總體內不同部分的數值對比比較相對數將同一時期兩個性質相同的指標數值對比強度相對數將兩個性質不同但有一定聯系的總量指標對比計劃完成程度相對數將某一時期實際完成數與計劃數對比動態相對數將同一現象在不同時期的指標數值對比周期性分析是探索某個變量是否隨著時間變化而呈現出某種周期變化趨勢。以某景區2019年3月份人流量為例，根據人流量數據，制時序圖，并分析景區人流量的變化趨勢：周期分析貢獻度分析又稱帕累托分析，貢獻度分析的原理是帕累托法則，又稱20/80定律。以服裝企業為例，根據企業對應的秋裝盈利數據，繪制服裝盈利帕累托圖：貢獻度分析判斷兩個變量是否具有線性相關關系的最直觀的方法是直接繪制散點圖。相關性分析直接繪制散點圖利用散點圖矩陣同時繪制各變量間的散點圖，從而快速發現多個變量間的主要相關性。相關性分析繪制散點圖矩陣為了更加準確地描述變量之間的線性相關程度，可以通過計算相關系數來進行相關分析。Pearson相關系數Pearson相關系數一般可用于分析兩個連續性變量之間的關系，其計算公式為：相關性分析計算相關系數

相關性分析Spearman秩相關系數不服從正態分布的變量、分類或等級變量之間的關聯性可采用Spearman秩相關系數，也稱等級相關系數來描述。Spearman秩相關系數計算公式如下：對兩個變量成對的取值分別按照從小到大（或從大到小）順序編秩，代表的秩次，代表的秩次，為、的秩次之差。相關性分析

一個變量秩次的計算過程：相關性分析

從小到大排序從小到大排序時的位置秩次

0.5110.8221.0331.24(4+5)/2=4.51.25(4+5)/2=4.52.3662.877判定系數定系數是相關系數的平方，可用進行表示，用于衡量回歸方程對的解釋程度。判定系數取值范圍為

。越接近于1，表明兩個變量之間的相關性越強；接近于0，表明兩個變量之間幾乎沒有直線相關關系。相關性分析

pandas庫的corr()方法可計算出列與列、變量與變量之間的成對相關系數，但不包括空值。corr()方法的基本使用格式和參數說明如下：pandas.DataFrame.corr(method='pearson',min_periods=1)相關性分析參數名稱參數說明method接收方法的名稱。表示計算相關系數所要使用的方法，可選pearson、kendall、spearman。默認為pearsonmin_periods接收int。表示每對列必須具有有效結果的最小觀察數。默認為1小結本章主要講解如何從數據校驗和數據特征分析兩個方面對數據進行探索。介紹了數據校驗中的一致性、缺失值和異常值的校驗方法。介紹了數據特征分析中的分布、對比、統計量、周期、貢獻度和相關性分析，并相應結合了各種小案例進行演示。

第4章數據預處理1數據變換目錄數據清洗2數據合并3記錄重復是指數據中某條記錄的一個或多個屬性的值完全相同。在某企業的母嬰發貨記錄表中，利用列表（list）對用品名稱去重，查看所有的品牌名稱：重復值處理記錄重復defdelRep(list1):list2=[]foriinlist1:ifinotinlist2:list2.append(i)returnlist2names=list(data['品牌名稱'])#提取品牌名稱name=delRep(names)#使用自定義的去重函數去重重復值處理除了利用列表去重之外，還可以利用集合（set）元素為唯一的特性去重：print('去重前品牌總數為：',len(names))name_set=set(names)#利用set的特性去重print('去重后品牌總數為：',len(name_set))pandas.DataFrame.drop_duplicates(subset=None,keep='first',inplace=False)重復值處理pandas提供了一個名為drop_duplicates的去重方法。該方法只對DataFrame或Series類型有效。drop_duplicates()方法的基本使用格式和參數說明如下：參數名稱參數說明subset接收str或sequence。表示進行去重的列。默認為Nonekeep接收特定str。表示重復時保留第幾個數據。first：保留第一個。last：保留最后一個。false：只要有重復都不保留。默認為firstinplace接收bool。表示是否在原表上進行操作。默認為False屬性內容重復是指數據中存在一個或多個屬性名稱不同，但數據完全相同。當需要去除連續型屬性重復時，可以利用屬性間的相似度，去除兩個相似度為1的屬性的其中一個：corr_=data[['品牌標簽','倉庫標簽']].corr(method='kendall')print('kendall相似度為：\n',corr_)重復值處理屬性內容重復重復值處理除了使用相似度矩陣進行屬性去重之外，可以通過pandas庫的DataFrame.equals()方法進行屬性去重。DataFrame.equals()方法的基本使用格式和參數說明如下：pandas.DataFrame.equals(other)參數名稱參數說明other接收Series或DataFrame。表示要與第一個進行比較的另一個Series或DataFrame。無默認值處理缺失值的方法可分為3類：刪除記錄、數據插補和不處理。在數據分析中常用的插補方法處理缺失值：缺失值處理插補可方法方法描述平均數/中位數/眾數插補根據屬性值的類型，用該屬性取值的平均數/中位數/眾數進行插補使用固定值將缺失的屬性值用一個常量替換最近臨插補在記錄中找到與缺失樣本最接近的樣本的該屬性值插補回歸方法對帶有缺失值的變量，根據已有數據和與其有關的其他變量（因變量）的數據建立擬合模型來預測缺失的屬性值插值法插值法是利用已知點建立合適的插值函數

，未知值由對應點

求出的函數值

近似代替拉格朗日插值公式指的是在節點上給出節點基函數，然后做基函數的線性組合，組合系數為節點函數值的一種插值多項式。拉格朗日插值法的基本實現步驟如下：缺失值處理拉格朗日插值法確定原始數據因變量和自變量取缺失值前后取缺失值前后各k個數據基于拉格朗日插值多項式對全部缺失數據依次進行插補牛頓插值法也是多項式插值，與拉格朗日插值相比，具有承襲性和易于變動節點的特點。牛頓插值法的基本實現步驟如下：缺失值處理牛頓插值法計算差商計算牛頓插值多項式利用所得多項式計算所需插入缺失部分的值在數據預處理時，異常值是否剔除，需視具體情況而定，因為有些異常值可能蘊含著有用的信息。異常值處理常用方法如下：異常值處理異常值處理方法方法描述刪除含有異常值的記錄直接將含有異常值的記錄刪除視為缺失值將異常值視為缺失值，利用缺失值處理的方法進行處理平均值修正可用前后兩個觀測值的平均值修正該異常值不處理直接在具有異常值的數據集上進行分析建模1數據變換目錄數據清洗2數據合并3簡單函數變換是對原始數據進行某些數學函數變換，常用的包括平方、開方、取對數、差分運算等。平方：開方：取對數：差分運算：簡單函數變換最小-最大標準化也稱為離差標準化，是對原始數據的線性變換，將數值映射到[0,1]之間。其中，max為樣本數據的最大值，min為樣本數據的最小值。max-min為極差。數據標準化最小-最大標準化零-均值標準化也叫標準差標準化，經過處理的數據的均值為0，標準差為1。其中為原始數據的均值，為原始數據的標準差，零-均值標準化是當前用得最多的數據標準化方法。數據標準化零-均值標準化通過移動屬性值的小數位數，將屬性值映射到[-1,1]之間，移動的小數位數取決于屬性值絕對值的最大值。其中k為屬性值中絕對值最大的數值的位數。數據標準化小數定標標準化數據離散化離散化的過程：確定分類數設定離散劃分點用不同符號代表落在每個子區間的數據值數據離散化常用的離散化方法：

首先將連續屬性的值用聚類算法進行聚類，然后再將聚類得到的簇進行處理，合并到一個簇的連續屬性值做同一標記

等寬法將屬性的值域分成具有相同寬度的區間，區間的個數由數據本身的特點決定或由用戶指定等寬法等頻法將相同數量的記錄放進每個區間等頻法聚類獨熱編碼即One-Hot編碼，又稱一位有效編碼，是處理類型數據較好的方法，主要是使用N位狀態寄存器來對N個狀態進行編碼，每個狀態都有它獨立的寄存器位，并且在任意時候都只有一個編碼位有效。獨熱編碼有以下優點：將離散型屬性的取值擴展到歐氏空間，離散型屬性的某個取值就對應歐氏空間的某個點。對離散型屬性使用獨熱編碼，可以讓屬性之間的距離計算更為合理。獨熱編碼在Python中使用scikit-learn庫中preprocessing模塊的OneHotEncoder函數進行獨熱編碼，該函數的基本使用格式如下：classsklearn.preprocessing.OneHotEncoder(n_values=‘auto’,categorical_features=‘all’,dtype=<class‘numpy.float64’>,sparse=True,handle_unknown=’error’)獨熱編碼參數名稱參數說明n_values接收int或arrayofints。表示每個功能的值數。默認為autocategorical_features接收all或arrayofindices或mask。表示將哪些功能視為分類功能。默認為allspares接收boolean。表示返回是稀疏矩陣還是數組。默認為Truehandle_unknown接收str。表示在轉換過程中引發錯誤還是忽略是否存在未知的分類特征。默認為error1數據變換目錄數據清洗2數據合并3多表合并堆疊合并數據橫向堆疊多表合并堆疊合并數據縱向堆疊pandas.concat(objs,axis=0,join='outer',join_axes=None,ignore_index=False,keys=None,levels=None,names=None,verify_integrity=False,copy=True)多表合并使用pandas庫的concat函數可以實現橫向堆疊和縱向堆疊，concat函數的基本使用格式和常用參數說明如下：參數名稱參數說明objs接收多個Series、DataFrame、Panel的組合。表示參與連接的pandas對象的列表的組合。無默認值axis接收0或1。表示連接的軸向，默認為0join接收inner或outer。表示其他軸向上的索引是按交集（inner）還是并集（outer）進行合并。默認為outerpandas.DataFrame.append(other,ignore_index=False,verify_integrity=False)多表合并除了concat函數之外，pandas庫的append()方法也可以用于縱向合并兩張表，append()方法的基本使用格式和常用參數說明如下：參數名稱參數說明other接收DataFrame或Series。表示要添加的新數據。無默認值ignore_index接收bool。如果輸入True，就會對新生成的DataFrame使用新的索引（自動產生），而忽略原來數據的索引。默認為Falseverify_integrity接收bool。如果輸入True，那么當ignore_index為False時，會檢查添加的數據索引是否沖突，如果沖突，那么會添加失敗。默認為False主鍵合并，即通過一個或多個鍵將兩個數據集的行連接起來。多表合并主鍵合并數據pandas庫中的merge函數和join()方法都可以實現主鍵合并，但兩者的實現方式并不相同。merge函數的基本使用格式和常用參數說明如下：pandas.merge(left,right,how='inner',on=None,left_on=None,right_on=None,left_index=False,right_index=False,sort=False,suffixes=('_x','_y'),copy=True,indicator=False)多表合并參數名稱參數說明left接收DataFrame或Series。表示要添加的新數據1。無默認值right接收DataFrame或Series。表示要添加的新數據2。無默認值how接收inner、outer、left、right。表示數據的連接方式。默認為inneron接收str或sequence。表示兩個數據合并的主鍵（必須一致）。默認為Noneleft_on接收str或sequence。表示left參數接收數據用于合并的主鍵。默認為Noneright_on接收str或sequence。表示right參數接收數據用于合并的主鍵。默認為Nonesort接收bool。表示是否根據連接鍵對合并后的數據進行排序。默認為False除了使用merge函數以外，join()方法也可以實現部分主鍵合并的功能。但是使用join()方法時，兩個主鍵的名字必須相同，join函數的基本使用格式和常用參數說明如下：pandas.DataFrame.join(other,on=None,how='left',lsuffix='',rsuffix='',sort=False)多表合并參數名稱參數說明other接收DataFrame、Series或包含了多個DataFrame的list。表示參與連接的其他DataFrame。無默認值on接收列名或包含列名的list或tuple。表示用于連接的列名。默認為Nonehow接收特定str。取值為“inner”時代表內連接；取值為“outer”時代表外連接；取值為“left”時代表左連接；取值為“right”時代表右連接。默認為“inner”lsuffix接收str。表示用于追加到左側重疊列名的尾綴。無默認值rsuffix接收str。表示用于追加到右側重疊列名的尾綴。無默認值sort接收bool。表示根據連接鍵對合并后的數據進行排序。默認為False多表合并重疊合并數據數據分析和處理過程中偶爾會出現兩份數據的內容幾乎一致的情況，但是某些屬性在其中一張表上是完整的，而在另外一張表上的數據則是缺失的。這時除了使用將數據一對一比較，然后進行填充的方法外，還有一種方法就是重疊合并。分組是使用特定的條件將元數據進行劃分為多個組。聚合是對每個分組中的數據執行某些操作，最后將計算結果進行整合。分組聚合groupby()方法提供的是分組聚合步驟中的拆分功能，能夠根據索引或字段對數據進行分組。其基本使用格式和常用參數說明如下：pandas.DataFrame.groupby(by=None,axis=0,level=None,as_index=True,sort=True,group_keys=True,squeeze=False,**kwargs)分組聚合使用groupby()方法拆分數據參數名稱參數說明by接收list、str、mapping或generator。用于確定進行分組的依據。如果傳入的是一個函數，那么對索引進行計算并分組；如果傳入的是一個字典或Series，那么字典或Series的值用來作為分組依據；如果傳入一個NumPy數組，那么數據的元素作為分組依據；如果傳入的是字符串或字符串列表，那么使用這些字符串所代表的字段作為分組依據。無默認值axis接收int。表示操作的軸向，默認對列進行操作。默認為0level接收int或索引名。表示標簽所在級別。默認為Noneas_index接收bool。表示聚合后的聚合標簽是否以DataFrame索引形式輸出。默認為Truesort接收bool。表示是否對分組依據、分組標簽進行排序。默認為Trueagg()方法和aggregate()方法都支持對每個分組應用某函數，包括Python內置函數或自定義函數。針對DataFrame的agg()方法與aggregate()方法的基本使用格式和常用參數說明如下：pandas.DataFrame.agg(func,axis=0,*args,**kwargs)pandas.DataFrame.aggregate(func,axis=0,*args,**kwargs)分組聚合使用agg()方法聚合數據參數名稱參數說明func接收list、dict、function。表示應用于每行或每列的函數。無默認值axis接收0或1。代表操作的軸向。默認為0apply()方法類似于agg()方法，能夠將函數應用于每一列。不同之處在于，與agg()方法相比，apply()方法傳入的函數只能夠作用于整個DataFrame或Series，而無法像agg()方法一樣能夠對不同字段應用不同函數來獲取不同結果。apply()方法的基本使用格式和常用參數說明如下：pandas.DataFrame.apply(func,axis=0,broadcast=False,raw=False,reduce=None,args=(),**kwds)分組聚合使用apply()方法聚合數據參數名稱參數說明func接收functions。表示應用于每行或每列的函數。無默認值axis接收0或1。表示操作的軸向。默認為0broadcast接收bool。表示是否進行廣播。默認為Falseraw接收bool。表示是否直接將ndarray對象傳遞給函數。默認為Falsereduce接收bool或None。表示返回值的格式。默認為Nonetransform()方法能夠對整個DataFrame的所有元素進行操作。transform()方法只有一個參數“func”，表示對DataFrame操作的函數。以菜品詳情表為例，對銷量和售價使用pandas庫的transform()方法進行翻倍：detail[['counts','amounts']].transform(lambdax:x*2).head(4)分組聚合使用transform()方法聚合數據counts（菜品銷量）amounts（菜品售價）0258129022903298本章介紹了數據預處理的數據清洗、數據變換和數據合并3個主要任務。數據清洗主要介紹了對重復值、缺失值和異常值的處理。數據變換介紹了如何從不同的應用角度對已有屬性進行簡單的函數變換、數據標準化、數據離散化和獨熱編碼。數據合并主要介紹了多表合并和分組聚合。小結

第5章數據挖掘算法基礎第5章數據挖掘算法基礎1聚類目錄分類與回歸2關聯規則3智能推薦4時間序列5分類算法構造一個分類模型，模型的輸入為樣本的屬性值，輸出為對應的類別，將每個樣本映射到預先定義好的類別。回歸算法則是建立兩種或兩種以上變量間相互依賴的函數模型，然后使用函數模型預測目標的值。常用的分類算法與回歸算法常用的分類與回歸算法：常用的分類算法與回歸算法算法名稱算法描述回歸分析回歸分析是確定預測屬性（數值型）與其他變量間相互依賴的定量關系最常用的統計學方法。包括線性回歸、非線性回歸、Logistic回歸、嶺回歸、主成分回歸、偏最小二乘回歸等模型決策樹決策樹采用自頂向下的遞歸方式，在內部結點進行屬性值的比較，并根據不同的屬性值從該結點向下分支，最終得到的葉結點是學習劃分的類最近鄰分類最近鄰分類是一種典型的“懶惰學習”算法，基于指定的距離度量，找出測試樣本的最近鄰，并基于投票法對測試樣本進行分類支持向量機支持向量機的基本思想是在樣本空間或特征空間中，構造出最優超平面，使得超平面與不同類樣本集之間的距離最大，從而達到最大化泛化能力的目的。人工神經網絡人工神經網絡是一種模仿大腦神經網絡結構和功能而建立的信息處理系統，表示神經網絡的輸入與輸出變量之間關系的模型集成學習集成算法使用多種算法的組合進行預測，比單一分類器具有更高的準確率和魯棒性，通常分為Bagging（聚合）、Boosting（提升）和Stacking（堆疊）三種模式對于分類模型的評價，常用的模型評價指標包括了準確率、精確率、反饋率、混淆矩陣和ROC曲線等。分類與回歸的模型評價分類模型的評價指標準確率準確率（Accuracy）是指預測正確的結果所占總樣本的百分比：錯誤率

錯誤率（Fallibility）是指預測錯誤的結果所占總樣本的百分比：分類與回歸的模型評價精確率精確率（Precision）是指所有被預測為正的樣本中實際為正的樣本的概率：反饋率反饋率（Recall）是指實際為正樣本預測為正樣本占實際為正樣本的總數概率：分類與回歸的模型評價分類與回歸的模型評價ROC曲線接收者操作特征曲線（ReceiverOperatingCharacteristiccurve，ROC曲線）是一種非常有效的模型評價方法，可為選定臨界值給出定量提示。對于回歸模型，常用的模型評價指標包括了絕對誤差與相對誤差、誤差分析中的綜合指標（平均絕對誤差、均方誤差、均方根誤差）、平均絕對百分誤差和Kappa統計量等。絕對誤差（AbsoluteError）：相對誤差（RelativeError）：平均絕對誤差（MeanAbsoluteError，MAE）：分類與回歸的模型評價回歸模型的評價指標均方誤差（MeanSquaredError，MSE）：均方根誤差：平均絕對百分誤差：分類與回歸的模型評價Kappa統計Kappa統計是比較兩個或多個觀測者對同一事物，或觀測者對同一事物的兩次或多次觀測結果是否一致，將由隨機造成的一致性和實際觀測的一致性之間的差別大小作為評價基礎的統計指標。Kappa取值在區間[-1,1]內，其值的大小均有不同意義，具體如下：當Kappa=1時，說明兩次判斷的結果完全一致。當Kappa=-1時，說明兩次判斷的結果完全不一致。當Kappa=0時，說明兩次判斷的結果是隨機造成。當Kappa<0時，說明一致程度比隨機造成的還差，兩次檢查結果很不一致，在實際應用中無意義。當Kappa>0時，說明有意義，Kappa愈大，說明一致性愈好。當

時，說明已經取得相當滿意的一致程度。當Kappa<0.4時，說明一致程度不夠。分類與回歸的模型評價對于由d個屬性組成的樣本集，其中是

在第

個屬性上的取值，線性模型即通過學習得到一個屬性的線性組合來預測樣本標簽的函數：

其中，表示回歸系數的集合，其中回歸系數表示屬性在預測目標變量時的重要性，b為常數。線性模型線性回歸模型使用scikit-learn庫中linear_model模塊的LinearRegression類可以建立線性回歸模型，其基本使用格式和常用參數描述如下：classsklearn.linear_model.LinearRegression(fit_intercept=True,normalize=False,copy_X=True,n_jobs=1)線性模型參數名稱說明fit_intercept接收bool。表示是否有截據，若沒有則直線過原點。默認為Truenormalize接收bool，表示是否將數據歸一化，默認為Falsecopy_X接收bool，表示是否復制數據表進行運算，默認為Truen_jobs接收int，表示計算時使用的核數，默認為1

邏輯回歸是一種廣義的線性回歸模型，但實際是邏輯回歸是一個分類算法。具體的分類方法：設定一個分類閾值，將預測結果大于分類閾值的樣本歸為正類，反之歸為反類。其中，的取值范圍是，與線性模型中的一致。線性模型邏輯回歸模型邏輯回歸模型的建模步驟：線性模型使用scikit-learn庫中linear_model模塊的LogisticRegression類可以建立邏輯回歸模型，其語法格式和常用參數描述如下：classsklearn.linear_model.LogisticRegression(penalty='l2',class_weight=None,random_state=None,solver='liblinear',max_iter=100)線性模型參數名稱說明penalty接收str。表示正則化選擇參數，可選l1或l2。默認為l2solver接收str。表示優化算法選擇參數，可選參數為newton-cg,lbfg,liblinear,sag，當penalty='l2'時，4種都可選；當penalty='l1'時，只能選liblinear。默認為liblinearclass_weight接收balanced以及字典，表示類型權重參數，如對于因變量取值為0或1的二元模型，可以定義class_weight={0:0.9,1:0.1}，這樣類型0的權重為90%，而類型1的權重為10%。默認為None決策樹是一樹狀結構，它的每一個葉節點對應著一個分類，非葉節點對應著在某個屬性上的劃分，根據樣本在該屬性上的不同取值將其劃分成若干個子集。對于非純的葉節點，多數類的標號給出到達這個節點的樣本所屬的類。決策樹根部節點(rootnode)中間節點(non-leafnode)分支(branches)葉節點(leafnode）決策樹問題：對于給定樣本集，如何判斷應該先選擇在哪個屬性上進行拆分？理想情況：在拆分過程中，當葉節點只擁有單一類別時，將不必繼續拆分。目標是尋找較小的樹，希望遞歸過程盡早停止較小的樹意味著什么？當前最好的拆分屬性產生的拆分中目標類的分布應該盡可能地單一（單純），多數類占優。決策樹算法通常按照純度的增加來選擇拆分屬性。用于評價拆分分類目標變量的純度度量包括：熵(entropy，信息量)信息增益(Gain)信息增益率基尼(Gini，總體發散性)改變拆分準則（splittingcriteria）導致樹的外觀互不相同。決策樹純度的度量常用的決策樹算法：決策樹決策樹算法算法描述ID3算法其核心是在決策樹的各級節點上，使用信息增益方法作為屬性的選擇標準，來幫助確定生成每個節點時所應采用的合適屬性C4.5算法C4.5決策樹生成算法相對于ID3算法的重要改進是使用信息增益率來選擇節點屬性。C4.5算法可以克服ID3算法存在的不足：ID3算法只適用于離散的描述屬性，而C4.5算法既能夠處理離散的描述屬性，也可以處理連續的描述屬性CART算法CART決策樹是一種十分有效的非參數分類和回歸方法，通過構建樹、修剪樹、評估樹來構建一個二叉樹。當終結點是連續變量時，該樹為回歸樹；當終結點是分類變量，該樹為分類樹SLIQ算法SLIQ算法對C4.5決策樹分類算法的實現方法進行了改進，使得其能處理比C4.5大得多的訓練集，在一定范圍內具有良好的可伸縮性決策樹天氣情況對是否打高爾夫球的影響日期天氣溫度(華氏度)濕度起風打球?1晴8585FNo2晴8090TNo3陰8378FYes4雨7096FYes5雨6880FYes6雨6570TNo7陰6465TYes8晴7295FNo9晴6970FYes10雨7580FYes11晴7570TYes12陰7290TYes13陰8175FYes14雨7180TNo15陰8590F？16雨8079F？17晴7870T？ID3算法簡介及其原理決策樹天氣Yes濕度風YesNoNoYes晴陰雨>75<=75是否日期天氣溫度(華氏度)濕度起風打球?1Sunny8585FNo2Sunny8090TNo3Overcast8378FYes4Rainy7096FYes5Rainy6880FYes6Rainy6570TNo7Overcast6465TYes8Sunny7295FNo9Sunny6970FYes10Rainy7580FYes11Sunny7570TYes12Overcast7290TYes13Overcast8175FYes14Rainy7180TNo如果數據集D中共有N類樣本，出現的概率分別為，則D的信息熵為：打球問題的信息熵為：決策樹日期天氣溫度(華氏度)濕度起風打球?1晴8585FNo2晴8090TNo3陰8378FYes4雨7096FYes5雨6880FYes6雨6570TNo7陰6465TYes8晴7295FNo9晴6970FYes10雨7580FYes11晴7570TYes12陰7290TYes13陰8175FYes14雨7180TNo15陰8590F？16雨8079F？17晴7870T？天氣屬性的信息增益晴：打球記錄2條，不打球記錄為3條陰：打球記錄4條，不打球記錄0條雨：打球記錄3條，不打球記錄2條某屬性a的信息增益為：決策樹日期天氣溫度(華氏度)濕度起風打球?1晴8585FNo2晴8090TNo3陰8378FYes4雨7096FYes5雨6880FYes6雨6570TNo7陰6465TYes8晴7295FNo9晴6970FYes10雨7580FYes11晴7570TYes12陰7290TYes13陰8175FYes14雨7180TNo15陰8590F？16雨8079F？17晴7870T？決策樹ID3算法具體流程對當前樣本集合，計算所有屬性的信息增益選擇信息增益最大的屬性作為測試屬性，將測試屬性中取值相同的樣本劃為同一個子樣本集若子樣本集的類別屬性只含有單個類別，則分支為葉子節點，判斷其屬性值并標上相應的符號，然后返回調用處；否則對子樣本集遞歸調用本算法使用scikit-learn庫中tree模塊的DecisionTreeClassifier類可以建立決策樹模型，其語法格式和常用參數描述如下：classsklearn.tree.DecisionTreeClassifier(*,criterion='gini',

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

Python數據分析與挖掘實戰PPT完整全套教學課件

文檔簡介

溫馨提示

最新文檔

評論

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

Python數據分析與挖掘實戰PPT完整全套教學課件

文檔簡介

溫馨提示

最新文檔

評論

相關文檔