




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據挖掘基礎教程數據挖掘基礎教程頁腳內容PAGE頁腳內容PAGE14數據挖掘基礎教程頁腳內容PAGE項目1:基于sklearn的數據分類挖掘一、項目任務①熟悉sklearn數據挖掘的基本功能。②進行用樸素貝葉斯、KNN、決策樹C4.5、SVM算法進行數據分類分析。二、項目環境及條件sklearn-0.18.0python-2.7.13numpy-1.11.3+mkl-cp27-cp27m-win_amd64scipy-0.19.0-cp27-cp27m-win_amd64matplotlib-1.5.3-cp27-cp27m-win_amd64三、實驗數據Iris數據集Iris數據集是常用的分類實驗數據集,由Fisher,1936收集整理。Iris也稱鳶尾花卉數據集,是一類多重變量分析的數據集。數據集包含150個數據集,分為3類,每類50個數據,每個數據包含4個屬性??赏ㄟ^花萼長度,花萼寬度,花瓣長度,花瓣寬度4個屬性預測鳶尾花卉屬于(Setosa,Versicolour,Virginica)三個種類中的哪一類。Digits數據集美國著名數據集NIST的子集,模式識別常用實驗數據集,圖像屬于灰度圖像。分辨率為8x8
四、項目內容及過程1.讀取數據集從sklearn中讀取iris和digits數據集并測試打印fromsklearnimportdatasetsiris=datasets.load_iris()digits=datasets.load_digits()print'iris:',iris.data,'\ndigits:',digits.data打印的數據集存在numpy.ndarray中,ndarray會自動省略較長矩陣的中間部分。Iris數據集的樣本數據為其花瓣的各項屬性Digits數據集的樣本數據為手寫數字圖像的像素值2.劃分數據集引入sklearn的model_selection使用train_test_split劃分digits數據集,訓練集和測試集比例為8:2fromsklearn.model_selectionimporttrain_test_splitx_train,x_test,y_train,y_test=train_test_split(digits.data,digits.target,test_size=0.2)print'x_train:',x_train,'\nx_test:',x_test,'\ny_train:',y_train,'\ny_test:',y_test3.使用KNN和SVM對digits測試集分類引用sklearn的svm.SVC和neighbors.KNeighborsClassifier模塊調用算法,使用classification_report查看預測結果的準確率和召回率fromsklearn.metricsimportclassification_reportfromsklearnimportneighborsclf=neighbors.KNeighborsClassifier()clf.fit(x_train,y_train)y_pred=clf.predict(x_test)printclassification_report(y_test,y_pred)fromsklearn.svmimportSVCclf=SVC()clf.fit(x_train,y_train)y_pred=clf.predict(x_test)printclassification_report(y_test,y_pred)KNN的預測結果:所有數字的預測正確率幾乎達到了100%SVM的預測結果:對部分數字的預測誤差較大,基本情況不如KNN考慮SVM分類器的特性,在分類前對特征值進行標準化后再分類:fromsklearnimportpreprocessingmin_max_scaler=preprocessing.MinMaxScaler()x_train=min_max_scaler.fit_transform(x_train)x_test=min_max_scaler.fit_transform(x_test)標準化數據后SVM的預測結果達到了KNN的準度:4.使用貝葉斯和決策樹對iris數據集分類fromsklearn.model_selectionimporttrain_test_splitx_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target,test_size=0.4)fromsklearn.metricsimportclassification_reportfromsklearnimportnaive_bayesclf=naive_bayes.GaussianNB()clf.fit(x_train,y_train)y_pred=clf.predict(x_test)printclassification_report(y_test,y_pred)fromsklearnimporttreeclf=tree.DecisionTreeClassifier()clf.fit(x_train,y_train)y_pred=clf.predict(x_test)printclassification_report(y_test,y_pred)決策樹和貝葉斯都有較好的分類效果五、實驗結果分析為什么用svm和knn處理digits數據集,用tree和bayes處理iris數據集,這是一個經驗問題。我們都知道digits數據集的每一個特征就是像素點的像素值,他們的維度都是在0~255以內;像素點之間的維度完全一致,互相沒有優先級。這種情況下使用線性分類器如KNN、SVM、Logistic會有更好的效果。而iris數據集雖然長度和寬度維度差不多相同,但是兩者之間有優先級的區分,按照人腦分類的思維方式可能是先按照長度判斷再按照寬度等思維方式,很接近決策樹的算法原理,貝葉斯同樣。所以概率性分類器有更好的效果。實際情況也是使用SVM預測iris的結果和Bayes預測digits的結果不甚理想(雖然也有很高的準度了)。當然,通過調整分類器的參數,能使各個分類器的預測結果都達到滿意結果,綜合表現還是KNN更搶眼,能在各種數據集面前都有出色表現,但KNN在訓練樣本數量達到一定程度后,有超高的計算復雜度。所以面對實際情況,選用什么分類器,如何調節參數都是值得深思的問題。項目2:基于sklearn的數據聚類挖掘一、實驗任務①熟悉sklearn數據挖掘平臺的基本功能。②用K-Means進行數據聚類分析。二、實驗環境及條件sklearn-0.18.0python-2.7.13matplotlib-1.5.3-cp27-cp27m-win_amd64numpy-1.11.3+mkl-cp27-cp27m-win_amd64scipy-0.19.0-cp27-cp27m-win_amd64三、實驗數據隨機產生的100個坐標點,范圍為[0,100]
四、實驗內容及過程1.隨機產生坐標值產生的隨機值在0-100,因為sklearn的k-means模塊要求輸入的坐標形式為[[x0,y0],…,[x…,y…],…,[xn,yn]],而實際產生的是[x0,…,xn]和[y0,…,yn],所以還需要對坐標進行一次轉換fromsklearn.clusterimportKMeansimportnumpyasnpimportmatplotlib.pyplotaspltimportrandomdefcreate_coordinate(): x,y=[],[] foriinrange(100): x.append(random.randint(0,100)) y.append(random.randint(0,100)) returnx,yx,y=create_coordinate()old_coordinate=[[x[i],y[i]]foriinrange(100)]coordinate=np.array(old_coordinate)printold_coordinate產生的隨機坐標值:
2.創建做圖函數使用k-means對坐標點分為3類,對0類標為紅色,1類標為綠色,2類標為藍色。并將三類坐標的中心點以‘*’表示在圖中defcreate_chart(x,y,label,center): x_0=[x[i]foriinrange(len(x))iflabel[i]==0] x_1=[x[i]foriinrange(len(x))iflabel[i]==1] x_2=[x[i]foriinrange(len(x))iflabel[i]==2] y_0=[y[i]foriinrange(len(y))iflabel[i]==0] y_1=[y[i]foriinrange(len(y))iflabel[i]==1] y_2=[y[i]foriinrange(len(y))iflabel[i]==2] plt.scatter(x_0,y_0,c='r') plt.scatter(x_1,y_1,c='g') plt.scatter(x_2,y_2,c='b') plt.scatter([i[0]foriincenter],[i[1]foriincenter],c='m',s=600,marker='*') plt.grid() plt.show()3.使用k-means聚類并預測新增點的類別kmeans=KMeans(n_clusters=3,random_state=0).fit(coordinate)printkmeans.predict([[0,0],[50,50],[100,100]])create_chart(x,y,kmeans.labels_,kmeans.cluster_centers_)對新點的預測:221點的聚類情況:五、實驗結果分析這次試驗,使用sklearn的k-means對100個坐標點聚類。K-means因為其本身算法的原因,點數越多聚類速度越慢。所以在20個點和100個點的聚類時間上有很大差距。聚類問題不同于分類問題,沒有明確的預測和分類結果,聚類時對數據的邊界可能會各不相同,聚類問題在用戶畫像/個性化推薦等應用上有較好地發揮。
實驗3:在Python程序中引用sklearn一、實驗任務①用Python開發一個綜合部分挖掘算法的演示程序,核心算法來自sklearn類庫。②演示程序界面友好。二、實驗環境及條件sklearn-0.18.0python-2.7.13matplotlib-1.5.3-cp27-cp27m-win_amd64numpy-1.11.3+mkl-cp27-cp27m-win_amd64scipy-0.19.0-cp27-cp27m-win_amd64PyQt4三、實驗數據Iris數據集Iris數據集是常用的分類實驗數據集,由Fisher,1936收集整理。Iris也稱鳶尾花卉數據集,是一類多重變量分析的數據集。數據集包含150個數據集,分為3類,每類50個數據,每個數據包含4個屬性。可通過花萼長度,花萼寬度,花瓣長度,花瓣寬度4個屬性預測鳶尾花卉屬于(Setosa,Versicolour,Virginica)三個種類中的哪一類。Digits數據集美國著名數據集NIST的子集,模式識別常用實驗數據集,圖像屬于灰度圖像。分辨率為8x8
四、實驗內容及過程使用PyQt4創建windows窗體,并提供可選擇的分類方式:SVM——支持向量機算法KNN——K鄰近算法Bayes——樸素貝葉斯算法Tree——C4.5決策樹算法Logistic——Logistic回歸算法可選擇的歸一化方式:Standard-標準歸一化MaxAndMin-最大最小歸一化可選擇的驗證比例可選范圍——(0,1)可調節的分類器參數根據具體分類器設置參數部分代碼確認按鈕響應事件 defOKPushButton_OnClick(self): data_name=self.data_comboBox.currentText() classify_name=self.classify_comboBox.currentText() normalization_name=self.normalization_comboBox.currentText() parameter_string=self.parameter_text.toPlainText() validation_string=self.validation_text.text() y_test,y_pred=self.load_datasets_and_classify(data_name,classify_name,normalization_name,parameter_string,validation_string) fromsklearn.metricsimportclassification_report self.descTextEdit.setText(classification_report(y_test,y_pred))分類算法執行 defload_datasets_and_classify\(self,data_name,classify_name,normalization_name,parameter_string,validation_string): fromsklearnimportdatasets fromsklearn.model_selectionimporttrain_test_split rate=0.2 ifvalidation_string!='': try: rate=float(validation_string) except: self.alert_info(u"輸入的數值必須是0~1的浮點數") return ifdata_name=='iris': origin_data=datasets.load_iris() elifdata_name=='digits': origin_data=datasets.load_digits() else: self.alert_
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫院培訓課件:評估SOAP和目標制定SMART
- 青年航校培養協議書
- 倒閉廠設備轉讓協議書
- 食堂水果采購協議書
- 酒店股東住房協議書
- 高考師生努力協議書
- 道路花磚維修協議書
- 高速公路清掃協議書
- 連云港市投資協議書
- WPS便簽用戶協議書
- 2025至2030年中國智能學習機行業投資前景及策略咨詢研究報告
- (高清版)DG∕TJ 08-7-2021 建筑工程交通設計及停車庫(場)設置標準
- 無房無車離婚協議書
- 南師附中高三數學備忘錄及答案詳解
- 2025-2030年中國甲巰咪唑片行業市場現狀供需分析及投資評估規劃分析研究報告
- 2025年安徽國控資產管理有限公司第二季度社會招聘5人筆試參考題庫附帶答案詳解
- 2025中考語文7-9年級總復習古詩詞默寫
- 國家職業標準 4-11-01-01 供電服務員 (2025年版)
- 2024年湖北省中考地理生物試卷(含答案)
- 巴蜀文化(課堂PPT)課件
- 質量部組織架構
評論
0/150
提交評論