實驗3 數據預處理_第1頁
實驗3 數據預處理_第2頁
實驗3 數據預處理_第3頁
實驗3 數據預處理_第4頁
實驗3 數據預處理_第5頁
已閱讀5頁,還剩31頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

實驗3數據預處理信息管理學院2023/2/2江西財經大學信息管理學院數據挖掘課程組1去除無用屬性通常對于數據挖掘任務來說,像ID這樣的信息是無用的,可以將之刪除。選中屬性,點擊“Remove”。將新的數據集保存,并重新打開。2023/2/2江西財經大學信息管理學院數據挖掘課程組2數據預處理preprocess——過濾器在WEKA中數據預處理工具稱作過濾器,也稱為篩選器(filters)。所有的過濾器都是將輸入數據集進行某種程度的轉換,轉換為適合數據挖掘的形式。選擇某個過濾器之后,過濾器的名字及默認參數會出現在Choose按鈕旁的輸入框內,通過單擊該框可以在通用對象編輯器中設置其屬性。過濾器以及參數都會以命令行的方式顯現在輸入框,仔細觀察和研究這些過濾器和參數設置,是學習如何直接使用Weka命令的好方法。Weka將無監督和有監督兩種過濾方法分開處理,每種類型又細分為屬性過濾器和實例過濾器。使用有監督的過濾器時,如果將訓練得到的良好間隔施加到測試集中,可能會使結果出現偏倚,必須非常小心,以確保評估結果的公平性。然而,由于無須經過訓練,無監督過濾器就不會出現這個問題。預處理使用較多的是無監督的過濾器。在Filter標簽之下有一個Choose(選擇)按鈕,點擊該按鈕可以選擇一個過濾器,如下圖所示。按鈕的右側是過濾器輸入框,用于設置所選擇的過濾器的參數。一旦選定過濾器后,其名稱和參數都會顯示在過濾器輸入框內。在框內單擊鼠標左鍵會彈出一個通用對象編輯器對話框一旦選擇并配置一個過濾器后,就可以將其應用到數據集。點擊位于預處理面板中Filter子面板右端的Apply按鈕,預處理面板會顯示轉換后的數據信息。如果對結果不滿意,可以點擊Undo按鈕撤消轉換,還可以點擊“Edit...”按鈕在數據集編輯器里手動修改數據。如果滿意修改后的結果,可以點擊預處理面板右上角的“Save...”按鈕,將當前關系以文件格式進行保存,以供將來使用。一旦選定過濾器后,其名稱和參數都會顯示在過濾器輸入框內。在框內單擊鼠標左鍵會彈出一個通用對象編輯器對話框一旦選擇并配置一個過濾器后,就可以將其應用到數據集。點擊位于預處理面板中Filter子面板右端的Apply按鈕,預處理面板會顯示轉換后的數據信息。如果對結果不滿意,可以點擊Undo按鈕撤消轉換,還可以點擊“Edit...”按鈕在數據集編輯器里手動修改數據。如果滿意修改后的結果,可以點擊預處理面板右上角的“Save...”按鈕,將當前關系以文件格式進行保存,以供將來使用。2023/2/2江西財經大學信息管理學院數據挖掘課程組8為數據庫添加一個新的屬性,新的屬性將會包含所有缺失值。可選參數:attributeIndex:屬性位置,從1開始算,last是最后一個,first是第一個attributeName:屬性名稱attributeType:屬性類型,一般是4選1dateFormat:數據格式,參考ISO-8601nominalLabels:標稱標簽,多個值用逗號隔開示例:Add2023/2/2江西財經大學信息管理學院數據挖掘課程組9ADD添加一個新屬性2023/2/2江西財經大學信息管理學院數據挖掘課程組10ADD添加一個新屬性注意:這里修改的內存中的文件,可用Undo撤銷,要想修改外存中保存的文件,則必須點Save保存或另存為。2023/2/2江西財經大學信息管理學院數據挖掘課程組11AddUserFields添加屬性(可添加多個)2023/2/2江西財經大學信息管理學院數據挖掘課程組12AddValues2023/2/2江西財經大學信息管理學院數據挖掘課程組13通過Edit為新添加的屬性賦值2023/2/2江西財經大學信息管理學院數據挖掘課程組14AddID2023/2/2江西財經大學信息管理學院數據挖掘課程組15Remove在區域5選中屬性,然后點擊下面的Remove按鈕。2023/2/2江西財經大學信息管理學院數據挖掘課程組16Reorder數據離散化有些算法(如關聯分析),只能處理標稱型屬性,這時候就需要對數值型的屬性進行離散化。對取值有限的數值型屬性可通過修改.arff文件中該屬性數據類型實現離散化。例如,在某數據集中的“children”屬性只有4個數值型取值:0,1,2,3。我們直接修改ARFF文件,把

@attributechildrennumeric

改為

@attributechildren{0,1,2,3}

就可以了。在“Explorer”中重新打開“bank-data.arff”,看看選中“children”屬性后,區域6那里顯示的“Type”變成“Nominal”了。2023/2/2江西財經大學信息管理學院數據挖掘課程組17數據離散化對取值較多的數值型屬性,離散化可借助WEKA中名為“Discretize”的Filter來完成。在區域2中點“Choose”,出現一棵“Filter樹”,逐級找到“weka.filters.unsupervised.attribute.Discretize”,點擊。現在“Choose”旁邊的文本框應該顯示“Discretize-B10-M-0.1-Rfirst-last”。點擊這個文本框會彈出新窗口以修改離散化的參數。2023/2/2江西財經大學信息管理學院數據挖掘課程組18數據離散化(1)attributeIndices:屬性下標。選擇要離散化的屬性,將其下標號以逗號隔開;(2)bins:決定將數據離散化為幾段;(3)desiredweightofinstancesperinterval:對等頻離散化來說每個間隔所需的實例權重(個數);(4)findNumBins:如果設置為True,則對于等距離離散化找到最優的段數,對等頻離散化無作用;(5)ignoreClass:如果設置為True,則過濾器使用之前,沒有設置class屬性;(6)InvertSelection:集屬性選擇模式。如果設置為False,只有選擇(數字)范圍內的屬性將被離散的,否則只有非選定的屬性將被離散;(6)MakeBinary:如果設置為True,則變為二進制;(7)UseEqualFrequency:等頻離散化,如果設置為true,則使用等頻離散化,否則使用等距離離散化。2023/2/2江西財經大學信息管理學院數據挖掘課程組19標準化、歸一化weka.filters.unsupervised.attribute.Normalize2023/2/2江西財經大學信息管理學院數據挖掘課程組202023/2/2江西財經大學信息管理學院數據挖掘課程組21Normalize(weather.numeric.arff)2023/2/2江西財經大學信息管理學院數據挖掘課程組22Normalize結果2023/2/2江西財經大學信息管理學院數據挖掘課程組23MakeIndicator標稱屬性轉換為二元屬性2023/2/2江西財經大學信息管理學院數據挖掘課程組24Add:添加屬性AddID:插入一個數字序號標識符屬性,標識符主要是便于跟蹤。Remove:刪除屬性AddExpression:過濾器通過將一個數學函數應用于數值型屬性而生成一個新的屬性,支持運算符如下:+,-,*,/,pow,log,abs,cos,exp,sqrt,tan,sin,ceil,floor,rint,(,),A,MEAN,MAX,MIN,SD,COUNT,SUM,SUMSQUARED,ifelse。MathExpression:類似于AddExpression,支持的運算更多。AddCluster:先將一種聚類算法應用于數據,然后進行過濾。用戶通過編輯器選擇聚類算法。無監督屬性過濾器:添加和刪除屬性2023/2/2江西財經大學信息管理學院數據挖掘課程組25Reorder:重新排列屬性,輸入2-last,1可以讓第一項排到最后,如果輸入1,3,5的話…其他項就沒有了。InterquartileRange:過濾器添加新屬性,以指示實例的值是否可以視為離群值或者極端值。無監督屬性過濾器:重新排序2023/2/2江西財經大學信息管理學院數據挖掘課程組26SwapValue:交換同一個標稱屬性的兩個值的位置。MergeTwoValues:將一個標稱屬性的兩個值合并為一個單獨的類別,新的名稱是兩個原有值的字符串的鏈接。ReplaceMissingValues:替代缺失值。NumbericCleaner:使用默認的值取代數值屬性中值太大、太小或者接近于某一個特定值。無監督屬性過濾器:改變值2023/2/2江西財經大學信息管理學院數據挖掘課程組27MakeIndicator:將標稱屬性轉換為二元指示符屬性,將用于多個數據集轉換為多個類別的數據集。StringToNominal:用一組值將其轉換為標稱型。ChangeDateFormat:更改用于解析日期屬性的格式化字符串,可以指定Java的SimpleDateFormat類支持的所有類型的格式。無監督屬性過濾器:轉換2023/2/2江西財經大學信息管理學院數據挖掘課程組28Center:將數值化屬性的平均化為0。Standardize:這個和Center功能大致相同,多了一個標準化單位變異數。Normalize:規范化整個實例集。無監督屬性過濾器:規范化2023/2/2江西財經大學信息管理學院數據挖掘課程組29Discretize:簡單劃分的離散化處理。參數:attributeIndices:屬性范圍,如1-5,first-lastbins:桶的數量無監督屬性過濾器:離散化2023/2/2江西財經大學信息管理學院數據挖掘課程組30Resample:隨機抽樣,從現有樣本產生新的小樣本Randomize:用于將數據中實例進行隨機重排。RemovePercentage:刪除數據集中給定百分比的實例。RemoveFrequentValues:刪除滿足某個標稱型屬性值最經常或者最不經常使用的對應的實例。SubsetByExpression:滿足用戶提供的表達式的所有實例。無監督實例過濾器:采樣2023/2/2江西財經大學信息管理學院數據挖掘課程組31NonSparseToSparse:全部輸入實例轉換為稀疏格式。SparseToNonSparse:將稀疏格式的實例轉換為非稀疏格式。無監督實例過濾器:稀疏矩陣有監督屬性過濾器:離散化weka.filters.supervised.attribute.DiscretizeDiscretizationisbyFayyad&Irani'sMDLmethod(thedefault)Or

UseKononenko'sMDLcriterion.2023/2/2江西財經大學信息管理學院數據挖掘課程組32UsamaM.Fayyad,KekiB.Irani:Multi-intervaldiscretizationofcontinuousvaluedattributesforclassificationlearning.In:ThirteenthInternationalJointConferenceonArticialIntelligence,1022-1027,1993.IgorKononenko:OnBiasesinEstimatingMulti-ValuedAttributes.In:14thInternationalJointConferenceonArticialIntelligence,1034-1040,1995.相關性分析Excel卡方檢驗Pearson相關系數2023/2/2江西財經大學信息管理學院數據挖掘課程組33CHITEST用于從分類變量資料直接求得相應的頻率分布,即我們所追求的P值,已經包含了分類變量資料的頻數和自由度(degreesoffreedom,簡稱df,等于(r-1)(c-1)),所以可以直接判定檢驗假設是否成立。CHIINV則是一個逆運算,其作用是從頻率分布反求相應的χ2值,所以除了頻率分布參數外,必須使用自由度參數df。CHIDEST與CHITEST則有異曲同工之妙,所不同的是它是由統計量χ2值求取頻率分布,所以也要用到自由度2023/2/2江西財經大學信息管理學院數據挖掘課程組34實驗任務

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論