




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 第29卷第6期2008年12月華北水利水電學院學報Journal of North China I nstitute of W ater Conservancy and Hydr oelectric PowerVol 129No 16Dec . 2008文章編號:1002-5634(2008 06-0061-03數據挖掘中的數據預處理方法彭高輝, 王志良(華北水利水電學院, 河南摘要:從初始數據源出發, , 提出應把源數據的獲取作為數據預處理的一個步驟, , 提出了數據的循環預處理模式, , 保證了預測結果的質量, 為進一步研究挖掘提供了較好的參考模式.關鍵詞:數據挖掘; 數據預處理; 數據
2、分析中圖分類號:TP311文獻標識碼:A統計發現:在整個數據挖掘過程中, 數據預處理 要花費60%左右的時間, 而后的挖掘工作僅占總工1作量的10%左右. 對數據進行預處理, 不但可以節約大量的空間和時間, 而且得到的挖掘結果能更好地起到決策和預測作用.一般將數據預處理分為4個步驟. 筆者把對初始數據源的選擇作為數據預處理過程中的一個步驟, 即共分為5個步驟. 因為, 如果在數據獲得初期就有一定的指導, 則可以減少數據獲取的盲目性以及不必要的噪聲引入, 且為后期的工作節約大量的時間和空間. 整個預處理過程如圖1所示.數據源的質量引起的. 因此, 原始數據的獲取應從源頭盡量減少錯誤和誤差, 減少
3、人為誤差尤為重要. 首先應了解任務所涉及到的原始數據的屬性和數據結構及其代表的意義, 確定所需要的數據項和數據提取原則, 使用合適的手段和嚴格的操作規范來完成相關數據的獲取. 由于這一步驟涉及較多相關專業知識, 可以結合專家和用戶論證的方式盡量獲取有較高含金量(預測能力 的變量因子. 獲取過程中若涉及到多源數據的抽取, 由于運行的軟硬件平臺不同, 對這些異質異構數據庫要注意數據源的連接和數據格式的轉換. 若涉及到數據的保密, 則在處理時應多注意此類相關數據的操作, 對相關數據作備注說明以備查用.2數據清理數據清理是數據準備過程中最花費時間、最乏味的, 但也是最重要的一步. 該步驟可以有效地減少
4、學習過程中可能出現相互矛盾的情況. 初始獲得的數據主要有以下幾種情況需要處理.1. 含噪聲數據. 處理此類數據, 目前最廣泛的是應用數據平滑技術. 1999年, Pyle 系統歸納了利用數據平滑技術處理噪聲數據的方法, 主要有:分圖1數據預處理流程1初始數據源的獲取研究發現數據挖掘得到錯誤的結果, 多半是由收稿日期:2008-04-21基金項目:華北水利水電學院青年科研基金項目(HS QJ2005015 ; 河南省高校新世紀優秀人才支持計劃(2006HANCET -03 ;省社科聯調研項目(SK L -2008-1041 .作者簡介:彭高輝(1978 , 男, 河南新鄉人, 講師, 碩士, 主
5、要從事數據挖掘算法的設計及應用軟件開發方面的研究. 62華北水利水電學院學報2008年12月箱技術, 檢測周圍相應屬性值進行局部數據平滑; 聚類技術, 根據要求選擇模糊聚類分析或灰色聚類分析技術檢測孤立點數據, 并進行修正, 還可結合使用灰色數學或粗糙集等數學方法進行相應檢測; 利用回歸函數或時間序列分析的方法進行修正; 計算機和人工相結合的方式等.對此類數據, 尤其對于孤立點或異常數據, 是不可以隨便以刪除方式進行處理的. 如文獻2通過分析四川木里縣地區彎隆體中錳鐵鋁榴石帶在內核通化組不同層位中呈零星孤立點狀或不規則帶狀產出, 表明深部存在不規則熱隆, 推測出隱伏巖體的存在. 因此, 對于孤
6、立點應先進入數據庫, 何處理. 當然, , 可進行刪除處理.2. , 結合數據, 、更改或刪除或忽略. 同時也可結合模糊數學的隸屬函數尋找約束函數, 根據前一段歷史數據趨勢對當前數據進行修正.3. 缺失數據. 若數據屬于時間局部性缺失, 則可采用近階段數據的線性插值法進行補缺; 若時間段較長, 則應該采用該時間段的歷史數據恢復丟失數據; 若屬于數據的空間缺損, 則用其周圍數據點的信息來代替, 且對相關數據作備注說明, 以備查用; 使用一個全局常量或屬性的平均值填充空缺值; 使用回歸的方法或使用基于推導的貝葉斯方法或判定樹等來對數據的部分屬性進行修復; 忽略元組.4. 冗余數據. 包括屬性冗余和
7、屬性數據的冗余. 若通過因子分析或經驗等方法確信部分屬性的相關數據足以對信息進行挖掘和決策, 可通過用相關數學方法找出具有最大影響屬性因子的屬性數據即可, 其余屬性則可刪除. 若某屬性的部分數據足以反映該問題的信息, 則其余的可刪除. 若經過分析, 這部分冗余數據可能還有他用則先保留并作備注說明.和地理信息系統的相關功能對地學數據進行集成, 構建了相關概念模型, 并對地學數據集成過程中涉及到的問題進行了說明. 文獻5討論了在多種數據庫中如何處理屬性和元組的冗余并提出了較好的解決方法. 文獻6對地圖學中常見的3種類型數據的集成和檢索進行了詳細闡述. 可見此部分應更多地結合數據所涉及到的專業問題的
8、特點來分析, 需要特殊處理對策, . 3. 2”一詞(又稱信息. 1991年美. 但到, 數據融合尚未有一個統一的定義. 該文所講的融合僅限于數據層的數據融合, 即把數據融合的思想引入到數據預處理的過程中, 加入數據的智能化合成, 產生比單一信息源更準確、更完全、更可靠的數據進行估計和判斷, 然后存入到數據倉庫或數據挖掘模塊中. 常見的數據融合方法見表1.表1常見數據融合方法數據融合方法分類靜態的融合方法動態的融合方法基于統計的融合方法信息論算法模糊集理論/灰色理論具體方法貝葉斯估值, 加權最小平方等遞歸加權最小平方, 卡爾曼濾波、小波變換的分布式濾波等. 馬爾可夫隨機場、最大似然法、貝葉斯估
9、值等.聚集分析、自適應神經網絡、表決邏輯、信息熵等灰色關聯分析、灰色聚類等4數據變換數據變換是采用線性或非線性的數學變換方法將多維數據壓縮成較少維數的數據, 消除它們在時間、空間、屬性及精度等特征表現方面的差異. 這類方法雖然對原始數據都有一定的損害, 但其結果往往具有更大的實用性. 常見數據變換方法見表2.表2數據變換方法分類數據變換方法分類數據平滑數據聚集數據概化數據規范化屬性構造作用去噪, 將連續數據離散化, 增加粒度對數據進行匯總減少數據復雜度, 用高層概念替換使數據按比例縮放, 落入特定區域構造出新的屬性3數據集成和數據融合3. 1數據集成數據集成是將多個數據源中的數據(數據庫、數據
10、立方體或一般文件 結合起來存放到一個一致的數據存儲(如數據倉庫 中的一種技術和過程.由于不同學科方面的數據集成涉及到不同的理論依據和規則, 因此, 數據集成可以說是數據預處理中比較困難的一個步驟. 文獻3在重大自然災害集成項目中利用對多種地學數據及非地學數據的集成取得了較好的預測結果. 文獻4基于地學知識常用的規范化方法有最小最大規范化、Z score 規范化(零均值規范化 、小數定標規范化等. 文獻7提出了一個通用的數據變換維數消減 第29卷第6期彭高輝等:數據挖掘中的數據預處理方法63模型, 給出了應用主成分分析方法計算模型中的數據變換矩陣的方法. 應用實例表明, 通過數據變換可用相當少的
11、變量來捕獲原始數據的最大變化. 具體采用哪種變換方法應根據涉及的相關數據的屬性特點而定, 根據研究目的可把定性問題定量化, 也可把定量問題定性化.時并不是完全分開的. 另外, 應該針對具體所要研究的問題通過詳細分析后再進行預處理方法的選擇, 整個預處理過程要盡量人機結合, 尤其要注重和客戶以及專家多交流. 預處理后, 若挖掘結果顯示和實際差異較大, 在排除源數據的問題后則有必要需要考慮數據的二次預處理, 以修正初次數據預處理中引入的誤差或方法的不當, 若二次挖掘結果仍然異常則需要另行斟酌. , . 另外, 對, , 有待于以后參考文獻1Han,M icheline Ka mber . Data
12、 M ining:Concep ts and Tech 2niquesM.US A:MorganKauf mann Publishers, 2001. 2劉俊思, 闡澤忠, 秦華中, 等. 四川木里長槍彎隆石英流5數據歸約數據經過去噪處理后, 需根據相關要求對數據的屬性進行相應處理. 數據規約就是在減少數據存儲空間的同時盡可能保證數據的完整性, 始數據小得多的數據, 表示. 3.數據立方體聚集維規約數據壓縮數值壓縮離散化和概念分層具體方法數據立方體聚集等屬性子集選擇方法等小波變換、主成分分析、分形技術等回歸、直方圖、聚類等分箱技術、直方圖、基于熵的離散化等體包裹體特征及其地質意義J .四川地質
13、學報, 2005,25(4 :201-202.3池天河. 重大自然災害遙感監測與評估集成系統M.文獻9使用S AS 中稱為Pr oc Logistic 的過程對每個變量進行單變量的邏輯回歸達到壓縮數據的目的. 文獻7通過對高維數據集合的研究, 提出了兩類維數消減方法:其中一種是從有關變量中消除無關、弱相關或冗余的維, 尋找一個變量子集來構建模型, 即子集選擇法. 而對諸如粗糙集這種無法處理連續屬性值的數據挖掘方法, 需對數據中包含的連續屬性取值進行離散化, 可利用概念層次樹, 將數據泛化到更高的層次, 從而可以幫助有效減少地學習過程所涉及的輸入、輸出操作.北京:中國科學技術出版社, 1995.
14、4李軍, 莊大方. 地學數據集成的理論基礎與集成體系J .地理科學進展, 2001, 20(2 :137-145.5章建國, 施敏. 利用高分子結構對數據集成的研究J .石家莊職業技術學院學報, 2005, 17(2 :45-50.6鄒逸江, 吳金華. 空間數據倉庫的結構設計J .長安大學學報(地球科學版 , 2003, 25(1 :66-69.7吳新玲, 毋國慶. 基于數據變換的維數消減方法J .武漢大學學報(理學版 , 2006, 52(1 :73-76.8安淑芝. 數據倉庫與數據挖掘M.北京:清華大學出版社, 2005.9David W Hos mer . App lied l ogis
15、tic regressi on M.US A:W iley 2I nterscience Publicati on, 2000.6結語在數據預處理的實際應用過程中, 上述步驟有Research on Da t a Preprocess i n Da t a M i n i n gPENG Gao 2hui, WANG Zhi 2liang(North China I nstitute of W ater Conservancy and Hydr oelectric Power, Zhengzhou 450011, China Abstract:Beginning fr om the initi
16、al data s ource, data p rep r ocess r outine technol ogical p r ocess method is su mmed up, and at the same ti m e, it is put f or ward that, gaining s ource data should be as a step of data p rep r ocess . Datafusi on is br ought int o data p rep r ocess, and the data circulati on p rep r ocess pattern is p r oposed; it is a fairly
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二人聯營合同協議書范本
- 江川縣2025年數學五年級第二學期期末經典試題含答案
- 漳州衛生職業學院《合唱》2023-2024學年第一學期期末試卷
- 江西省吉安八中學2025屆初三下第二次測試(數學試題理)試題含解析
- 餐飲業工作合同
- 南京中醫藥大學翰林學院《論文寫作與學術規范》2023-2024學年第一學期期末試卷
- 西安交通大學城市學院《體育舞蹈I》2023-2024學年第一學期期末試卷
- 山東省濰坊市市級名校2025年中考英語試題命題比賽模擬試卷(24)含答案
- 潼關縣2025屆三年級數學第二學期期末質量跟蹤監視試題含解析
- 山東女子學院《醫護職業暴露及安全防護》2023-2024學年第二學期期末試卷
- 2024年甘肅白銀希望職業技術學院招聘筆試真題
- 中小學五一節前安全教育班會課件
- 電銷主管管理培訓
- 2024-2025學年人教版生物學八年級下冊期中復習練習題(含答案)
- 球機施工方案
- 2025年安全員之B證(項目負責人)通關題庫(附答案)
- 危險品駕駛員聘用合同二零二五年
- 貴州國企招聘2025遵義市公共交通(集團)有限責任公司招聘70人筆試參考題庫附帶答案詳解
- 企業文化調研方案
- GB/T 45440-2025電子商務家政家政服務人員能力信息描述
- 家庭教育:身教重于言傳
評論
0/150
提交評論