




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第五章數據預處理大數據管理與應用——主編:王剛副主編:劉婧、邵臻當前,在各行各業中正不斷累積海量的數據資源,受到采集方式、存儲手段等各種因素的影響,實踐中所收集到的原始數據信息往往容易出現數據缺失、解釋性不足等問題,利用這些低質量的數據進行分析將會影響后續分析的有效性和合理性。而數據預處理的目標就是要以數據分析所要解決的問題為出發點,通過相應的預處理,從而產生高質量、滿足分析需求的數據資源。在本章中您將理解數據預處理中數據質量的相關性質,掌握數據清洗方式和數據清洗方法,數據變化的相關策略,掌握數據集成及其他預處理方法。數據質量數據清洗數據變換數據集成其他預處理方法第五章數據預處理01數據質量02數據清洗03數據變換04數據集成05其他預處理方法在實際應用中,大型數據庫和數據倉庫往往容易出現不正確、不完整和不一致等情況。數據不正確的原因用于收集數據的設備出現了故障;在數據輸入時,由于人或計算機的原因導致數據輸入錯誤;用戶在不希望提交個人信息時,故意向強制輸入字段輸入不正確的數值,這種情況通常被稱為被掩蓋的缺失數據。數據不完整的原因由于涉及個人隱私等原因有些屬性無法獲得,如銷售事務數據中顧客的收入和年齡等信息;在輸入記錄時由于人為的疏漏或機器的故障使得數據不完整,這些不完整的數據需要進行重新構建。數據不一致的原因在我們采集的客戶通訊錄數據中,地址字段列出了郵政編碼和城市名,但是有的郵政編碼區域與響應的城市并不對應,導致這種原因的出現可能是人工輸入該信息時顛倒了兩個數字,或許是在手寫體掃描時錯讀了一個數字。1.1準確性、完整性以及一致性在工商業界,對數據質量的相關性要求是一個重要問題。類似的觀點也出現在統計學和實驗科學中,強調精心設計實驗來收集與特定假設相關的數據。與測量和數據收集一樣,許多數據質量問題與特定的應用和領域有關。例如,考慮構造一個模型,預測交通事故發生率。如果忽略了駕駛員的年齡和性別信息,并且這些信息不可以間接地通過其他屬性得到,那么模型的精度可能就是有限的,在這種情況下,我們需要盡量采集全面的、相關的數據信息。此外,對某個公司的大型客戶數據庫來說,由于時間和統計的原因,顧客地址列表的正確性為80%,其他地址可能過時或不正確。當市場分析人員訪問公司的數據庫,獲取顧客地址列表時,基于目標市場營銷考慮,市場分析人員對該數據庫的準確性滿意度較高。而當銷售經理訪問該數據庫時,由于地址的缺失和過時,對該數據庫的滿意度較低。有些數據收集后就開始老化,使用老化后的數據進行數據分析、數據挖掘,將會產生不同的分析結果。如果數據提供的是正在發生的現象或過程的快照,如顧客的購買行為或Web瀏覽模式,則快照只代表有限時間內的真實情況;如果數據已經過時,基于它的模型和模式也就已經過時,在這種情況下,我們需要考慮重新采集數據信息,及時對數據進行更新。1.2相關性和時效性數據的可信性是指數據在適用性、準確性、完整性、及時性和有效性方面是否能滿足用戶的應用要求,反映出有多少數據是用戶信賴的。如果把數據可信性定義得過窄,會使得人們感覺問題來自數據采入或者系統誤差,而導致數據的可信性差。數據的可解釋性反映數據是否容易理解,是在數據科學的“有用性”中至關重要的方面之一,它確保使用的數據與想要解決的問題保持一致。當某一數據庫在某一時刻存在錯誤,恰巧該時刻銷售部門使用了該數據庫的數據,雖然數據庫的錯誤在之后被及時修正,但之前的錯誤已經給銷售部門造成困擾。1.3可信性和可解釋性全人工清洗這種清洗方式的特點是速度慢,準確度較高,一般應用于數據量較小的數據集中。全機器清洗這種清洗方式的優點是清洗完全自動化,將人從繁雜的邏輯任務中解脫出來,去完成更重要的事。人機同步清洗該方式不僅降低了編寫程序的復雜度和難度,同時也不需要大量的人工操作但缺點是人必須要實時參與清洗過程。人機異步清洗這種清洗的原理與人機同步清洗基本一樣,唯一的不同是在遇到程序不能處理的問題時,不直接要求人工參與,而是生成報告的形式記錄下異常情況,然后繼續進行清洗工作。2.1數據清洗的方式圖5-1數據清洗原理填補空缺值忽略元組:當缺少類標號時,通常采用忽略元組的方法。除非元組中空缺值的屬性較多,否則忽略元組不是有效的方法。人工填寫空缺值:該方法耗費時間,尤其是當數據集很大、缺少的數據很多時,該方法可能行不通。全局常量填充空缺值:用同一個常數替換空缺的屬性值,該方法雖然簡單,但可能得出有偏差甚至錯誤的數據挖掘結論,因此應謹慎使用。屬性的平均值填充空缺值:計算某一屬性的平均值,再用該平均值來進行填充。同類樣本的平均值填補空缺值:使用與給定元組同一類的所有樣本的平均值。用最可能的值填充空缺值:用回歸分析或決策樹歸納確定最有可能的值。最近鄰方法填補空缺值:相互之間“接近”的對象具有相似的預測值。如果知道一個對象的值,就可以預測其最近的鄰居對象。2.2數據清洗方法消除噪聲數據分箱:分箱是通過考察周圍的值來平滑存儲的數據值。它將存儲的值分布到一些箱中,由于分箱需要參考相鄰的值,因此它能對數據進行局部平滑。聚類:聚類是按照個體相似性把它們劃歸到若干類別(簇)中,使同一類數據之間的相似性盡可能大,不同類數據之間的相似性盡可能小。計算機與人工檢查結合:識別孤立點還可以利用計算機和人工檢查結合的辦法。例如在針對銀行信用欺詐行為的探測中,孤立點可能包含有用信息,也可能包含噪聲?;貧w:可以采用線性回歸和非線性回歸找出合適的回歸函數,用以平滑數據、消除噪聲。實現數據一致性從多數據源集成的數據可能存在語義沖突,因此需要定義完整性約束來檢測不一致性,或者通過分析數據,發現聯系,從而使得數據保持一致。對于數據集中存在的不一致數據,可以使用糾正編碼不一致問題的程序,也可以用知識工程工具來檢測不符合條件約束的數據。2.2數據清洗方法光滑目的是去掉數據中的噪聲,這種技術包括分箱、聚類和回歸。屬性構造(或特征構造)可以由給定的屬性構造新的屬性并添加到屬性集中,以幫助挖掘過程。聚集對數據進行匯總和聚集,例如可以聚集日銷售數據,計算月和年銷售量。規范化把屬性數據按比例縮放,使之落入一個特定的小區間,如0.0-1.0。離散化數值屬性的原始值用區間標簽或概念標簽替換,這些標簽可以遞歸地組織成更高層概念,導致數值屬性的概念分層。由標稱數據產生概念分層例如關于銷售的數據挖掘模式除了在單個分店挖掘之外,還可以針對指定的地區或國家挖掘。3.1數據變換策略最?。畲笠幏痘痁-Score規范化(或零-均值規范化)小數定標規范化3.2通過規范化變換數據通過分箱離散化等寬分箱:將變量的取值范圍分為k個等寬的區間,每個區間當作一個分箱。等頻分箱:把觀測值按照從小到大的順序排列,根據觀測的個數等分為k部分,每部分當作一個分箱,例如,數值最小的1/k比例的觀測形成第一個分箱等。基于k均值聚類的分箱:使用k均值聚類法將觀測值聚為k類,但在聚類過程中需要保證分箱的有序性:第一個分箱中所有觀測值都要小于第二個分箱中的觀測值,第二個分箱中所有觀測值都要小于第三個分箱中的觀測值等。通過直方圖分析離散化像分箱一樣,直方圖分析也是一種無監督的離散化技術,因為它也不使用類信息。直方圖把屬性A的值劃分成不相交的區間,被稱作桶或箱。通過聚類、決策樹和相關性分析離散化聚類分析是一種常見的離散化方法,通過將屬性A的值劃分成簇或組。聚類算法可以用來離散化數值屬性A。聚類考慮A的分布及數據點的鄰近性,因此可以產生高質量的離散化結果。3.3通過離散化變換數據圖5-2基于聚類分析的數據離散化由用戶或專家在模式級顯式地說明屬性的部分序通常分類屬性或維的概念分層涉及一組屬性,用戶或專家在模式級通過說明屬性的部分序或全序,可以很容易地定義概念分層。通過顯式數據分組說明分層結構的一部分這基本上是人工定義概念分層結構的一部分。在大型數據庫中,通過顯式的值枚舉定義整個概念分層是不現實的,然而對一小部分中間層數據,我們可以很容易地顯式說明分組。說明屬性集,但不說明它們的偏序用戶可以說明一個屬性集,形成概念分層,但并不顯式說明它們的偏序,然后系統可以試圖自動地產生屬性的序,構造有意義的概念分層。只說明部分屬性集在定義分層時,用戶可能對分層結構中應當包含什么只是有一個很模糊的想法,或者說用戶在分層結構的說明中只包含了相關屬性的一部分。3.4標稱數據的概念分層基于規則的實體識別方法利用相似函數度量數據實體之間的相似性是解決實體識別問題的重要思路,然而大多數時候,我們無法在現實世界中找到一個完美的相似性度量函數來衡量實體之間的相似性。因此我們需要利用語義規則引入額外的專家用戶信息,引導實體識別過程。結合語義規則的方法可以修正相似函數產生的誤差,提高識別的精度,該方法的極限情況是完全用語義規則來解決實體識別問題。基于統計方法的實體識別常規的統計方法需要設置參數或者給定訓練數據,而有專家提出了一種兩階段的統計學習方法,可完全自動地執行實體識別過程,其思想是將第一階段在數據實體上兩兩匹配結果中較好的一部分抽取出來,并將其作為第二階段的支持向量機方法的訓練數據。該工作基于最近鄰方法和支持向量機方法分別給出了對應的實體識別算法。4.1實體識別問題圖5-3數據集成過程標稱數據的卡方相關檢驗數值數據的相關系數數值數據的協方差4.2冗余和相關分析數據準備數據準備階段又稱為數據的預處理階段,在相似重復數據檢測工作中用來解決結構方面的異質問題,從而使得來自不同數據源的數據以統一的方式存儲在一個數據庫中,主要包括解析、數據轉換和標準化等階段。減小查詢空間由于數據庫存儲的信息量巨大,如果所有的元組都進行相似重復檢測,不僅耗費大量的時間,而且效率也比較低,因此通常使用啟發式的搜索方法來縮小檢測的空間。相似重復記錄的識別雖然在數據準備階段對數據進行了一系列的標準化操作,但是記錄中還是會存在一些語義上或者語法上的不規范,因此需要使用一些技術手段進一步對相似重復記錄進行檢測。驗證為了驗證檢測方法的有效性和準確性,有專家制定了查準率和查全率兩個度量標準。如果對于檢測的結果不滿意,則需要進一步設定更合適的閾值,采用更合適的方法重新處理,以達到滿意的效果。4.3元組重復在數據庫集成領域內建立異構數據源之間的語義互操作越來越成為一個核心問題,而語義互操作問題最后歸結為解決數據沖突的問題,這是數據集成最主要的任務。數據沖突包括模式層次和語義層次上的沖突,相比較而言,后者更難解決。在異構和分布式數據庫系統中,各局部數據庫均是獨立運行、獨立管理的,具有自治性,因而造成局部數據庫的數據彼此之間的語義和數據值有可能不一致,造成各局部數據庫中的數據源沖突,從而使得對象的描述產生二義性。語義互操作問題一般有兩種解決方法:全局模式和域本體方法。全局模式方法通過構建一個全局模式來建立全局模式和局部數據源模式之間的映射關系,這種方法的缺點是嚴重依賴相關的應用系統或者是參與的局部數據源模式。域本體方法是利用機器可理解的概念以及概念之間的關系,這些概念和概念之間的關系用一個共享本體來表示,各個數據源都可以理解該本體的含義。這種方法中的知識在特定的域當中,但是獨立于特定的應用系統和模式。在這種方法中還需要輔助工具來捕獲和表示各種知識,從而解決語義沖突。4.4數據值沖突的檢測與處理特征選擇是一個很重要的數據預處理過程,主要作用有以下兩點:選擇出重要的特征,緩解維數災難問題以及去除不相關特征以及降低學習任務的難度。特征選擇的基本框架如下圖5-4所示。雖然現實中存在特征不足和特征冗余兩種情況,但是在實際應用中,往往都是特征冗余的情況,需要我們減少一些特征。5.1特征選擇圖5-4特征選擇的基本流程根據特征選擇的形式又可以將特征選擇方法分為3種:過濾法,按照發散性或者相關性對各個特征進行評分,設定閾值或者待選擇閾值的個數,選擇特征。包裹法,根據目標函數,每次選擇若干特征或者排除若干特征,直到選擇出最佳的子集。嵌入法,先使用某些機器學習的算法和模型進行訓練,得到各個特征的權值系數,根據系數從大到小選擇特征。類似于過濾法,但是通過訓練來確定特征的優劣。5.1特征選擇圖5-5過濾算法的基本原理線性降維方法主成分分析主成分分析(PrincipalComponentsAnalysis,PCA)是最重要的降維方法之一。在數據壓縮消除冗余和數據噪音消除等領域都有廣泛的應用。線性判別在自然語言處理領域,隱含狄利克雷分布(LatentDirichletAllocation,LDA)是一種處理文檔的主題模型?;诤撕瘮档姆蔷€性降維方法核主成分分析核主成分分析(KernelPrincipalComponentsAnalysis,KPCA)利用核技巧將d維線性不可分的輸入空間映射到線性可分的高維特征空間中,然后對特征空間進行PCA降維,將維度降到d'維,并利用核技巧簡化計算。5.2維度約減基于特征值的非線性降維方法等度量映射等度量映射(IsometricMapping,LSOMAP)算法引進了鄰域圖,樣本只與其相鄰的樣
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 活動押金合同協議書范本
- 2025年家用水表項目合作計劃書
- 2025年超高壓復合膠管項目發展計劃
- 有趣游戲活動策劃與執行
- 細胞生物學實驗室細胞凍存盒租賃與維護服務協議
- 環保企業應急預案編制與實施協議
- 微信社群運營及轉化效果跟蹤與反饋協議
- 知識產權侵權糾紛賠償金額評估協議
- 北美保健品分銷及市場推廣合同
- 工業機器人維護保養與備件庫存管理合同
- 2025年山東省聊城市東昌府區中考二模語文試題(含答案)
- 2025-2030中國藥品連續生產行業市場發展趨勢與前景展望戰略研究報告
- 2025年中考數學總復習《投影與視圖》專項測試卷(附答案)
- 空調崗位試題庫及答案
- 胃鏡室試題及答案
- 2024紡織機械操作流程掌握試題及答案
- 死魚賠償協議書范本
- 2025年貴州水投水庫運營管理西秀有限公司招聘筆試參考題庫附帶答案詳解
- 2008年高考語文試卷(山東)(解析卷)
- 2024年中國成人心肌炎臨床診斷與治療指南解讀
- 倉庫三級安全教育培訓
評論
0/150
提交評論