數據挖掘第三版第六章課后習題答案_第1頁
數據挖掘第三版第六章課后習題答案_第2頁
數據挖掘第三版第六章課后習題答案_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據挖掘第三版第六章課后習題答案數據挖掘第三版第六章課后習題答案數據挖掘第三版第六章課后習題答案數據挖掘第三版第六章課后習題答案編制僅供參考審核批準生效日期地址:電話:傳真:郵編:數據質量可以從多方面評估,包括準確性、完整性和一致性問題。對于以上每個問題,討論數據質量的評估如何依賴數據的應用目的,給出例子。提出數據質量的其他兩個尺度。答:精確性:描述數據是否與其對應的客觀實體的特征相一致。完整性:描述數據是否存在缺失記錄或缺失字段。一致性:描述同一實體的同一屬性的值在不同的系統或數據集中是否一致。數據質量依賴于數據的應用。對于給定的數據庫,兩個不同的用戶可能有完全不同的評估。例如,市場分析人員可能訪問公司的銷售事務數據庫(該數據庫里面并非是所有的顧客信息都是可以得到的。其他數據沒有包含在內,可能只是因為輸入時認為是不重要的,相關的數據沒有記錄可能是由于理解錯誤,或者因為設備故障),得到顧客地址的列表。有些地址已經過時或不正確,但畢竟還有80%的地址是正確的。市場分析人員考慮到對于目標市場營銷而言,這是一個大型顧客數據庫,因此對該數據庫的準確性還算滿意,盡管作為銷售的經理,你發現數據是不正確的。另外兩種度量尺度:有效性:描述數據是否滿足用戶定義的條件或在一定的域值范圍內。唯一性:描述數據是否存在重復記錄。在習題中,屬性age包括如下值(以遞增序):13、15、16、16、19、20、20、21、22、22、22、25、25、25、25、30、33、33、35、35、35、35、36、40、45、46、52、70使用深度為3的箱,用箱均值光滑以上數據。說明你的步驟,討論這種技術對給定數據的效果。答:劃分為(等頻的)箱:箱1:13、15、16、16、19、20、20、21、22箱2:22、25、25、25、25、30、33、33、35箱3:35、35、35、36、40、45、46、52、70用箱均值光滑:箱1:18、18、18、18、18、18、18、18、18箱2:、、、、、、、、箱3:、、、、、、、、分箱方法通過考察數據的“近鄰”來光滑有序數據值,進而去掉“噪聲”,即去掉被測量的變量的隨機誤差或方差。(b)如何確定該數據的離群點答:可以通過聚類來檢測離群點。即將類似的值組織成群或“簇”,直觀地,落在簇集合之外的值被視為離群點。(c)還有什么方法來光滑數據答:另外的方法是回歸:用函數擬合數據來光滑數據。這種技術被稱為回歸。線性回歸涉及找出擬合兩個屬性(或變量)的“最佳”直線,使得一個屬性可以用來預測另一個。如下規范化方法的值域是什么最小-最大規范化答:[new_min,new_max]Z分數規范化答:[(old_min-mean)/σ,(old_max-mean)/σ]Z分數規范化,使用均值絕對偏差而不是標準差、答:(-∞,+∞)小數定標規范化答:(-,使用習題給出的age數據,回答以下問題:使用最小-最大規范化將age值35變換到[,]區間。答:35-13/70-13=使用z分數規范化變換age值35,其中age的標準差為歲。答:均值為計算得使用小數定標規范化變換age值35答:指出對于給定的數據,你愿意使用哪種方法。陳述你的理由。答:我更喜歡用z分數規范化,因為z分數不受離群點影響假設12個銷售價格記錄已經排序,如下所示:5,10,11,13,15,35,50,55,72,92,204,215使用如下個方法將它們劃分成三個箱。等頻(等深)劃分箱1:5,10,11

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論