




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據挖掘與商務智能范勤勤物流研究中心.第二章認識數據1數據對象與屬性類型2數據的基本統計描述3度量數據的相似性和相異性目錄第一章.數據對象與屬性類型.屬性及標稱屬性什么是屬性?屬性是一個數據字段,表示數據對象的一個特征。在文獻中,屬性、維數、特征和變量可以互換的使用,屬性可以是標稱的、二元的、序數的或數值的。標稱屬性標稱意味著與名稱相關。標稱屬性的值是一些符號或事物的名稱如:hair_color(頭發顏色)和marital_status(婚姻狀況)是描述人的兩個特征。hair_color的可能值為黑色、棕色、淡黃色等,marital_status的可能取值是單身、已婚、離異和喪偶標稱屬性值并不具有有意義的序,并且不是定量的。給定一個對象集,找出這種屬性的均值或中位數是沒有意義的,但可以用眾數來表示4.二元屬性二元屬性二元屬性是一種標稱屬性,只有兩個類別或狀態:0或1,其中0通常表示該屬性不出現,而1表示出現。如果兩種狀態對應于true和false的話,二元屬性又稱布爾屬性。如果一個事物的兩種狀態具有同等價值并且攜帶相同的權重,則稱一個二元屬性是對稱的。如:屬性gender中的男、女。如果其狀態的結果不是同等重要的,則稱一個二元屬性是非對稱的。如:HIV化驗的陰性、陽性結果。5.序數屬性及數值屬性序數屬性序數屬性是一種屬性,其可能的值之間具有有意義的序或秩評定,但是相繼值之間的差是未知的,其中心趨勢可以用眾數和中位數來表示。如:professional_rank(職位)可以按順序枚舉,如對于教師有助教、講師、副教授和教授數值屬性數值屬性是定量的,即它是可度量的量,用整數或實數值表示。數值屬性可以是區間標度的或比率標度的,其中心趨勢度量可以用均值、中位數或眾數來表示區間標度屬性用相等的單位尺度度量,比如溫度比率標度屬性是具有固定零點的數值屬性,比如重量、高度6.離散屬性與連續屬性離散屬性與連續屬性離散屬性具有有限或無限可能個值,可以用或不用整數表示。如:屬性hair_color、smoker、medical_test和drink_size都有有限個值,因此是離散的如果屬性不是離散的,則它是連續的。在文獻中,數值屬性與連續屬性可以互換使用7.數據的基本統計描述.中心趨勢度量中心趨勢度量:均值、中位數和眾數、均值:加權平均:主要問題:對極端值很敏感9.中心趨勢度量中位數中列數數據集的最大值和最小值的平均值眾數集合中出現最頻繁的值可能最高頻率對應多個不同值,導致多個眾數有序數據值的中間值適用于傾斜數據10.度量數據散布方差和標準差度量數據散布:極差、四分位數、方差、標準差和四分位數極差極差:極差(range)=max()-min()四分位數第一個四分位數Q1第三個四分位數Q3四分位數極差IQR=Q3-Q1標準差是方差的平方根11.五數概括五數概括分布的五數概括由中位數Q2、四分位數Q1和Q3,最小和最大觀測值組成,按次序Minimum、Q1、Median、Q3、Maximum。12.盒圖盒圖一種流行的分布的直觀表示。體現了五數概括:盒的端點一般在四分位數上,使得盒的長度是四分位數極差IQR中位數用盒內的線標記盒外的兩條線(稱作胡須)延伸到最小(Minimum)和最大(Maximum)13.盒圖盒圖示例如圖在給定的時間段ALLElectronics的4個銷售部門的商品單價數據的盒圖。對于部門1,我們看到銷售商品單價的中位數是80美元,Q1是60美元,Q3是100美元。注意,該部門的兩個邊遠的觀測值被個別的描繪出,因為它們的值175和202都超過IQR的1.5倍,這里IQR=40.180160140120100806040200部門1部門2部門3部門420014.分位數圖分位數圖Q1中位數Q315.分位數-分位數圖分位數-分位數圖Q1中位數Q316.直方圖直方圖如果X是標稱的,則對于X的每個已知值,畫一個柱或豎直條如果X是數值的,X的值域被劃分成不相交的連續子域,通常來講,諸桶是等寬的對于比較單變量觀測組,它可能不如分位數圖、分位數圖-分位數圖、盒圖方法有效17.散點圖散點圖確定兩個數值變量之間是否存在聯系、模式或趨勢的最有效的圖形方法之一18.散點圖散點圖還可以用來發現屬性之間的相關性a.正相關b.負相關19.相關性三種情況,其中每個數據集中兩個屬性之間都不存在觀察到的相關性20.數據統計數據描述和圖形統計顯示提供了數據總體情況的有價值的洞察。這有助于識別噪聲和離群點,因此,它們對于數據清理特別有用21.度量數據的相似性和相異性.相似性和相異性都稱鄰近性相似性及相異性相似性量化兩組數據的相似性物體相似性越大時,值越大取值范圍是[0,1]相異性量化兩組數據的不同的程度物體相似性越大時,值越小最小的差異值取0上限值根絕實際不同而不同23.數據矩陣及相異性矩陣數據矩陣又稱對象-屬性結構:存放n個對象兩兩之間的臨近度。每行對應一個對象相異性矩陣又稱對象-對象結構:存放n個對象之間的相鄰度24.鄰近性度量標稱屬性的鄰近性度量m:#ofmatches,p:total#ofvariables二元屬性的鄰近性度量二元屬性只有兩種狀態:0或1,0表示該屬性不出現,1表示該屬性出現二元屬性的列聯表25.鄰近性度量對稱的二元屬性相異性對于對稱的二元屬性,每個狀態都同樣重要。對象i和j的相異性為:非對稱的二元屬性相異性對于非對稱的二元屬性,兩個狀態不是同等重要的。此時,i與j的相異性表示為:對象i與j之間的非對稱的二元相似性可以用下式計算:(式的系數sim(i,j)被稱作Jaccard系數)26.相異性數值屬性的相異性閔可夫斯基距離是曼哈頓距離和歐氏距離的推廣上確界距離是h趨向無窮時閔科夫斯基距離的推廣。27.鄰近性度量序數屬性的鄰近性度量假設f是用于描述n個對象的一組序數屬性之一,關于f的相異性計算涉及一下步驟:1.第i個對象的f值為xif,屬性f有Mf個有序的狀態,表示排位1,...,Mf.用對應的排位來取代xif。2.通過zif代替第i個對象的rif來實現數據規格化:3.利用數值屬性的距離度量計算,使用zif作為第i個對象的f值。28.相異性混合類型屬性的相異性假設數據集包含p個混合類型的屬性,對象i與j之間的相異性d(i,j)定義為:f是數值型的:用標準化的距離公式。f是標稱或二元的:如果xif=xjf,則dij(f)=0if;否則,dij(f)=1f是序數的:計算排位rij和并將zif作為屬性值對待上述步驟與前面的各種單一屬性類型的處理相同,唯一不同的是對于數值屬性的處理29.余弦相似性余弦相似性余弦相似性是一種度量,它可以用來比較文檔,或針對給定的查詢詞向量對文檔排序。令x和y是兩個待比較的向量,使用余弦度量作為相似函數,有:30.作業假設所分析的數據包括屬性age,它在數據元組中的值(以遞增序)為13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70(1)該數據的均值是多
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025腦出血患者的護理查房
- 心理健康教育互動游戲設計
- 幼兒園家庭教育指導微課
- 新生兒黃疸護理病例討論
- 2025商場攤位經營承包合同
- 腫瘤患者血管通路的護理
- 護理管理學的計劃職能
- 電子支付與安全
- 2025詳述合同管理的要領
- 2025前期物業服務招標代理合同
- 《健康服務與管理導論》期末復習筆記
- 高爾夫球場澆灌施工方案
- 出納員工考核試題及答案
- 河南省鄭州市2024-2025學年高三上學期1月第一次質量預測地理試題2
- 項目啟動會模板
- 2025-2030年可穿戴式睡眠監測儀行業深度調研及發展戰略咨詢報告
- 《圓明園的介紹》課件
- (2025)入團考試題庫及答案
- 掃描電子顯微鏡(SEM)-介紹-原理-結構-應用
- 車廂定做合同范文大全
- 《地質災害監測技術規范》
評論
0/150
提交評論