Chap8_基本分析_第1頁
Chap8_基本分析_第2頁
Chap8_基本分析_第3頁
Chap8_基本分析_第4頁
Chap8_基本分析_第5頁
已閱讀5頁,還剩21頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第8章 基本分析第八章 基本分析8.1 基本分析的思路8.2 數值型變量的基本分析8.3 分類型變量相關性分析8.4 兩總體的均值分析8.5 RFM分析8.1 基本分析的思路o數據挖掘往往從數據的基本分析開始,是了解數據分布特征,把握數據間相關性強弱的基本手段,也是后續模型選擇和深入分析的基礎。o數據的基本分析一般從單變量的分析入手,到多變量的相關性研究。o通常,可通過描述性分析,計算關于數據分布特征的描述統計量,掌握數據的分布特點o兩變量可通過列聯表解釋變量之間的內在聯系,通過均值檢驗了解數據之間的相互影響作用o數據的基本分析通過具體數字實現,也可通過圖形直觀展示。第八章 基本分析8.1 基

2、本分析的思路8.2 數值型變量的基本分析8.3 分類型變量相關性分析8.4 兩總體的均值分析8.5 RFM分析案例介紹o以一份虛擬的電信客戶數據為例,該數據為SPSS格式,數據包括:居住地、年齡、婚姻狀況、家庭月收入(百元)、受教育水平、性別、家庭人口、基本服務累計開通月數、是否申請無線轉移服務、上月基本費用、上月限制性免費服務項目的費用、無線服務費用、是否電子支付、申請的服務套餐類型、是否流失15個變量。o利用這份數據,可以:n分析流失客戶的一般特征n同時建立模型進行客戶流失的預測。數值型變量的基本分析方法o單變量n數值分析o對數值型數據,應計算一些基本描述統計量,以反映變量分布的集中趨勢和

3、離散程度。o描述集中趨勢的統計量一般包括:均值、中位數、眾數等o描述離散程度的統計量一般包括:方差、標準差、極差等n圖形分析o繪制直方圖o雙變量n計算相關系數n繪制散點圖計算基本描述統計量o將Output選項卡中的Statistics節點連接到數據流中oSetting節點的設置nExamine:選擇需要計算描述統計量的變量nStatistics:指定Examine框中的變量nCorrelate:指定與哪些變量進行相關性分析nCorrelation Setting:用來設置相關分析的輸出內容o選擇相關程度較高的節點n選擇窗口主菜單Generate下的Filter節點n設置相關選項繪制直方圖o將G

4、raphs選項卡中的Histogram節點連接到數據流中oOptions選項卡的設置nAutomatic X range:如果只展示X軸變量在指定范圍內的直方圖,可給出取值范圍nBinsoBy number表示將數值型變量分成指定組,在數字框中給出組數,組距根據變量取值的最大值和最小值,自定計算確定oBy width表示將數值型變量以指定的組距分組,在數字框中給出組距,組數根據變量取值的最大值和最小值,自動進行計算nNormalize by color:選中表示將直方圖中反映各組頻數大小的條形高度調整為相等,且各條形圖內以不同顏色表示Overlay變量的取值分布,該選項適于對比不同條形下Ove

5、rlay變量的分布。nSeparate bands for each color:以不同顏色分別繪制Overlay變量不同取值下的多個直方圖nShow normal curve:在直方圖中添加正態分布線繪制散點圖o將Graphs選項卡中的Plot節點添加到數據流中oSetting中Overlay Type的設置nNone表示不添加回歸線nSmoother:采用局部加權迭代穩健最小二乘回歸(LOESS)方法擬合樣本數據nFunction表示自行輸入回歸方程,代表回歸方程的回歸線將顯示在散點圖中繪制散點圖(續一)oOption選項卡nJitter:當數據中存在大量重復值時,為更清晰地展示變量相關性

6、特征,可選擇該項,系統將重復的變量值修正為臨近實際值的隨機值,以有效分散點的集中程度nWhen number of records greater than:當樣本量大于指定值時,系統將不再重復繪制每個觀測點,而是o采用默認的分箱(Bin)策略,首先將臨近的觀測點合并,再以圈或叉的大小表示觀測點附近點的多少oSample項:數據隨機抽樣后再繪制散點圖oUse All Data:仍對所有數據繪制散點圖oClementine的圖形交互和編輯繪制一般線圖(ExportApple.sav)o在Plot的Options選項卡中,選擇Style選項中的LineoX Mode的選項nSort:首先按X軸上變

7、量的升序排列數據,然后從左往右依次連線nOverlay:將繪制由多條線組成的線圖。首先在Overlay變量值相同的組內,按X軸上變量的升序排列數據,然后從左往右依次連線。不同線代表Overlay的不同取值。nAs Read:將X軸的變量值的自然排列順序繪制線圖,適合已按時間排列的時間順序數據。繪制多線圖(ExportApple.sav)o將Graph中的MultiPlot節點添加到數據流中oSetting選項的設置nOverlay:在Panel框中選擇一個Overlay字段,將分別繪制Overlay變量不同取值下的多線圖nNormalize:當Y fields中的多個變量取值的數量級有較大差異

8、時,一張圖無法同時清晰展現各變量的變化趨勢。選中該選項,表示將Y Field中的所有變量的取值全部映射到01的范圍內,以便于多變量的對比。nOverlay function:若要在圖中添加反映Y隨X變化規律的回歸線,選中該選項,并輸入Y隨X變化的具體函數形式第八章 基本分析8.1 基本分析的思路8.2 數值型變量的基本分析8.3 分類型變量相關性分析8.4 兩總體的均值分析8.5 RFM分析8.3 分類型變量相關性分析o兩分類型變量相關性的研究可以從圖形分析入手,然后采用數值方法分析。o兩分類型變量相關性的圖形分析n條形圖n網絡圖o兩分類型變量相關性的數值分析n計算兩分類型變量的列聯表n行列變

9、量的相關性分析條形圖o將Graph中的Distribution連接到數據流中oPlot選項卡的設置nPlotoSelected fields:用戶自行指定繪圖變量oAll flags:對數據流節點中所有Flag型變量繪圖,且僅顯示數值為真的情況nProportional scale:選中表示調整條形圖的長短,將頻數最高的條形長度調整到最長,其他條形以它為標準按比例調整nNormalize by color:自動將條形均調整為最長,然后再以不同顏色反映Overlay變量取值的比例分布,但這樣設置將無法反映繪圖變量自身取值的分布特點o圖形和數據的交互o條形的合并與還原o圖形數據的共享網絡圖o將Gr

10、aph中的Web節點連接到數據流中oPlot選項卡的設置nPlotoWeb:繪制簡單網絡圖,反映多個分類型變量兩兩之間相關性強弱,應在Fields框中指定多個分類型繪圖變量oDirected web:繪制有方向的網狀圖,反映多個分類型變量與一個分類型變量之間相關性強弱oStrong links are heavier:連線越粗代表的頻數越大,Weak links are heavier:意義相反,通常用于欺詐甄別分析中oShow True flags only:繪制精簡網狀圖,對二分類型變量只顯示取值為真的節點nOptions選項卡的設置oLink Size:指定不同線邢的含義,Link si

11、ze varies continuously連線的粗細隨所代表的頻數多少而連續變化;Link size shows strong/normal/weak categories頻數低于指定值的連線用弱連接線(點線),高于指定值的連線用強連接線(加粗線),其余用正常線表示兩分類型變量相關性的數值分析o計算兩分類型變量的列聯表n將Output選項中的Matrix鏈接到數據流中nSetting選項卡的設置o Fields:Selected表示用戶自行指定列聯表的行變量和列變量,All flags(True Value)默認選擇數據流節點中所有的Flags型變量,計算生成多張列聯表,且僅顯示取值為真的情

12、況;All Numerics生成的列聯表只包含一個單元格,值為各觀測行列變量取值的乘積的總和。o Cell contents:Cross-tabulations表示列聯表各單元格的頻數;Functions表示列聯表各單元格為匯總變量在行列變量交叉分組下的描述統計量,應在Field框中指定匯總變量,在Function選項中選擇統計量o行列變量的相關性分析第八章 基本分析8.1 基本分析的思路8.2 數值型變量的基本分析8.3 分類型變量相關性分析8.4 兩總體的均值分析8.5 RFM分析兩總體均值比較的圖形分析o 將Graph中的Histogram添加到數據流中o 在Plot選項卡中,設置Ove

13、rlay均值檢驗o獨立樣本的均值檢驗n獨立樣本是指,從一總體中抽取一組樣本對從另一總體中抽取一組樣本沒有任何影響,兩組樣本的樣本量可以不相等n將Output選項卡中的Means節點連接到數據流中nSetting選項卡的設置oCompare means:選擇Between group within a fieldo在Grouping Field中指定控制變量,在Test Field中指定觀測變量o配對樣本的均值檢驗n配對樣本可以是個案前后狀態下某屬性的不同特征值,也可以是某事物不同側面或方面的描述nMeans節點Setting選項卡的設置oCompare means:選擇Between Pari

14、s of a fieldo在Field one 和 Field Two中指定兩配對變量第八章 基本分析8.1 基本分析的思路8.2 數值型變量的基本分析8.3 分類型變量相關性分析8.4 兩總體的均值分析8.5 RFM分析8.5 RFM分析oRFM是最近一次消費(Recency)、消費頻率(Frequency)、消費金額(Monetary)的英文首字母縮寫,是企業顧客數據分析的最重要的三個指標o最近一次消費、消費頻率、消費金額是測算顧客價值最重要也是最容易的方法oClementine的RFM分析包括兩個方面:nRFM匯總,即根據顧客消費的原始明細數據,匯總每個顧客的RFM值n對先有顧客的RFM

15、值進行分組,計算得到每個顧客的RFM得分數據準備o讀入顧客消費的原始明細數據o對原始數據進行類型變換n將消費日期的存儲類型轉換為日期型RFM匯總oCalculate recency relative to:指定一個時間點,FRM匯總時將在顧客消費明細數據中,找到據此時間點最近的消費日期并計算最近一次消費oIDs are contiguous:如果明細數據已按ID框中指定的變量排序,則選中該框,可提高計算效率,否則不選oID:指定可識別客戶的關鍵變量,通常為顧客編號oDate、Value:分別指定表示消費日期和消費金額的變量oNew field name extension:RFM匯總將自動派生

16、代表RFM的三個變量,名稱分別為Recency、Frequency、Monetary,若需在這三個變量名上添加擴展名,則在該框后面給出擴展名,并指定擴展名作為前綴還是后綴oDiscard records with value below:選中該項表示消費金額低于指定值的明細數據將不參與RFM匯總oOnly include recent transactions:當明細數據較大時,可指定僅最近的明細數據參與RFM匯總n選中 Transactions date after并給定一個日期,表示該日期以后的明細數據參與RFM匯總nTransaction within the last:指定上述時間點以

17、前的若干年(月、周、日)的明細數據參與RFM匯總計算RFM得分oRFM得分的計算原理是:n將R、F、M值分組,每個樣本在將R、F、M值分組結果(組號)即是它對應的R、F、M分項得分n計算RFM得分。計算方法是,R得分*R的權數+F得分*F的權數+M得分*M的權數oRFM得分較高的顧客應是比較理想的顧客RFM Analysis節點oSetting選項卡的設置nRecency、Frequency、 Monetary:指定代表RFM的變量nNumber of bins:分別指定RFM的分組個數,默認均為5組。最小組數為2,最大組數為9nWeight:分別指定計算RFM得分時,R、F、M的權數。權重越高則相應項在RFM得分中的作用越大。通常R的權數最高,其次是F和MnTie:指定打結時的分組策略,RFM的分組默認采用統計上的分位數分組,即將樣本數據等分為指定的組數oAdd to next:按樣本量相等原則,分到下一組oKeep in current:變量值相同的觀測分到同一組內,該策略不能完全滿足各組樣本量相同

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論