




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
多變量數據分析技術第一頁,共五十四頁,編輯于2023年,星期五統計分析是正確理解數據的工具首先:要避免犯統計錯誤明確:統計沒有錯誤,犯錯的是人。1.理論和方法的錯誤2.理解和解釋的錯誤第二頁,共五十四頁,編輯于2023年,星期五變量:測量尺度名稱級----定類變量順序級----定序變量間隔級----定距變量比例級----定比變量低高轉換定性定量非數量型數量型離散型隨機變量連續型隨機變量統計分析方法的應用有時候按變量的測量等級來劃分。第三頁,共五十四頁,編輯于2023年,星期五μ=0σ=1均值標準差α=0.025α=0.0251-α=0.9595%99%95%68%-1-2-3+1+2+3第四頁,共五十四頁,編輯于2023年,星期五μσ均值標準差α=0.025α=0.0251-α=0.9595%99%95%68%μ-σμ-2σμ-3σμ+σμ+2σμ+3σ第五頁,共五十四頁,編輯于2023年,星期五第六頁,共五十四頁,編輯于2023年,星期五第七頁,共五十四頁,編輯于2023年,星期五多變量統計分析法——高級數據處理分析技術多元回歸分析——MultipleRegressionAnalysis主成份分析——PrincipalComponentAnalysisPCA因子分析——FactorAnalysisFA(EFA&CFA)多元方差分析——ANOVA多維判別分析——MultipleDiscriminationAnalysis多維尺度分析——MultidimensionalScalingMDSMDA多元邏輯斯特回歸——MultipleLogisticRegression對應分析——CorrespondenceAnalysisCA多元對應分析——MultipleCorrespondenceAnalysisMCA多維偏好分析——MultidimensionalPreferenceAnalysisMDPREF非線性主成份分析——(OptimalScaling)分類樹——AnswerTree—CHAID&CART聚類分析——ClusterAnalysis結合分析——ConjointAnalysis離散選擇模型——DiscreteChoiceModel結構方程式模型——StructuralEquationModel預測與決策模型——DecisionTime&Whatif網絡分析——NetworkAnalysis第八頁,共五十四頁,編輯于2023年,星期五多元回歸分析MultipleRegressionAnalysis通話質量特服臺服務技術支持/咨詢裝機/修機/移機業務營業廳服務服務宣傳項目話費價格話費/查詢/準確/繳費投訴/糾紛急需改進區優勢保持區次要改進區錦上添花區某省電信各項總體滿意度指標的重要性和滿意度象限圖滿意度水平(表現)重要性水平第九頁,共五十四頁,編輯于2023年,星期五第十頁,共五十四頁,編輯于2023年,星期五Y=a+bX因變量自變量(預測變量)截距斜率數學上下列方程在圖形上是一條直線第十一頁,共五十四頁,編輯于2023年,星期五XY●X和Y線性回歸dYi●●●●●●●●●第十二頁,共五十四頁,編輯于2023年,星期五回歸分析的問題決定系數R2方差分析表回歸診斷——殘差圖共線性問題變量轉換異常值處理預測范圍因變量是0-1定類變量:logisticregression第十三頁,共五十四頁,編輯于2023年,星期五ComponentPlotComponent1.7.6.5.4.3Component2.6.4.2-.0-.2-.4-.6接待投訴耐心處理投訴迅速維修專業程度維修服務態度維修及時程度廣告吸引力廣告投放量入網費打折促銷對服務承諾的兌現情況維修服務收費通話費計費透明度通話費計費準確性通話費入網費營業員專業水平營業員服務態度營業廳規模營業廳環境銷售網點分布開戶手續網絡覆蓋服務和網絡功能公司對各種承諾的兌現公司手機網絡的用戶量公司的技術力量對該公司將來的信心公司信譽公司實力公司總體形象重要性水平表現主成份分析PrincipalComponentAnalysisPCA急需改進區優勢保持區次要改進區錦上添花區某移動通訊服務供應省滿意度指標的重要性和滿意度象限圖第十四頁,共五十四頁,編輯于2023年,星期五主成份分析PrincipalComponentAnalysisPCA0-1-21230-1-212-3第一主成份第二主成份沃爾沃奔馳BMW切諾基桑塔納捷達富康紅旗奧迪別克現代本田豐田賽歐第十五頁,共五十四頁,編輯于2023年,星期五主成份分析的基本概念x1x2Y1Y2x1x2X1與x2相關Y1與Y2不相關第十六頁,共五十四頁,編輯于2023年,星期五主成份分析的基本原理P個變量能夠組成p個主成份。每個主成份是p個原始變量的線性組合。第一主成份解釋p個變量的最大變差。第二主成份解釋p個變量的第二大變差。最后一個主成份解釋變差最小。所有主成份彼此之間正交。線性組合后的主成份在幾何空間上代表p個變量構成坐標系旋轉后的新坐標系,新坐標軸代表了最大變差方向。第十七頁,共五十四頁,編輯于2023年,星期五主成份分析應用減少變量的個數。用于回歸分析用于聚類分析用于偏好分析用于畫出偏好圖構造綜合評價指數——綜合排序。第十八頁,共五十四頁,編輯于2023年,星期五因子分析FactorAnalysis每升行駛里程可靠性能安全性能0-1-21230-1-212-3豪華型運動型經濟型第一因子得分第二因子得分第十九頁,共五十四頁,編輯于2023年,星期五因子分析-factorAnalysis一種簡化數據的技術。探索性因子分析。證實性因子分析因子分析就是要找到具有本質意義的少量因子。并用一定的結構/模型,去表達或解釋大量可觀測的變量。第二十頁,共五十四頁,編輯于2023年,星期五主要應用簡化數據,減維技術。識別數據中潛在的不正直接觀測的結構或維度。用產生的不相關的因子作為變量用于其它分析——聚類分析、回歸分析、判別分析等。識別變量中重要變量,用于其它分析。作偏好圖。(兩個因子)問卷設計的信度和效度。第二十一頁,共五十四頁,編輯于2023年,星期五因子分析的基本步驟確定研究的問題數據準備考察相關矩陣選擇抽取因子的方法取定因子的個數旋轉因子——最大方差法評價模型的擬合效果解釋因子并命名因子得分用于其它分析第二十二頁,共五十四頁,編輯于2023年,星期五多維偏好分析——MultidimensionalPreferenceAnalysisMDPREF每升行駛里程可靠性能安全性能0-1-21230-1-212-3第一主成份第二主成份豪華型運動型經濟型沃爾沃奔馳BMW切諾基桑塔納捷達富康紅旗奧迪別克現代本田豐田賽歐第二因子得分第一因子得分第二十三頁,共五十四頁,編輯于2023年,星期五理想點模型每升行駛里程可靠性能安全性能0-1-21230-1-212-3第一主成份第二主成份豪華型運動型經濟型沃爾沃奔馳BMW切諾基桑塔納捷達富康紅旗奧迪別克現代本田豐田賽歐第二因子得分第一因子得分理想點帕薩特第二十四頁,共五十四頁,編輯于2023年,星期五Component11.0.50.0-.5-1.0Component21.0.8.6.4.20.0-.2-.4-.6-.8S25S24S23S22S21S20S19S18S17S16S15S14S13S12S11S10S9S8S7S6S5S4S3S2S1主成份分析——PrincipalComponentAnalysisPCA——市場細分第二十五頁,共五十四頁,編輯于2023年,星期五REGRfactorscore1foranalysis12.52.01.51.0.50.0-.5-1.0-1.5REGRfactorscore2foranalysis13210-1-2奧迪A6寶來別克富康波羅POLO夏利2000風神藍鳥捷達廣州本田帕薩特奧托羚羊紅旗銘仕奇瑞賽歐吉利桑塔納因子分析——FactorAnalysisFA(EFA&CFA)——市場細分第二十六頁,共五十四頁,編輯于2023年,星期五奧迪A6寶來別克富康波羅POLO夏利2000風神藍鳥捷達廣州本田帕薩特奧托羚羊紅旗銘仕奇瑞賽歐吉利桑塔納Component11.0.50.0-.5-1.0Component21.0.8.6.4.20.0-.2-.4-.6-.8S25S24S23S22S21S20S19S18S17S16S15S14S13S12S11S10S9S8S7S6S5S4S3S2S1產品定位圖第二十七頁,共五十四頁,編輯于2023年,星期五聚類分析ClusterAnalysis第二十八頁,共五十四頁,編輯于2023年,星期五DendrogramusingAverageLinkage(BetweenGroups)RescaledDistanceClusterCombineCASE0510152025LabelNum+---------+---------+---------+---------+---------+
桑塔納1-+-----------------+紅旗銘仕10-++-------------+捷達14-------------------+I
吉利2---------+---------++---------------+奧托7---------+III
奇瑞4-------+---++-------------+I
富康11-------++---+II
夏利200012-----+-+IIII
羚羊13-----++---++---+I
賽歐3-----+-+II
波羅POLO5-----+II
寶來6---------------+I
別克15-------+-------+I
風神藍鳥16-------++---+I
帕薩特8---------+-----++-----------------------------+廣州本田9---------+I
奧迪A617-------------------+譜系聚類分析和快速聚類——Hierarchical
&K-Mean
ClusterAnalysis第二十九頁,共五十四頁,編輯于2023年,星期五聚類分析的基本概念聚類分析(clusteranalysis)顧名思義是一種分類的多元統計分析方法。按照個體或樣品(individuals,objectsorsubjects)的特征將它們分類,使同一類別內的個體具有盡可能高的同質性(homogeneity),而類別之間則應具有盡可能高的異質性(heterogeneity)。也可以對變量分類,但是更常見的還是對個體分類。為了得到比較合理的分類,首先要采用適當的指標來定量地描述研究對象(樣品或變量,常用的是樣品)之間的聯系的緊密程度。常用的指標為“距離”和“相似系數”。假定研究對象均用所謂的“點”來表示。在聚類分析中,一般的規則是將“距離”較小的點或“相似系數”較大的點歸為同一類,將“距離”較大的點或“相似系數”較小的點歸為不同的類。第三十頁,共五十四頁,編輯于2023年,星期五需要一組表示個體性質或特征的變量,稱之為分類變量。根據個體或樣本之間聯系的緊密程度進行分類。一般來說分類變量的組合都是由研究者規定的,不是像其它多元分析方法那樣估計推導出來的。聚類分析前所有個體或樣品所屬的類別是未知的,類別個數一般也是未知的,分析的依據就是原始數據,沒有任何事先的有關類別的信息可參考。嚴格說來聚類分析并不是純粹的統計技術,它不像其它多元分析法那樣,需要從樣本去推斷總體。聚類分析一般都涉及不到有關統計量的分布,也不需要進行顯著性檢驗。聚類分析更像是一種建立假設的方法,而對假設的檢驗還需要借助其它統計方法。聚類分析的基本概念第三十一頁,共五十四頁,編輯于2023年,星期五第三十二頁,共五十四頁,編輯于2023年,星期五EuclideandistancemodelDimension1210-1-2-3Dimension21.51.0.50.0-.5-1.0-1.5-2.0北京申辦2008年奧運會兩岸關系中國能否加入世貿組織國營和集體企業改組、依法治國教育體制改革打假澳門回歸行業不正之風土地承包政策不變亂收費農村脫貧致富水災后重建農村村務公開、民主選舉減輕農民負擔反腐敗環境保護亞洲金融危機會否波及人民幣是否貶值養老保險社會治安下崗再就業物價漲跌醫療改革住房貨幣化改革多維尺度分析MDS個人利益國家利益農民利益社會利益第三十三頁,共五十四頁,編輯于2023年,星期五對維尺度分析-MultidimensionalScaling在市場研究領域主要研究消費者的態度,衡量消費者的知覺及偏好。涉及的研究對象非常廣泛,例如:汽車、洗頭水、飲料、快餐食品、香煙和國家、企業品牌、政黨候選人等。通過MDS分析能夠為市場研究提供有關消費者的知覺和偏好信息。主要借助計算機統計分析軟件,輸入有關消費者對事物的知覺或偏好數據,轉換為一組對象或對象特征構成的多維空間知覺或偏好圖——感知圖。第三十四頁,共五十四頁,編輯于2023年,星期五應用MDS,收集的數據值大小必須能夠反應兩個研究對象的相似性或差異性程度。這種數據叫做鄰近。所有研究對象的鄰近數據可以用一個鄰近矩陣表示。反映鄰近的測量方式:相似性-數值越大對應著研究對象越相似。差異性-數值越大對應著研究對象越不相似。兩個地點(位置)之間的實際距離。(測量差異性)兩個產品之間相似性或差異性的消費者心理測量。兩個變量的相關性測量。(相關系數測量相似性)從一個對象過渡到另一個對象的轉換概率。例如概率反應了消費者對品牌或產品偏好的變化。(測量相似性)反映兩種事物在一起的程度。例如:用早餐人們經常將兩種食品搭配在一起。(測量相似性)第三十五頁,共五十四頁,編輯于2023年,星期五多維判別分析MultipleDiscriminationAnalysisMDA判別函數2判別函數1-1-21230-1-212-3價格水平交貨速度產品質量銷售力度價格彈性總體服務制造商形象新用戶猶豫/轉移用戶重復購買用戶第三十六頁,共五十四頁,編輯于2023年,星期五判別分析是一種進行統計判別和分類的統計技術手段。它可以就一定數量的個體的一個分類變量和相應的其它多元變量的已知信息,確定分類變量與其它多元變量之間的數量關系,建立判別函數。利用這一數量關系對其他已知多元變量的信息、但未知分組的子類型的個體進行判別分組。市場細分研究中,常涉及判別個體所屬類型的問題。也常涉及不同品牌在一組產品屬性之間的消費者偏好和認知概念,判別分析可以很好地對這種差異進行鑒別。并在低維度空間表現這種差異。因變量(dependentvariable):分組變量——定性數據(個體、產品/品牌、特征)。自變量(independentvariable):判別變量——定量數據(屬性的評價得分)。判別分析第三十七頁,共五十四頁,編輯于2023年,星期五確定分組變量與判別變量間的關系建立判別函數,找到自變量的最佳區分因變量的各個類別的線性組和。也可以確定后驗概率,計算每個個體落入各個類別的概率。確定哪些判別變量x1、x2、x3…、xk對區分類別差異的影響最大。考察各個類別在判別變量方面是否存在顯著差異。確定判別變量是以什么形式影響因變量的,即D是x1x2x3…xk什么形式的函數。根據判別變量的值對個體進行分類。對分析的準確程度進行評價。第三十八頁,共五十四頁,編輯于2023年,星期五-1.0-0.50.00.51.0Dimension1-1.5-1.0-0.50.00.51.0Dimension
2POISONGASHANGDROWNGUNJUMPM15M30M45M60M80F15F30F45F60F80第三十九頁,共五十四頁,編輯于2023年,星期五主要應用——判別和細分市場用戶和非用戶經常購買者和非經常購買者新用戶、流失用戶和忠實用戶忠誠用戶和非忠誠用戶新產品早期使用者和后期使用者消費者心目中喜歡的品牌和不喜歡的品牌消費者對我們的品牌和競爭品牌的不同屬性偏好偏好圖市場細分新產品開發第四十頁,共五十四頁,編輯于2023年,星期五ABCDEFG價格合理性易于服用藥效持久有效性對兒童有益藥性溫和感冒藥品概念圖/品牌圖第四十一頁,共五十四頁,編輯于2023年,星期五Logistic回歸模型第四十二頁,共五十四頁,編輯于2023年,星期五邏輯斯特回歸
Logistic回歸是一種進行統計判別和分類的統計技術手段。它可以就一定數量的個體的一個二分變量(因變量)和相應的其它多個自變量(預測變量)的已知信息,確定二分變量與其它預測變量之間的數量關系,建立Logistic非線性回歸方程。利用回歸方程進行預測和解釋,在其他已知多元變量的信息、但未知分組的個體進行判別分組。
因變量(dependentvariable):0-1變量——二分變量(個體、產品/品牌、特征)。自變量(independentvariable):預測變量——定量數據或定性(屬性的評價得分)。市場細分研究中,常涉及判別個體所屬類別是兩個分類的問題。例如:是否該給某個人發信用卡,是否是用戶,成功和失敗,疾病的診斷等,Logistic回歸可以很好地對這種差異進行鑒別。第四十三頁,共五十四頁,編輯于2023年,星期五.6.4.2.0-.2-.4-.6-.8-1.01.51.0.50.0-.5-1.0新疆寧夏青海甘肅陜西西藏云南貴州四川海南廣西廣東湖南湖北河南山東江西福建安徽浙江江蘇上海黑龍江吉林遼寧內蒙山西河北天津北京200元以上101-200元51-100元50元以下南方區域北方區域話費高省話費低省固定電話話費不同省分布情況對應分析CorrespondenceAnalysis第四十四頁,共五十四頁,編輯于2023年,星期五對應分析的基本概念對應分析是一種數據分析技術,它能夠幫助我們研究由定性變量構成的交互匯總表來揭示變量間的聯系。交互表的信息以圖形的方式展示。是強有力的探索數據技術,主要適用于有多個類別的定類變量。可以揭示同一個變量的各個類別之間的差異,以及不同變量各個類別之間的對應關系。適用于兩個或多個定類變量。第四十五頁,共五十四頁,編輯于2023年,星期五2.01.51.0.50.0-.5-1.0-1.5-2.02.01.51.0.50.0-.5-1.046歲以上36-45歲26-35歲25歲以下無回答/無收入高收入中高收入中等收入中低收入低收入女性男性200元以上101-200元51-100元50元以下大學本科及以上大專高中/中專/技校初中小學及以下不使用小靈通價格敏感性特征無消費欲望者特征固定用戶特征使用移動通訊服務消費者特征SIM卡充值卡特殊需求者特征多元對應分析MultipleCorrespondenceAnalysis第四十六頁,共五十四頁,編輯于2023年,星期五對應分析CorrespondenceAnalysisCA-1.5-1-0.500.511.52-1.5-1-0.500.511.5雪糕雪源清爽甘甜雪浪花洗衣機興奮波瀾歡快個性空調碳酸飲料期望毛毯保健食品天山綠中美純純水純凈玉泉果汁飲料春溪安閑高檔新產品名稱(品牌)測試第四十七頁,共五十四頁,編輯于2023年,星期五第四十八頁,共五十四頁,編輯于2023年,星期五對應分析可以回答以下問題誰是我的用戶?還有誰是我的用戶?誰是我競爭對手的用戶?相對于我的競爭對手的產品,我的產品的定位如何?與競爭對手有何差異?我還應該開發哪些新產品?對于我的新產品,我應該將目標指向哪些消費者?第四十九頁,共五十四頁,編輯于2023年,星期五Dimension11.0.8.6.4.2-.0-.2-.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教師專業發展 課件 第七章 通過互動合作實現教師專業發展
- 2024年成本會計客觀題全部
- 2025年高壓電工考試題庫基礎理論實戰演練題庫試卷
- 2025年消防安全知識考試題庫:消防信息化建設與消防設備管理試題集
- 202年護士執業資格考試題庫:護理倫理學專項護理倫理學知識試題解析
- 大學輔導員招聘考試:2025年校園文化建設案例深度解析試題
- 2 學會寬容 第三課時 (教學設計) -2023-2024學年道德與法治六年級下冊統編版
- 2025年無人機駕駛員職業資格考試試題集
- 2025年心理咨詢師實操技能考核試卷:心理咨詢倫理試題
- 2025年成人高考《語文》詩歌鑒賞易錯點解析及試題試卷
- 產品標識和可追溯性管理培訓
- 施工環境保護培訓課件
- FBS-GC-001-分布式光伏施工日志
- 混凝土組織供應運輸售后服務方案
- 成人體驗館管理制度
- 馬克思的生平
- 慢性鼻竇炎的中醫護理查房課件
- 生理學面部肌膚皮膚管理基礎知識護膚種類介紹培訓成品模板兩篇
- 駕校訓練場地安全生產檢查表
- (完整版)混凝土樁鉆芯法檢測題庫
- 稅務行政執法證據淺析
評論
0/150
提交評論