第8章調查資料的統計分析_第1頁
第8章調查資料的統計分析_第2頁
第8章調查資料的統計分析_第3頁
第8章調查資料的統計分析_第4頁
第8章調查資料的統計分析_第5頁
已閱讀5頁,還剩96頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第九章調查資料的統計分析本章結構推論統計3.多元統計4.常用統計分析軟件簡介5.描述統計2.概述1.調查結果的展示6.第一節概述市場調查數據的計量尺度定類尺度(nominalscale)按照某種屬性把事物進行分類,是判斷“屬于/不屬于”的基準。如性別分為男和女兩類,可以用編號1表示男,2表示女。定序尺度(ordinalscale)不僅能將事物分成不同的類別,還可以確定這些類別的優劣或順序,是判斷“A比B…”的基準。如文化程度分為大專及以上、高中、初中和小學及以下四類,可以分別編號為4、3、2、1。定距尺度(intervalscale)不僅能將事物分成不同類別并進行排序,還可以準確地計量它們間的差距。如考試成績,90分比80分高10分。定比尺度(ratioscale)除具有以上三種尺度的所有特性外,還具有“絕對零點”。例如收入,0表示“沒有收入”(稱為“絕對零點”),這時不僅可以說1000元比800元多200元,還可以說1000元是500元的2倍。定性數據定量數據數據的四種計量尺度及其適用統計方法的比較

類型尺度基本性質市場調查案例適用的統計方法描述統計方法推論統計方法定性數據定類尺度表明對象或其類別的數字性別,品牌,商店比例,眾數檢驗,二項式檢驗定序尺度表示對象的相對位置,但不能表示差異大小的數字偏好排序,在市場中的位次,社會層次比例,眾數,中位數順序相關系數,FriedmanANOVA定量數據定距尺度可以比較對象間的差異,但不存在絕對零點態度,意見中位數,全距,均值,標準差相關系數,t檢驗,ANOVA,回歸,因子分析定比尺度存在絕對零點,可以計算對象間的比率年齡、收入、成本、銷售量、市場份額全距,均值,標準差,幾何均值,調和均值變異系數9.1概述市場調查統計分析方法類型描述統計分析即將數據以表格、圖形或數值形式表現出來主要著重于對數量水平或其他特征的描述,但不具有推斷性質。推論統計分析即通過樣本推斷總體。這類方法對數據的收集方法、變量的選擇、測度的決定、資料的時間空間范圍有嚴格限制,必須符合嚴格的假設條件。其結果不僅可用于描述數量關系,還可以推斷總體,進行預測,揭示原因以及檢驗理論等。描述統計分析案例推論統計分析案例采用簡單隨機抽樣方法從甲乙兩學校各自抽取100位學生,甲學校樣本在體育鍛煉上平均每周花費時間為120分,樣本標準差為30,乙學校樣本在體育鍛煉上平均每周花費時間為110分,標準差為10,兩個學校的學生在平均每周體育鍛煉時間上有沒有顯著差異?

甲班乙班第二節描述統計分析定量數據描述統計分析2.定性數據描述統計分析

1.數值表示圖表、圖示數值表示圖示表示多變量相關與回歸分析3.定性數據定量數據案例數據(表9-2某公司30名職工數據)員工號受教育年數(年)職位年薪(元)工作資歷員工號受教育年數(年)職位年薪(元)工作資歷114030150116120171002216036600117120252002380177001182016925024120261001191502670025121594001201203090026161472501211804395027150370501221203150028150277501231704020039151387001241504110031016040350125160348003111203390012612030900312120199501271919200031319152125128191110625314161402002291911350003158019800230120262503定性數據職位:0表示一般職員,1表示管理者工作資歷:1表示工作年限低于5年;2表示工作年限在6-10年;3表示工作年限大于10年定量數據受教育年數(年)年薪(元)一、定性數據描述統計分析——頻數分布表

頻數分布表:頻數分布是數據的表格匯總,表示在幾個互不重疊的組別中每一組項目的頻數和百分比。頻數百分比累計百分比工作年限低于5年1343.33%43.33%工作年限在6-10年930.00%73.33%工作年限大于10年826.67%100.00%總計30100.00%一、定性數據描述統計分析——圖示

餅圖:以圓的整體面積代表被研究現象的總體,按各構成部分占總體比重的大小把圓面積分割成若干扇形來表現部分與總體的比例關系。餅圖一般只能用于單選問題。餅圖不能切成太多的部分,一般不要超過7部分。某城市商品房住戶人均居住面積餅圖

一、定性數據描述統計分析——圖示

線圖又稱曲線圖,即利用線段的升降來說明現象的變動情況,主要用于表示現象在時間上的變化趨勢、現象的分配情況和兩個現象之間的依存關系。包括簡單線圖和復合線圖。一、定性數據描述統計分析——圖示

條形圖:是利用相同寬度的條形的長短或高低來表現數據的大小與變動。如果條形圖橫排,也可稱為帶形圖,縱排也可稱為柱形圖。表現各種不同數值資料相互對比的結果。條形圖可分為簡單條形圖和復合條形圖。一、定性數據描述統計分析——數值表示

眾數(mode)表示一組資料或資料中出現次數最多或最常見的數值。在市場調查資料中,眾數代表了最典型的個案,或分布的高峰所對應的變量值。例如,在A、B、C、D四個品牌中,最受消費者偏愛的是品牌D,那么品牌D或品牌D所對應的編碼(變量值)就是眾數。眾數簡單直觀,主要用于描述定類變量的中心;但是眾數可能會因為資料中個別值的變化而有較大的變化,因而是很不穩定的。EXCEL中計算眾數的函數為:MODE(區域)一、定性數據描述統計分析——數值表示

中位數(median)表示一組資料按照大小的順序排列時中間位置的那個數值。有50%的個案(按某個變量)的取值在中位數之下,50%在它之上。中位數實際上就是一個50百分位數。例如,在某市的調查中13個商場一周的營業額(X)按從小到大的順序排列為(萬元):

23,35,47,59,88,102,145,198,230,256,278,345,388

中位數主要適用于順序變量,對極端值不敏感。EXCEL中計算中位數的函數為:MEDIAN(區域)

二、定量數據描述統計分析——直方圖

直方圖:先把定量數據分組;把研究的變量放在橫軸,每組的頻數或百分比放在縱軸;每組的頻數或百分比用一個長方形繪制,長方形的底是組寬,高是每組相應的頻數或百分比。定量數據的數值表示表9-4EXCEL對公司員工年薪的描述分析描述集中趨勢描述離散趨勢描述對稱和偏斜程度年薪平均42750標準誤差4927.011中位數35700眾數40200標準差26986.35方差7.28E+08峰度4.815795偏度2.169985區域117900最小值17100最大值135000求和1282500觀測數30定量數據的數值表示

集中趨勢分析:就是確定數據一般水平的代表值或中心值,常用的指標有三種,即平均數、中位數和眾數。平均數,也稱為均值(mean),等于變量值之和除于個案數。平均數是最典型的也是最常用的統計量,適用于等距的和等比率的變量。平均數也是最“有意義”的統計量,它可以看成是資料的“平衡點”或“中心”位置所在。由于平均數的計算需要用到所有的資料,因此與中位數和眾數相比,它所含的訊息量最大。但是平均數對個別極端值的變化會是很敏感的。

定量數據的數值表示——離散趨勢分析除了用上述典型的統計量描述分布的中心位置外,還要用一些統計量描述分布圍繞中心向兩個方向分散(伸展)的程度。

方差和標準差:反映所有觀測值對均值的離散關系。方差或標準差越大,均值的代表性越差。EXCEL中方差和標準差的計算函數為:VAR(區域)和STDEV(區域)定量數據的數值表示——離散趨勢分析四分位差(interquartilerange)

將一組數據從小到大排列后,用3個四分位數點()將其分為四個相等的部分,第一個四分位數點是第25百分位數點,又叫下四分位數點;第二個四分位數點是第50百分位數點,即中位數;第三個四分位數點是第75百分位數點,又叫上四分位數點。上四分位數點與下四分位數點之間的距離即為四分位差,記為QD。EXCEL中計算四分位數的函數為:QUARTILE(區域,i),i=0,1,2,3,4。定量數據的數值表示——離散趨勢分析變異系數(coefficientofvariation)也稱為離散系數,即標準差與均值的比值,主要用于不同類別數據離散程度的比較。變異系數消除了測度單位和觀測值水平不同的影響,因而可以直接用來比較數據的離散程度。全距(Range)也稱極差,是一組數據中最大與最小值之差

R=Max(xi)–Min(xi)

定量數據的數值表示——偏度(Skewness)與偏度是指數據分布的偏斜方向和程度。偏態系數的計算公式為:EXCEL中計算偏度的函數為SKEW(區域)

α3為0時,表明分布是對稱的;若為正值,說明正偏離的差值較大,分布為正偏或右偏;若為負值,說明分布為負偏或左偏。α3的絕對值越大,分布的偏斜程度越大。定量數據的數值表示——峰度(Kurtosis)分析

峰度是指分布集中趨勢高峰的形狀,若分布的形狀比比標準正態分布更瘦更高,稱為尖峰分布。相反,若更扁平,稱為平峰分布。

峰度系數,其計算公式為:當α4>0時為尖峰分布,α4<0時為平峰分布。

EXCEL中計算峰度系數的函數為KURT(區域)。例題:分析下列分布的峰度和偏度?三、多變量相關與回歸分析——定性數據定性變量間的相關分析交叉列聯表分析

定量變量間的相關分析散點圖(Scatterdiagram)相關系數(Coefficientofcorrelation)回歸分析(regression)定性變量間的相關分析——交叉列聯表分析交叉列聯表分析是同時描述兩個或兩個以上變量聯合分布的統計技術。進行交叉列聯分析的變量必須是離散變量,并且只能有有限個取值,否則要進行分組。

兩變量的交叉列聯分析列聯表可以清楚地表示兩個類別變量之間的相互關系。

居住時間與對百貨商場的熟悉程度的交叉列聯分析

單位:頻數

熟悉程度居住時間

13年以下13-30年30年以上合計不熟悉453455134熟悉525327132合計978782266居住時間與對百貨商場的熟悉程度的交叉列聯分析

單位:%

熟悉程度居住時間13年以下13-30年30年以上不熟悉46.439.167.1熟悉53.660.932.9合計100.0100.0100.0列百分比居住時間與對百貨商場的熟悉程度的交叉列聯分析

單位:%

熟悉程度居住時間

13年以下13-30年30年以上行合計不熟悉33.625.441.0100.0熟悉39.440.120.5100.0行百分比比較上面兩個表,你選擇哪種百分比?建議:對自變量取百分比自變量為列變量,取列百分比自變量為行變量,取行百分比使用電腦的程度與年齡成反比

不同文化程度的公眾在工作中使用電腦的情況

三變量的交叉列聯表分析引入第三變量后再進行交叉列聯分析,則可能出現以下四種結果:剔除外部環境的影響,使原先兩變量間的關系更單純。否定原先兩變量間的關系。盡管原先觀察兩變量間沒有關系,第三變量的引入可能揭示了它們之間的一些聯系。沒有影響。例1:婚姻狀況和衣服支出水平衣服支出水平婚姻狀況已婚未婚高31%52%低69%48%合計100%100%個案數700300性別、婚姻狀況和衣服支出水平衣服支出水平性別男女婚姻狀況婚姻狀況已婚未婚已婚未婚高35%40%25%60%低65%60%75%40%合計100%100%100%100%個案數400120300180婚姻狀況和衣服支出水平僅分析婚姻狀況和衣服支出水平這兩個變量時,從數字上看未婚者在衣服支出方面比已婚者更高一些。但引入變量性別以后,發現對于男性來說,已婚者與未婚者在衣服支出方面沒有顯著差異,但對于女性未婚者與已婚者,在衣服支出方面的差異則很明顯

私家車受教育水平本科及以上本科以下有32%21%沒有68%79%合計100%100%個案數250750例2:受教育水平對私家車擁有狀況的交叉列聯分析收入、受教育水平對私家車擁有狀況的交叉列聯分析

私家車收入低高受教育水平受教育水平本科及以上本科以下本科及以上本科以下有20%20%40%40%沒有80%80%60%60%合計100%100%100%100%個案數10070015050例3:年齡和出國旅行欲望的交叉列聯分析

是否希望出國旅行年齡45歲以下45歲及以上是50%50%不是50%50%合計100%100%個案數500500性別、年齡和出國旅行的欲望進行交叉列聯分析

是否希望出國旅行性別男女年齡年齡45歲以下45歲及以上45歲以下45歲及以上是60%40%35%65%不是40%60%65%35%合計100%100%100%100%個案數300300200200例4:家庭規模對是否經常吃快餐的交叉列聯分析

是否經常吃快餐家庭規模小大是65%65%不是35%35%合計100%100%個案數500500

家庭收入和家庭規模對是否經常吃快餐的交叉列聯分析

是否經常吃快餐收入低高家庭規模家庭規模小大小大是65%65%65%65%不是35%35%35%35%合計100%100%100%100%個案數500500500500定量變量間的相關分析

吸煙與否與患肺癌與否?收入與消費?納稅人年齡與稅款數量?孕婦飲酒量與嬰兒體重?農作物采光量與生長?相關分析的一般步驟由數據看變量有關系嗎?如果有關系,變量間關系有多強?總體中是否也有此關系?此關系是否因果關系?相關分析

——散點圖散點圖:以一個變量為橫軸,另一個變量為縱軸,每個觀測單元根據兩個變量的取值為坐標以點的形式出現在圖形中。可以直觀地看出變量間的關系形態及聯系程度。線性相關和非線性相關正相關和負相關勞動生產率與利潤總額散點圖

云南內蒙相關分析

——相關系數

相關系數描述兩數值變量之間線性相關的方向和強度.又稱PEARSON相關系數相關系數通常用符號

r表示相關關系的測度

樣本相關系數的計算公式或化簡為相關關系的測度

r

的取值范圍是[-1,1]|r|=1,為完全相關r=1,為完全正相關r=-1,為完全負相關

r=0,不存在線性相關關系-1r<0,為負相關0<r1,為正相關|r|越趨于1表示關系越密切;|r|越趨于0表示關系越不密切相關系數取值及其意義-1.0+1.00-0.5+0.5完全負相關無線性相關完全正相關負相關程度增加r正相關程度增加相關系數若|r|≥0.8,則認為和高度相關;若0.5≤|r|<0.8,則認為和中度相關;若0.3≤|r|<0.5,則認為和低度相關;若|r|<0.3,則認為和之間的相關程度極弱,可視為不相關。使用相關系數的注意事項r

=0只表示和之間不存在線性相關關系,并不是說和之間不存在任何關系,它們間可能存在非線性關系。r大小可能受極端值的影響,不能準確度量變量間的關系,例如多數觀察值存在線性相關,但個別極端值使數據呈非線性相關。r所表現的相關程度同樣本數據的時間范圍有很大關系,在不同時間段,變量間的相關性可能不同。r用樣本數據計算的帶有一定隨機性,尤其樣本量較少時,可能出現虛假相關。因此,實際應用時,必須對它的顯著性進行檢驗。

斯皮爾曼(spearman)相關系數

定序變量等級相關程度

取值范圍在-1和+1之間

定量變量間的回歸分析回歸分析是用來分析一個或一個以上自變量與因變量間的數量關系,以了解當自變量為某一水準或數量時,因變量反應的數量或水準線性回歸模型的一般步驟建立理論模型收集數據散點圖、相關系數分析模型的參數估計模型檢驗模型的應用回歸分析案例引用表9-2的數據,以年薪為因變量,受教育年限和職位為自變量,擬合二元線性回歸模型。

判定系數r2:反應回歸直線的擬和程度方差分析(F)檢驗:回歸方程的顯著性檢驗t檢驗:回歸系數的顯著性檢驗案例分析回歸系數的含義:在相同的職位上,受教育年限(edu)每增長1年,年薪平均增長3669元;相同受教育年限的條件下,管理者(position=1)的年薪比一般職員(position=0)平均增長27144.47元。判定系數(AdjustedRSquare)=0.605表示受教育年限和職位可以解釋年薪的60.5%的信息方差分析檢驗P-value小于0.05,表明方程通過了顯著性檢驗,受教育年限和職位對年薪有顯著的線性影響。受教育年限的t檢驗P-value小于0.05,表明受教育年限都對年薪有顯著的線性影響。職位的t檢驗P-value小于0.05,表明職位對年薪有顯著的線性影響。第三節推論統計根據樣本的信息,對總體的分布以及分布的數字特征進行統計推斷,即推論統計分析。推論統計的前提要求是,樣本是隨機抽樣而來的,對總體有一定的代表性。

參數估計1.假設檢驗2.方差分析3.推論統計——參數估計從公司所有員工中利用有放回簡單隨機抽樣方法抽取30個員工,年薪的樣本均值=42750元,如何估算該公司所有員工的平均年薪呢?公司所有員工的平均年薪:總體參數,是一個未知的常數;樣本員工的平均年薪稱為統計量(用于估計的統計量也稱為估計量),由于統計量對于不同的樣本取值不同,所以估計量是隨機變量。42750元是估計量的一個實現值,也稱為估計值。點估計點估計量的選擇無偏性:如果大量重復抽取樣本,這些樣本的估計值的均值漸近于總體均值。有效性:如果大量重復抽取樣本,這些樣本估計值的方差在所有無偏估計量中最小。估計量的方差和標準差用于衡量估計量的誤差,所以又稱為估計誤差和標準誤差。如表9-4估計出均值估計量的標準誤差=4927.011元。區間估計區間估計:可以提供點估計與總體參數值的接近程度的信息。一定置信度的置信區間的形式一般為:點估計±邊際誤差置信度一般取值為95%:表示是指大量重復抽樣時,產生的大量類似區間中有的包含總體參數值,有的不包含總體參數值;但其中大約有95%的區間會包含總體參數值。邊際誤差則取決于估計量形式、抽樣方法、樣本量、總體方差等因素。推論統計——假設檢驗在總體的分布函數未知或只知其形式不知其參數的情況下,為推斷總體的某些性質,先對總體提出假設,然后根據樣本資料對假設的正確性進行判斷,決定是接受還是拒絕這一假設。參數假設檢驗和非參數假設檢驗例如:一顆骰子,100次總點數:368推測:骰子是否被灌過鉛?假設檢驗中的原理先設立假設,利用掌握的反映現實世界的數據來找出假設和現實的矛盾,從而否定這個假設。反證在一次試驗中小概率事件就發生小概率:在一次試驗中,一個幾乎不可能發生的事件發生的概率,應該是接近0的一個數,可能是0.05,0.01,0.005,0.001等等假設檢驗的過程首先要提出一個原假設(也稱為零假設,nullhypothesis,記為H0),比如m=5。同時提出備選假設(alternativehypothesis,記為H1

),比如m>5。根據零假設,我們可以得到檢驗統計量的分布;然后再看這個統計量的數據實現值(realization)屬不屬于小概率事件。如果的確是小概率事件,那么我們就有可能拒絕零假設,否則我們說沒有足夠證據拒絕零假設。對總體參數的一種看法檢驗統計量在零假設下,等于這個樣本的數據實現值或更加極端值的概率稱為p-值(p-value)總體假設檢驗的過程

(提出假設→抽取樣本→作出決策)抽取隨機樣本均值

X=20我認為人口的平均年齡是50歲提出假設拒絕假設!

別無選擇.作出決策假設檢驗的兩類錯誤根據小概率原理的假設檢驗結論總有可能是錯誤的。可能H0為真時,我們拒絕了H0,這類“棄真”錯誤稱為第I類錯誤;也可能H0不真時我們接受了H0,這類“取偽”錯誤稱為第II類錯誤。在確定檢驗法則時,我們應盡量使犯這兩類錯誤的概率都較小。但在固定樣本量下,要減少犯一類錯誤的概率,則犯另一類錯誤的概率往往增大。要使犯這兩類錯誤的概率都減小,除非增加樣本容量。在給定樣本容量的情況下,我們一般總是控制犯第I類錯誤的概率,使它小于等于(顯著性水平)。這種只對犯第I類錯誤的概率加以控制,而不考慮犯第II類錯誤的檢驗問題,稱為顯著性檢驗問題。假設檢驗的邏輯步驟第一:寫出零假設和備選假設;第二:確定檢驗統計量;第三:確定顯著性水平a;第四:根據數據計算檢驗統計量的實現值;第五:根據這個實現值計算p-值(p-value);第六:進行判斷:如果p-值小于或等于a,就拒絕零假設,這時犯錯誤的概率最多為a;如果p-值大于a,就不拒絕零假設,因為證據不足。

案例分析某化妝品公司開發了一種新型護膚化妝品,委托某市場調查公司進行市場調查,以檢驗消費者的偏好情況。根據該公司管理者的判斷,除非該產品有20%以上的消費者喜歡,否則不能投入生產。因此為檢驗喜歡該新產品的消費者比例是否低于20%,對625人進行一次市場調查。推論統計——方差分析是比較若干個總體均值之差的一種常用統計方法。傳統的方差分析主要用于分析實驗數據,實際上,它們同樣適用于調查數據與觀察數據。方差分析應用時一般假定所比較的總體都服從正態分布,而且具有相同的方差。不過方差分析具有穩健性,在更寬泛的條件下也還是近似有效的。在方差分析中,當涉及的因素只有一個時,稱為單因素方差分析;當涉及的因素為兩個或兩個以上時,統稱為多因素方差分析。單因素方差分析的一般步驟(1)明確因變量與自變量,建立原假設。原假設H0:

(2)數據分別計算總方差、組間方差、組內方差,建立方差分析表

(3)顯著性檢驗,F檢驗。如果顯著性水平低于P值,則拒絕原假設,認為差異顯著。(4)分析結果。如果原假設沒有被拒絕,說明自變量對因變量沒有顯著影響;反之,如果原假設被拒絕,說明自變量對因變量有顯著影響。換句話說,在自變量的不同水平下,因變量的均值是不同的。案例

為了對幾個行業的服務質量進行評價,消費者協會在零售業、旅游業、航空公司、家電制造業分別抽取了不同的樣本,其中零售業抽取7家,旅游業抽取了6家,航空公司抽取5家、家電制造業抽取了5家,然后記錄了一年中消費者對總共23家服務企業投訴的次數,結果如表9.7。試分析這四個行業的服務質量是否有顯著差異?(=0.05)消費者對四個行業的投訴次數

觀察值(j)行業(A)零售業旅游業航空公司家電制造業12345675755464554534762496054565551494855477068636960解:設四個行業被投訴次數的均值分別為,m1、m2

、m3、m4

,則需要檢驗如下假設

H0:m1=m2=m3

=

m4(四個行業的服務質量無顯著差異)H1:m1

,m2

,m3,m4不全相等(有顯著差異)Excel輸出的結果如下結論:拒絕H0。四個行業的服務質量有顯著差異用Excel進行方差分析第1步:選擇“工具”下拉菜單第2步:選擇【數據分析】選項第3步:在分析工具中選擇【單因素方差分析】

,然后選擇【確定】第4步:當對話框出現時

在【輸入區域】方框內鍵入數據單元格區域在【】方框內鍵入0.05(可根據需要確定)

在【輸出選項】中選擇輸出區域第四節多元統計分析聚類分析1.判別分析2.主成分分析3.對應分析5.因子分析4.結合分析6.多元統計分析——聚類分析聚類分析(Clusteranalysis),又稱群分析和類分析,它是依據某種準則對個體(樣品或變量)進行分類的一種多元統計分析方法。“物以類聚”比如在一項全國范圍的市場調查中,需要對我國32個省/市/自治區的經濟發展狀況進行分析。一般不是逐個省/市/自治區去分析,較好的作法是選取能反映經濟發展狀況的有代表性的指標,如國民生產總值(GNP)、工農業總產值、第三產業比重、固定資產投資額、人均國民收入、城市和農村平均每人月收入及通貨膨脹率等指標,根據這些指標對32個省區進行分類。然后依據分類結果,對經濟發展情況進行綜合評價,這就易于得出科學的結論。應用市場細分。例如可以根據消費者購買某產品的各種目的把消費者分類,這樣每個類別內的消費者在購買目的方面是相似的。了解購買行為。聚類分析可以把購買者分類,這樣有助于分別研究各類購買行為。開發新產品。對產品與品牌進行聚類分析,把它們分為不同類別的競爭對手。在同一類別的品牌比其他類的品牌更具有競爭性。公司可以通過比較現有競爭對手,明確新產品的潛在機遇。選擇實驗性市場。通過把不同城市分類,選擇具有可比性的城市檢驗不同的營銷策略的效果。簡化數據。原理

(1)首先在要進行聚類的樣品或變量之間,定義一種能夠反映它們之間親疏程度的量,常用的方法有兩個,即距離和相似系數。距離常用來對樣品進行分類,它把樣本中的每個樣品看成P維空間的一個點,并在空間定義距離,距離較近的點歸為一類,距離較遠的點歸為不同類。相似系數常用來對變量進行分類,性質越相近的變量,相似系數的絕對值越接近于1,反之越接近于0。將相似系數較大的變量歸為一類,相似系數較小的變量歸為不同類。(2)以這些量為聚類的依據,將一些相似程度較大的個體聚為一類,另一些彼此之間相似程度較大的個體聚合為另一類,……,最終將關系密切的聚合到一個小的分類單位,關系疏遠的聚合到一個大的分類單位,直到將所有的個體都聚合完畢,形成一個由小到大的分類系統。(3)直到所有個體都聚合完畢,最后把聚類過程畫成一張圖表示出來(聚類圖或譜系圖),以直觀表現各個體之間的親疏關系。步驟(1)確定問題(2)選擇距離或相似系數的測度。目前使用最多的是歐氏距離或歐式距離的平方。(3)選擇聚類方法。(4)決定類別個數。(5)描述與解釋各個類別。

(6)評價聚類的有效性與準確性。案例消費者購物的態度——20位被訪者的回答

V1購物很有趣。V2購物不利于您的預算。V3購物總是與上飯店吃飯聯系在一起。V4購物時我盡量買得最好。V5我對購物不感興趣。V6購物時多比較價格可以節省很多錢。clusterNoV1V2V3V4V5V615.7503.6256.0003.1251.7503.87521.6673.0001.8333.5005.5003.33333.5005.8333.3336.0003.5006.000比較各類別的消費者對6個態度變量的評價,第一類消費者對于V1和V3的評價相對較高,而對V5評價較低,因此可以稱其為“熱情的購物者”。第二類消費者正好與第一類相反,對于V1和V3的評價相對較低,而對V5評價較高,因此可以稱其為“冷淡的購物者”。

第三類消費者對于V2、V4和V6的評價相對較高,因此可以稱其為“經濟型購物者”。

多元統計分析——判別分析

判別分析是判別樣本所屬類型的一種多元統計方法。例如某品牌的購買者與非購買者之間有什么差別?從人口統計和生活方式看,對某新產品有較高購買可能性的客戶與較低購買可能性的客戶之間的區別?從人口統計和生活方式看,經常光顧某快餐廳的顧客與經常光顧競爭對手快餐廳的顧客之間有何區別?已經選購不同品牌商品的顧客在使用、感知和態度上有何不同?多元統計分析——判別分析原理:判別分析就是在已知研究對象分為若干類型(組別)并已經取得各種類型的一批已知樣品的觀測數據基礎上,根據某些準則建立起盡可能把屬于不同類型的數據區分開來的判別函數,然后用它們來判別未知類型的樣品應該屬于哪一類。分類:根據判別的組數,分為兩組判別分析和多組判別分析;根據判別函數的形式,分為線性判別和非線性判別;根據判別時處理變量的方法不同,分為逐步判別、序貫判別等;根據判別準則的不同,分為距離判別、Fisher判別、Bayes判別等。多元統計分析——主成分分析

主成分分析就是把多個變量重新組合為一組相互無關的幾個綜合變量,而且從中可取幾個較少的綜合變量盡可能多地反映原來變量的信息。例如,評價企業的競爭力要涉及很多指標,例如固定資產、流動資金、產值、利潤、人員素質、科技水平、管理水平、環境等。利用主成分分析能從中找出少量幾個相互獨立的綜合指標代替原先許多的指標,簡化分析。多元統計分析——因子分析

因子分析(Factoranalysis)的目的是使數據簡單化,它是將具有錯綜復雜關系的變量綜合為數量較少的幾個因子,以再現原始變量與因子之間的相互關系,同時根據不同因子,對變量進行分類。在市場調查中的應用:(1)消費者使用習慣和態度研究中,對消費者對產品的態度探查往往需要使用因子分析,探查影響消費者產品態度的基

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論