




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
統計學知識點合集試驗和事件:對某事物或現象所進行的觀察或實驗叫試驗,把結果叫事件.基本事件(elementaryevent):如果一個事件不能分解成兩個或更多個事件,就稱為基本事件。一次觀察只能有一個基本事件。樣本空間:一個試驗中所有的基本事件的全體稱為樣本空間.古典概型:如果某一隨機試驗的結果有限,而且各個結果出現的可能性相等,則某一事件A發生的概率為該事件所包含的基本事件個數m與樣本空間中所包含的基本事件個數n的比值。統計概型:在相同條件下隨機試驗n次,某事件A出現m次(m≤n),則m/n稱為事件A發生的頻率。隨著n增大,該頻率圍繞某一常數p上下波動,且波動幅度逐漸減小,趨于穩定,這個頻率的穩定值就是該事件的概率。概率加法:(1)兩個互斥事件:P(A+B)=P(A)+P(B);任意兩隨機事件:P(A+B)=P(A)+P(B)-P(AB)。事件獨立(independent):一個事件發生與否不會影響另一個事件發生的概率,公式為:P(AB)=P(A)P(B)?;コ猓ㄏ嘁蕾嚕┮欢ú华毩ⅲ华毩⒉灰欢ɑコ猓ㄏ嘁蕾嚕?。全概率公式:根據某一事件發生的各種原因的概率,計算該事件的概率。計算公式為:。貝葉斯公式:在條件概率的基礎上尋找事件發生的原因.計算公式為:
,分母就是全概率公式.也稱為逆概率公式。該公式是在觀察到事件B已發生的條件下,尋找導致A發生的每個原因Ai的概率。P(Ai)稱為驗前概率,P(Ai|B)是驗后概率。0—1分布:。0—1分布也稱為兩點分布,即非A即B。關于是否的概率統統是0-1分布。性別。二項分布:現實生活中,許多事件只是具有兩種互斥結果的離散變量。如男性和女性、某種化驗結果的陰性陽性,這就是二項分布..參數為n,p,記為X~B(n,p)。E(X)=np,D(X)=npq。當成功的概率很小,而試驗次數很大時,二項分布接近泊松分布,此時=np。即P≤0.25,n>20,np≤5.二項定理近似服從正態分布。二項分布是0—1分布的n重實驗,表示含量為n的樣本中,有X個所需結果的概率。二項分布的正態近似:
,其中a=,b=,q=1-p。超幾何分布:.即二項分布中,無放回的情況。泊松分布(poissondistribution):用來描述在一指定時間范圍內或在指定的面積之內某事件出現的次數的分布。如某企業中每月發生的事故次數、單位時間內到達某一服務柜臺需要服務的顧客人數、人壽保險公司每天收到的死亡聲明個數、某種儀器每月出現故障的次數等。公式為:,E(X)=,D(X)=。是給定時間間隔內事件的平均數。期望:各可能值xi與其對應概率pi的乘積之和為該隨機變量X的期望,即。概率密度滿足的條件:(1)f(x)≥0;(2)。連續型隨機變量的概率密度是其分布函數的倒數。。;
.正態分布(normaldistribution):正態分布的概率密度為:,x∈R.記作X~().正態分布圖形特點:(1)f(x)≥0,即整個概率密度曲線都在x軸上方;(2)f(x)相對于x=對稱,并在x=處取到最大值,最大值為;(3)曲線的陡緩由σ決定,σ越大,越平緩,σ越小,曲線越陡峭;(4)當x趨于無窮時,曲線以x軸為漸近線。正態分布的例子:某地區同年齡組兒童的發育特征、某公司的銷售量、同一條件下產品的質量以平均質量為中心上下擺動、特別差和特別好的都是少數,多數在中間狀態,如人群中的高個子和矮個子都是少數,中等身材居多等.標準正態分布,即在正態分布中,=0,σ=1,有,即X~N(0,1).用表示分布函數,表示概率密度。(—x)=1—(x)。方差:即每個隨機變量取值與期望值的離差平方的期望值.隨機變量的方差計算公式為:。標準差:隨機變量的方差的平方根為標準差,記。標準差與隨機變量X有相同的度量單位。期望、標準差、離散系數的使用:如果期望相同,那么比較標準差;如果期望不同,那么比較離散系數.3σ準則:由標準正態分布得:當X~N(0,1)時,P(|X|≤1)=2(1)—1=0.6826;P(|X|≤2)=2(2)-1=0.9545;P(|X|≤3)=2(3)-1=0.9973.這說明X的取值幾乎全部集中在[-3,3]之間,超出這個范圍的不到0.3%。將結論推廣到一般正態,即X~N(,σ)時,有P(|X-|≤σ)=0。6826;P(|X-|≤2σ)=0。9545;P(|X—|≤3σ)=0。9973.可以認為X的值一定落在(—3σ,+3σ)內.矩:(1)為樣本k階矩,其反映出總體k階矩的信息,當k=1時,即均值;(2)為樣本k階中心矩,它反映出總體k階中心矩的信息,當k=2時,即方差;(3)為樣本偏度,它反映總體偏度的信息,偏度反映了隨機變量密度函數曲線在眾數兩邊的對稱偏斜性;
(4)為樣本峰度,它反映出總體峰度的信息,峰度反映密度函數曲線在眾數附近的峰的尖峭程度。充分統計量:統計量加工過程中一點信息都不損失的統計量稱為充分統計量。因子分解定理:充分統計量判定方法.當X=(X1,X2,…,Xn)是來自正態分布N(,σ2)的一個樣本時,若已知,則是σ2的充分統計量,若σ2已知,則是的充分統計量。精確抽樣分布和漸近分布:在總體X的分布類型已知時,若對任一自然數n,都能導出統計量T=(X1,X2,…,Xn)的分布數學表達式,這種分布就是精確抽樣分布,包括卡方、F,t分布;當n較大時,用極限分布作為抽樣分布的一種近似,這種極限分布稱為漸近分布,如中心極限定理.卡方分布:設隨機變量X1,X2,…,Xn相互獨立,且Xi服從標準正態分布N(0,1),則它們的平方和服從自由度為n的分布。E()=n;D()=2n;具有可加性;當自由度增加到足夠大時,分布的概率密度曲線趨于對稱,當n趨于無窮時,的極限分布是正態分布。t分布:也稱為學生氏分布。設隨機變量X~N(0,1),Y~(n),且X與Y獨立,則,其分布稱為t分布,記為t(n),n是自由度。t分布的密度函數是偶函數。當n≥2時,E(t)=0,;當n≥3時,D(t)=n/(n-2)。t(n)的方差比N(0,1)大一些.自由度為1的分布稱為柯西分布,隨著n增加,t分布的密度函數越來越接近標準正態分布的密度函數。實際應用中,當n≥30時,t分布于標準正態分布很接近。另有一個關于t分布的抽樣分布:,稱為服從自由度為(n-1)的t分布。F分布:設隨機變量Y與Z獨立,且Y和Z分別服從自由度為m和n的分布,隨機變量X如下:。則成X服從第一自由度為m,第二自由度為n的F分布,記為X~F(m,n)。E(X)=n/(n—2),n>2;D(X)=,n>4。t分布與F分布的關系:如果隨機變量X服從t(n)分布,則X2服從F(1,n)的F分布。這在回歸系數顯著性檢驗中有用。的抽樣分布(samplingdistribution):當總體分布為正態分布時,的抽樣分布仍然是正態分布,此時E()=,D()=σ2/n,則。其說明當用樣本均值去估計總體均值時,平均來說沒有偏差(無偏性);當n越來越大時,的散布程度越來越小,即用估計越來越準確.中心極限定理(centrallimittheorem):不管總體的分布是什么,只要總體的方差σ2有限且要求n≥30,此時樣本均值的分布總是近似正態分布,即~N(,σ2/n).樣本比例的抽樣分布:如果在樣本大小為n的樣本中具有某一特征的個體數為X,則樣本比例為:.π是總體比例,即p^=X/n=π.兩個樣本均值之差的分布:若為兩個總體,則:
;
;若是兩個樣本,則:
;
。樣本方差的分布:設X1,X2,…,Xn為來自正態分布的樣本,則設總體分布為N(,σ2),則樣本方差S2的分布為:。兩個樣本方差比的分布:設X1,X2,…,Xn是來自正態分布的樣本,y1,y2,…,yn也是來自正態分布的樣本,且Xi與yi獨立,則
。參數估計(parameterestimation):用樣本統計量去估計總體的參數.點估計(pointestimate):用樣本統計量的某個取值直接作為總體參數的估計值.區間估計(intervalestimate):是在點估計的基礎上,給出總體參數估計的而一個區間范圍,該區間通常由樣本統計量加減估計誤差得到.置信區間(confidenceinterval):在區間估計中,由樣本統計量所造成的總體參數的估計區間稱為置信區間。置信水平(confidencelevel):如果將構造置信區間的步驟重復多次,置信區間中包含總體參數真值的次數所占的比例為置信水平,也稱為置信度或置信系數。其含義為:如果做了100次抽樣,大概有95次找到的區間包含真值,而不是95%的可能落在區間,因為統計量不涉及概率問題。無偏性(inbiasedenss):指估計量抽樣分布的期望等于被估計的總體參數。設總體參數為θ,估計量為θ^,如果E(θ^)=θ,則稱θ^為θ的無偏估計量。有效性(efficiency):指對同一總體參數的兩個無偏估計量,有更小標準差的估計量更有效.一致性(consistency):指隨著樣本量的增大,點估計量的值越來越接近被估總體的參數,換個說法,一個大樣本給出的估計量要比一個小樣本給出的估計量更接近總體參數。樣本量與置信水平、總體方差和估計誤差的關系:樣本量與置信水平成正比,在其他條件不變的情況下,置信水平越大,所需的樣本量也就越大;樣本量與總體方差成正比,總體的差異越大,所要求的樣本量也越大;樣本量與估計誤差的平方成反比,即可接受的估計誤差的平方越大,所需的樣本量就越小。圓整法則:將樣本量取成較大的整數,也就是將小數點后面的數值一律進位成整數.兩類錯誤:一類是原假設H0為真卻拒絕,這類錯誤用α表示,稱為棄真;另一類是原假設為偽而我們卻接受,這種錯誤用β表示,也稱存偽.兩類錯誤的控制原則:如果減小α錯誤,就會增大犯β錯誤的機會;若減小β錯誤,也會增大犯α錯誤的機會.規則是:首先控制α錯誤,這是因為原假設是什么常常是明確的,而備擇假設是什么則常常是模糊的.P值:P值是當原假設為真時所得到的樣本觀察結果或更極端結果出現的概率。P值越小,拒絕原假設的理由就越充分。P值的長處是它反映了觀察到的實際數據與原假設之間不一致的概率值.雙側檢驗與單側檢驗:雙側檢驗主要是檢驗是否相等,如90年的嬰兒體重與89年嬰兒體重是否相等;另一種是單側檢驗,即關心的假設問題帶有方向性,如燈泡的使用壽命,汽車行駛距離等;另一種是數值越小越好,如廢品率、生產成本等。統計量的選擇:在一個總體參數的檢驗中,主要統計量有三個,z、t和.z和t用于均值和比例檢驗,用于方差檢驗。統計量選擇步驟如下:(1)是否是大樣本,如果是,那么如果總體呈正態分布,樣本統計量也呈正態分布;如果總體不呈正態分布,樣本統計量漸進服從正態分布;此時可以使用z統計量(2)如果是小樣本,那么觀察σ,如果σ已知,樣本統計量將服從正態分布,此時可以用z統計量(3)如果未知σ,則只能使用樣本標準差,樣本統計量服從t分布,應采用t統計量。t統計量的精度不如z統計量,這是總體信息σ未知所需要付出的代價.總體比例檢驗公式:。P為樣本比例,π0是總體比例π的假設值.總體(population):包含所研究的全部個體的集合,組成總體的每一個元素稱為個體。當總體的范圍難以確定時,可根據研究的目的來定義總體.樣本(sample):樣本是從總體中抽取的一部分元素的集合,構成樣本的元素的數目稱為樣本量.參數(parameter):參數是用來描述總體特征的概括性數字度量。統計量(statistic):統計量是用來描述樣本特征的概括性數字度量.抽樣的目的就是根據樣本統計量估計總體參數。統計量中不能包含未知參數。變量(variable):說明現象某種特征的概念,特點是從一次觀察到下一次觀察結果會呈現出差別或變化。變量分為分類變量、順序變量、數值型變量,數值型變量又分為離散型變量和連續型變量。概率抽樣(probabilitysampling):也稱隨機抽樣,指遵循隨機原則進行的抽樣,總體中每個單位都有一定的機會被選入樣本。概率抽樣分為簡單隨機抽樣、分層抽樣、整群抽樣、系統抽樣和多階段抽樣。簡單隨機抽樣(simplerandomsampling):從包括總體N個單位的抽樣框中隨機的一個一個的抽取n個單位作為樣本,每個單位的入樣概率是相等的。非概率抽樣(non-simplerandomsampling):指抽取樣本時不依據隨機原則,而是根據研究目的對數據的要求,采用某種方式從總體中抽出部分單位對其實施調查。包括方便抽樣、判斷抽樣、自愿樣本、滾雪球抽樣和配額抽樣。抽樣誤差(samplingerror):指由于抽樣的隨機性引起的樣本結果與總體真值之間的誤差。頻數(frequency):是落在某一特定類別或組中的數據個數。把各個類別及落在其中的相應頻數全部列出,并用表格形式表現出來,稱為頻數分布。列聯表(contingencytable)和交叉表(crosstable):由兩個或兩個以上變量交叉分類的頻數分布表稱為列聯表.二維的列聯表又稱為交叉表。帕累托圖(paretochart):按各類別數據出現的頻數多少排序后繪制的條形圖。通過對條形圖排序,容易看出哪類數據出現得多,哪類數據出現的少.餅圖(piechart):是用圓形及圓內扇形的角度來表示數值大小的圖形,它主要用于表示一個樣本中各組成部分的數據站全部數據的比例,對于研究結構性問題十分有用.環形圖(doughnutchart):把餅圖疊在一起,挖去中間部分就是環形圖。環形圖可顯示多個樣本部分所占的相應比例,從而有利于構成的比較研究。累積頻數(cumulativefrequencies):將各種有序類別或組的頻數逐級累加起來得到的頻數,通過累積頻數可以很容易看出某一類別以下或某一類別以上的頻數之和。組中值(classmidpoint):是每一組中下限值與上限值中間的值,組中值可以作為該組數據的一個代表值,但是用組中值有一個必要的假定條件,即各組數據在本組內呈均勻分布或在組中值兩側呈對稱分布,否則會產生誤差.直方圖(histogram):適用于展示分組數據分布的圖形,用于大批量數據的分析。莖葉圖(stem-and—leafdisplay):反映原始數據分布的圖形,由莖葉兩部分組成,其圖形是由數字組成的。可以看出數據的分布形狀及數據的離散情況且能保留原始信息,適用于小數據。箱線圖(box-plot):由最大值、最小值、中位數、兩個四分位數組成,主要用于反應原始數據分布的特征,還可以進行多組數據分布特征的比較。線圖(lineplot):主要用于反應現象隨時間變化的特征.散點圖(scatterdiagram):用二維坐標展示兩個變量之間關系的圖形。氣泡圖(bubblechart):可用于展示三個變量之間的關系。一個變量是橫軸、一個變量是縱軸、一個變量用氣泡大小表示。雷達圖(radarchart):也稱蜘蛛圖。設有n組樣本S1,S2…Sn,每個樣本測得P個變量X1,X2…XP,要繪制這P個變量的雷達圖,具體做法是,先畫一個圓,然后將圓P等分,得到P個點,令這P個點分別對應P個變量,再將這P個點與圓心連線,得到P個輻射狀的半徑,這P個半徑分別作為P個變量的坐標軸,每個變量值的大小由半徑上的點到圓心的距離表示,再將同一樣本的值在P個坐標上的點連線.這樣,n個樣本構成的n個多邊形就是雷達圖。雷達圖在顯示或對比各變量的數值總和時十分有用,假定各變量的取值具有相同的正負號,則總的絕對值與圖形所圍成的區域成正比.此外,利用雷達圖可以研究多個樣本之間的相似度。眾數(mode):一組數據中出現次數最多的變量值,用表示.主要用于測度分類數據、順序數據、數值數據的集中趨勢,不受極端值影響,一組數據分布的最高峰點所對應的數值即為眾數.只有在數據量較大時,眾數才有意義。中位數(median):中位數時一組數據排序后處于中間位置上的變量值,用表示。中位數主要用于測度順序數據和數值型數據的集中趨勢,但不適用于分類數據。中位數位置為:(n+1)/2;中位數的值為.中位數是一個位置代表值,其特點是不受極端值影響,在研究收入分配時很有用。平均數也稱為均值(mean),是集中趨勢的最主要測度值,主要適用于數值型數據,不適用于分類數據和順序數據.平均數分為簡單平均數和加權平均數,簡單平均數(simplemean)的計算公式為:.根據分組數據計算的平均數稱為加權平均數(weightedmean).設原始數據被分為k組,各組的組中值分別用表示,各組變量值出現的品數分別用表示,則樣本加權平均數的計算公式為:,其中n=。平均數是一組數據的重心所在,是數據誤差相互抵消后作用的結果.幾何平均數(geometricmean):是n個變量值乘積的n次方根,用G表示,計算公式為:。幾何平均數主要用于計算平均率,當所掌握的變量值本身是比率的形式時,采用幾何平均法更合理。在實際中,幾何平均數主要用于計算現象的平均增長率。異眾比率(variationratio):指非眾數組的頻數占總頻數的比例,用表示,計算公式為:.fm是眾數組的頻數,fi是變量值的總頻數.異眾比率主要用于衡量眾數對一組數據的代表程度.異眾比率越大,說明非眾數組的頻數占總頻數的比重越大,眾數的代表性越差;異眾比率越小,非眾數組的頻數占總頻數的比重越小,眾數的代表性越好。異眾比率可用于分類數據、順序數據和數值型數據.四分位差(quartiledeviation):也稱為內距或四分間距(inter—quartilerange):是上四分位數與下四分位數之差,用表示,計算公式為:.四分位差反映了中間50%數據的離散程度,其數值越小,中間的數越集中;數值越大,中間的數越分散.四分位數不受極值影響??捎糜陧樞驍祿蛿抵禂祿?但不能用于分類數據。極差(range):也稱為全距,用R表示,指一組數據的最大值和最小值之差.計算公式為:.極差容易受極端值影響。平均差(meandeviation):也稱為平均絕對離差(meanabsolutedeviation):是各變量值與其平均數離差絕對值的平均數。用表示.平均差以平均數為中心,反應了每個數據與平均數的平均差異程度,能全面反應一組數據的平均差異程度,但由于為避免出現0而取絕對值,所以實際中應用較少。
根據未分組數據計算平均差的公式為:;
根據分組數據計算平均差的公式為:。方差(variance)與標準差(standardvariance):方差是各變量值與其平均數離差平方的平均數.方差的平方根是標準差.設樣本方差為,根據分組和未分組數據計算樣本方差的公式為:,其中n-1是自由度.標準差更具有實際意義.自由度(degreeoffreedom):自由度指附加各獨立的觀測值的約束或限制的個數。當樣本數據的個數為n時,若樣本平均數確定后,則附加給n個觀測值的約束個數是1個,因此只有n-1個數據可以自由取值。例如,假定樣本有3個數,2,4,9,則=5,那么如果前兩個值取5和8,則第三個數必須取2才能使=5,所以有一個數是不能自由取值的,所以自由度是n-1.標準分數(standardscore):是變量值與其平均數的離差除以標準差后的值,也稱為標準化值或z分數,計算公式為:.標準分數給出了一組數據中各數值的相對位置.比如,如果某個數值的標準分數為-1.5,就知道該數值低于平均數1.5倍的標準差.標準分數具有均值為0,標準差為1的特性,實際上z分數只是對數據進行了線性轉換。用于數據標準化和檢測離散數據。經驗法估計數據的相對位置:當一組數據對稱分布時,約有68%的數據在平均數±1個標準差內;約有95%的數據在平均數±2個標準差內;約有99%的數據在平均數±3個標準差內。三個標準差之外的數據稱為離群點。切比雪夫不等式(Chebyshev’sinequality):經驗法只適合對稱分布數據,而切比雪夫不等式適用于任何分布的數據,但只給了下界,即所占比例至少是多少。切比雪夫不等式公式為:.根據該公式可知,至少有(1-1/2)個數據落在k個標準差之內,對于k=2,該不等式的含義是,至少有75%的數據落在±2個標準差之內。離散系數:也稱為變異系數(coefficientofvariation),是一組數據的標準差與其相應的平均數之比,計算公式為:。離散系數是測度數據離散程度的相對統計量,主要是用于比較不同樣本數據的離散程度。離散系數大,說明數據的離散程度大。離散系數是比較平均水平不同或計量單位不同的不同組別的變量值的離散程度.離散測度總結:分類數據主要用異眾比率來測度離散程度;順序數據主要用四分位數來測度離散程度;數值數據主要用方差和標準差測度離散程度;而對于不同的樣本數據,用離散系數比較離散程度。偏態(skewness):偏態是對數據分布對稱性的測度。測度偏態的統計量是偏態系數(coefficientofskewness),記作SK。根據未分組和分組的原始數據計算偏態系數的公式為:。如果一組數據的分布是對稱的,則偏態系數等于0,表明分布是對稱的,若偏態系數大于1或小于—1,則稱為高度偏態分布;若偏態系數在0。5~1或-1~-0.5,則是中等偏態分布。根據分組的SK公式中,很明顯是將離差的三次方的平均數除以,是將偏態系數轉化為相對數。相對數:是兩個有聯系的指標的比值,它可以從數量上反映兩個相互聯系的現象之間的對比關系.峰態(kurtosis):是對數據分布平峰或尖峰程度的測度。測度峰態的統計量是峰態系數(coefficientofkurtosis),記作K。峰態通常與標準正態分布比較而言的。如果數據服從標準正態分布,則峰度為0,否則為平峰分布或尖峰分布。根據未分組和分組數據計算峰態系數的公式為:,
。當K〉0時為尖峰分布,數據的分布更集中;當K<0時為扁平分布,數據的分布越分散。分組公式中也可以不減3,此時比較的標準是3。分布:主要用于對兩個定類變量之間的關系的分析.對定類變量進行分析,一般是把檢驗問題進行轉化,通過考察頻數與其期望頻數之間的吻合程度,達到檢驗目的。列聯表的分布:有兩個方面,一個是觀察值的分布,一個是期望值的分布。列聯表檢驗:,自由度為:(行數—1)×(列數-1),fe表示期望值頻數,f0表示觀察值頻數.計算出以后,再根據附錄表和顯著性水平計算。如果<,那么不能拒絕原假設,調查數據的差異性是由于抽樣的隨機性造成的。越小,行列之間關系越密切。列聯表檢驗兩種方法:一種是擬合優度檢驗,一種是獨立性檢驗.兩種方法最大的區別在于期望值的求法。擬合優度檢驗期望值的計算方法是:(行合計項/總數)*列總計項;獨立性檢驗期望值的計算方法是:(行合計項/總數)*(列合計項/總數)*合計。獨立性檢驗要求樣本足夠大,如果只有兩個單元,每個單元的期望頻數必須是5以上;倘若有兩個以上的單元,如果20%的單元期望頻數小于5,則不能用檢驗獨立性。相關系數(correlationcoefficient):描述2×2列聯表數據相關程度最常用的一種相關系數。公式為:。當ad=bc時(即對角線數值相乘相等時),=0;若對角線數據有一對為0,=±1,表示兩個變量完全相關。取值主要在0~1,且絕對值越大,相關程度越高.C系數(coefficientofcontingency):也稱列相關系數或列聯系數,主要用于大于2×2列聯表的情況。計算公式為:。當列聯表中兩個變量相互獨立時,c=0,但不可能大于1,一定低于值。C系數可能的最大值依賴于列聯表的行數和列數,且隨著行和列的增大而增大。因此,根據不同的行和列計算的列聯系數無法比較,除非兩個列聯表中的行數和列數一致。C系數中,對于2×2列表,c=0。7071;3×3列表,c=0。8165;4×4列表,c=0.87,這些都是每種列表的最大c值。V系數:V系數也不限列聯表的大小,計算公式為:。min是指行和列中較小的一個。當兩個變量相互獨立時,V=0;當完全相關時,V在0~1之間。如果列聯表中有一維是2,那么V=。單樣本t檢驗:目的是利用來自某總體的樣本數據,推斷該總體的均值是否與制定的檢驗值之間存在差異,它是對總體均值的假設檢驗.其零假設為:總體均值與指定檢驗值之間不存在顯著差異。公式為.兩配對樣本t檢驗:目的是利用來自兩個總體的配對樣本,推斷兩個總體的均值是否存在顯著差異.它和獨立樣本t檢驗的差別就是要求兩個樣本是配對的.由于配對樣本在抽樣時不是相互獨立的,而是相互關聯的,因此在進行統計分析時必須考慮到這種相關性,否則會浪費大量統計信息。要求:兩組樣本容量相同;兩組樣本觀察值順序不能調換;保持一一對應的關系。方差分析(analysisofvariance,ANOVA):通過檢驗各總體均值是否相等來判斷分類型自變量對數值型因變量是否有顯著性影響。數值型數據是因變量,分類型數據是自變量。方差元素():在方差分析中,所要檢驗的對象稱為因素或因子。因素的不同表現稱為水平或處理.每個因子水平下得到的樣本數據稱為觀測值.比如檢驗行業中的四個行業的顯著性差異,那么這就是個單因素(一個大的行業總體)四水平(四個行業)的試驗。組內誤差():來自水平內部的數據誤差稱為組內誤差,也就是由抽樣的隨機性所造成的隨機誤差。組內誤差只含有隨機誤差。組間誤差():來自不同水平之間的數據誤差稱為組間誤差。這種差異可能是由抽樣本身形成的隨機誤差,也可能是由行業本身的系統性因素造成的系統誤差.單因素方差總平方和(SST):反映全部數據誤差大小的平方和,其反映全部觀測值的離散情況.計算公式為:,即每一個水平均值與總均值的差的平方的和.SST=SSE+SSA.自由度為n-1.單因素方差組內平方和(SSE):反映組內數據誤差大小的平方和,也稱誤差平方和或殘差平方和。計算公式為:.自由度為k—1。單因素方差組間平方和(SSA):反映組間數據誤差大小的平方和,也稱因素平方和,反映樣本均值之間的差異程度.計算公式為:。自由度為n—k。三種誤差之間的關系:SSA是對隨機誤差和系統誤差大小的度量,它反映了自變量對因變量的影響,也稱為自變量效應或因子效應;SSE是對隨機誤差大小的度量,它反映了除自變量對因變量的影響之外,其他因素對因變量的影響,SSE也稱為殘差效應。方差分析的三個基本假定:每個總體都服從正態分布;各個總體的方差相同;觀測值相互獨立。均方(meansquarem,MS):由于各誤差平方和的大小與觀測值的多少有關,為了消除觀測值多少對誤差平方和大小的影響,需要將其平均,也就是用各平方和除以他們所對應的自由度,這一結果稱為均方,也稱為方差。F分布():組內均方記為MSE,組間均方稱為MSA。將MSA與MSE對比,即得到方差統計量F,也就是F分布..單因素方差相關系數():為組間平方和(SSA)占總平方和(SST)的比例大小,記為,公式為:。得到的值即自變量對因變量的影響效應的比值,該比值即為殘差效應的比值.把開平方即可測量關系的強度,若得0.59,說明兩者之間有中等以上的關系。方差的多重比較(multiplecomparisonprocedures):通過對總體均值之間的配對比較來進一步檢驗哪些均值之間存在差異。方差的多重比較——最小顯著差異法(LSD):(1)提出假設H0:μi=μj,H1:μi≠μj;(2)計算檢驗統計量:;(3)計算。t的自由度為n—k,k是因素中水平的個數;(4)若,則拒絕H0.雙因素方差分析(two—wayanalysisofvariance):在對實際問題的研究中,有時需要考慮幾個因素對試驗結果的影響。如分析影響彩電銷售的因素時,需要考慮品牌、銷售地區、價格等多個因素的影響。當方差分析中涉及兩個分類型自變量時,稱為雙因素方差分析.雙因素方差分析的交互性:若兩個因素對觀測量的影響是相互獨立的,那么稱為無交互作用的雙因素方差分析,或無重復雙因素分析;如果除了兩個因素對銷售量的單獨影響,兩個因素的搭配還會對銷售量產生一種新的影響,那么稱為有交互的雙因素方差分析,或可重復雙因素分析.雙因素方差總平方和:
,
即總誤差平方和=行因素誤差平方和+列因素誤差平方和+除行列因素之外的剩余因素影響產生的誤差平方和,SST=SSR+SSC+SSE。雙因素方差分析的F分布:,檢驗行因素對因變量的影響是否顯著;,檢驗列因素對因變量的影響是否顯著.雙因素方差相關系數():為行變量平方和(SSR)與列變量平方和(SSC)的和占總平方和(SST)的比例大小,記為,公式為:。得到的值即自變量對因變量的影響效應的比值,該比值即為殘差效應的比值。把開平方即可測量關系的強度,若得0.59,說明兩者之間有中等以上的關系。方差分析中自變量因變量的確定:若要分析A對B是否有影響,那么A是自變量,即影響因變量的因素,B是因變量.方差分析各組均值的精細比較:如果有4個總體均值,單因素分析可以對4個均值單獨總體比較,但有時候需要把4個總體均值分兩組分別比較,此時就可以引入精細比較法。該方法將問題轉化為研究這兩組總的均值是否存在顯著差異。這種事先制定均值的線性組合,再對該線性組合進行檢驗的分析方法就是各組均值的精細比較。協方差分析的要求:協變量是連續型數值變量,多個協變量之間相互獨立,且與因素變量之間也沒有交互影響.協方差分析:將觀察變量總的離差平方和分解為由因變量、因變量交互、協變量、隨機因素引起的,即在扣除了協變量對觀察變量的影響后,分析因變量對觀察變量的影響。協方差分析也采用F檢驗法,處理計算思路和多因素方差分析相似。判斷是否有協變量的方法:繪制圖形,觀察協變量和因變量之間有無關聯性。若從圖形可以判斷兩者有顯著關系,則可引入協方差分析?;貧w與相關:是數值型自變量與數值型因變量之間關系的分析方法。如果研究的是兩個變量之間的關系,則是簡單相關或回歸,如果是兩個以上變量之間的關系,就是多元回歸或相關.回歸和相關還分為線性和非線性。變量之間的關系:變量之間的關系為函數關系或相關關系.函數關系是一一對應的確定關系,而相關關系不存在完全確定的關系。由于影響一個變量的因素有很多,才造成了變量之間關系的不確定性。變量之間存在的不確定的數量關系稱為相關關系。相關的種類:線性相關、非線性相關、完全相關和不相關。如果變量之間的關系近似的表現為一條直線,那么是線性相關;如果變量之間的關系近似的表現為一條曲線,那么是非線性相關或曲線相關;如果一個變量完全依賴于另一個變量,各觀測點落在一條直線上,稱為完全相關;如果兩個變量的觀測點很分散,無任何規律,那么是不相關。相關系數(correlationcoefficient):是根據樣本數據計算的度量兩個變量之間線性關系強度的統計量。若相關系數是根據總體全部數據計算的,稱為總體相關系數,記為ρ;若是根據樣本數計算的,則稱為樣本相關系數,記為r。計算公式為:
該公式也稱為線性相關系數,或皮爾遜相關系數.皮爾遜相關系數適用于連續變量之間的相關程度.R=0只代表無線性關系,但不能代表沒有關系。當r〉0。8,說明蓋度相關;0。5-0。8說明中度相關,0。3—0。5說明低度相關,r<0.3,說明不相關。r的顯著性檢驗方法:(1)提出假設:H0:ρ=0;H1:ρ≠0;(2)計算檢驗的統計量:;(3)決策:根據給定的α和df=n-2,查t分布表,得出tα/2(n—2)的臨界值.若|t|>tα/2,則拒絕零假設,表明總體的兩個變量之間存在顯著性管系。斯皮爾曼相關系數(Spearman):該系數用來度量順序水準變量間的線性相關關系.它是利用兩變量的秩次大小作線性分析。適用條件有二:第一,兩個變量的變量值是以等級次序表示的資料;(2)一個變量的變量值是等級數據,另一個變量的變量值是等距或比率數據,且兩總體不要求是正態分布,樣本容量不一定大于30.缺點是計算精度不高。斯皮爾曼系數用rR表示,公式為:,其中D是兩個變量每對數據等級之差;n是兩列變量值的對數.肯德爾系數(kendall):肯德爾等級相關系數用于反映分類變量相關性的指標,適用于兩個變量均為有序分類的情況.這種指標采用非參數檢驗方法測度變量間的相關關系,利用變量的秩計算一致對數目和非一致對數目.如果兩變量具有較強的正相關,則一致對數目U較大,否則一致對數目和非一致對數目應該相近??系聽栂禂涤嬎愎饺缦拢?。偏相關分析:其是在扣除其他因素的作用大小以后,重新來測度這兩個因素間的關聯程度。這種方法的目的在于消除其他變量關聯性的傳遞效應。偏相關系數計算公式為:。距離分析:距離分析是對觀測量之間或變量之間相似或不相似的程度的一種測度,根據變量的不同類型,可以有許多距離、相似程度測量指標供用戶選擇。但由于距離分析只是一個預分析過程,所以距離分析不會給出P值,而只能給出各變量/記錄間距離的大小,以供用戶自行判斷相似性。調用距離分析過程可對變量內部各觀察單位間的數值進行距離相關分析,以考察相互間的接近程度,也可用于考察變量的相似程度.在距離分析中,主要利用變量間的相似性測度和不相似性測度度量研究對象之間的關系?;貧w分析:側重于測度變量之間的關系強度,并通過一定數學表達式將這種關系描述出來,進而確定一個或幾個變量(自變量)的變化對另一個特定變量(因變量)的影響程度?;貧w分析解決的問題:(1)確定變量之間的表達式;(2)對關系式的可信程度進行檢驗,并從影響某一特定變量的諸多變量中找出哪些變量的影響是顯著的,那些是不顯著的;(3)預測.自變量和因變量:被預測或被解釋的變量稱為因變量;用來預測或用來解釋因變量的變量稱為自變量.如預測一定的貸款余額條件下的不良貸款是多少,被預測的不良貸款,是因變量,用來預測的是貸款余額,是自變量。一元線性回歸:當回歸中只涉及一個自變量時稱為一元回歸,若因變量y與自變量x之間的為線性關系時,是一元線性回歸?;貧w模型(regressionmodel):描述因變量y如何依賴于自變量x和誤差ε的方程稱為回歸模型。只涉及一個自變量的一元線性回歸模型可表示為y=β0+β1x+ε。誤差項ε:是一個服從正態分布的隨機變量,且獨立,即ε~N(0,σ2)。獨立性意味著對于一個特定的x值,它所對應的ε與其他x所對應的ε不相關。因此,對于一個特定的x值,它所對應的y值與其他x所對應的y值也不相關.這表明,在x取某個確定值的情況下,y的觀察值非??拷本€;當σ2較大時,y的觀察值將偏離直線。對于任何一個給定的x值,y都服從期望值為β0+β1x,方差為σ2的正態分布,且對于不同的x都具有相同的方差.回歸方程(regressionequation):描述因變量y的期望值如何依賴于自變量x的方程。一元線性回歸方程為:E(y)=β0+β1x。估計的回歸方程(estimatedregressionequation):用樣本統計量和代替回歸方程中未知參數和,即估計的回歸方程。表示回歸直線在縱軸上的截距;是回歸系數。最小二乘估計:用最小化圖中垂直方向的離差平方和來估計參數β0和β1,根據這一方法確定模型參數β0和β1的方法稱為最小二乘法,也稱最小平方法。它是通過使用因變量的觀察值yi與估計值之間的離差平方和達到最小來估計β0和β1的方法。公式為。在回歸分析中對截距β0不賦予任何意義。擬合優度(goodnessoffit):回歸直線與各觀測點的接近程度稱為回歸直線對數據的擬合優度.為說明直線的擬合優度,需要計算判定系數。判定系數:判定系數是對估計的回歸方程擬合優度的度量。變差:因變量y的取值是不同的,y取值的這種波動稱為變差。變差產生的原因有兩個:第一,由自變量x的取值不同造成的;第二,除x以外的其他因素(非線性影響或測量誤差等)的影響。對一個具體的觀測值來說,變差的大小可以用實際觀測值y與其均值之差(y-)來表示。而n次觀察值的總變差可由這些離差的平方和表示,稱為總平方和,記為SST,即。在該公式中,等號右邊后半部分反映y的總變差中由于x和y之間的線性關系引起的y的變化部分,它是可以由回歸直線來解釋的yi變差部分,稱為回歸平方和,記為SSR;另一部分是各實際觀測點與回歸值的殘差的平方和,它是除x對y的線性影響之外的其他因素對y的變差作用,是不能由回歸直線來解釋的yi變差部分,稱為殘差平和和或誤差平方和,記為SSE。回歸直線擬合的好壞取決于(SSR/SST),各點越靠近直線,比例越大,直線擬合越好.該比例稱為判定系數,記為。判定系數的判定:若所有觀測點都落在直線上,殘差平方和SSE=0,=1,擬合是完全的;如果y的變化與x無關,x完全無助于解釋y的變差,此時,=0。越接近于1,回歸平方和占總平方和的比率越大。估計標準誤差(standarderrorofestimate):度量各實際觀測點在直線周圍的散布狀況的一個統計量,它是均方殘差的平方根,用SE表示,其計算公式為:
。估計標準誤差是對誤差項ε的標準差σ的估計,它可以看作在排除了x對y的線性影響后,y隨機波動大小的一個估計量.從估計標準誤差的實際意義看,它反映了用估計的回歸方程預測因變量y時預測誤差的大小,若各觀測點越靠近直線SE越小,回歸直線對各觀測點的代表性就越好,根據估計的回歸方程進行預測也就越準確;若各觀測點全部落在直線上,則SE=0?;貧w分析的檢驗有兩個內容:一是線性關系檢驗,二是回歸系數檢驗。前者檢驗x和y之間的線性關系是否顯著,后者是檢驗x對y的影響是否顯著。線性關系檢驗的步驟:(1)提出假設:H0:β1=0,即兩個變量之間的線性關系不顯著;(2)計算檢驗統計量F:;(3)決策:確定顯著性水平α,并根據分子的df=1和分母的df=n—2查F分布表,找到響應的臨界值Fα。若F>Fα,拒絕H0,表明兩個變量之間的線性關系顯著;否則,不拒絕H0,表明沒有證據表明兩個變量之間線性關系是顯著的?;貧w系數檢驗步驟:(1)提出假設:H0:β1=0,即回歸系數β1=0;(2)計算檢驗統計量:,其中,Se是ε的估計值;(3)決策:確定顯著性水平α,并根據分子的df=n—2查t分布表,找到響應的臨界值tα/2。若|t|>tα/2,拒絕H0,否則接受H0,表明沒有證據表明兩個變量之間線性關系是顯著的。在一元線性回歸中,線性的檢驗和回歸的檢驗是等價的。點估計:對于x的一個特定值x0,求出y的一個估計值就是點估計。點估計可以分為兩種:一是平均值的點估計,二是個別值的點估計。前者是對總體參數的估計,后者是對因變量的某個具體取值估計。平均值點估計和個別值點估計:平均值點估計是利用估計的回歸方程,對于x的一個特定值x0,求出y的平均值的一個估計值E(y0);個別值點估計是利用估計的回歸方程,對于x的一個特定值x0,求出y的一個個別值.在點估計條件下,對于同一個x0,平均值的點估計和個別值的點估計的結果是一樣的,但在區間估計中不同。區間估計:利用估計的回歸方程,對于x的一個特定值x0,求出y的一個估計值的區間就是區間估計。區間估計有兩種:一是置信區間估計,它是對x的一個特定值x0,求出y的平均值的估計區間,這一區間稱為置信區間;二是預測區間估計,它是對x的一個給定值x0,求出y的一個個別值的估計區間,這一區間稱為預測區間。置信區間估計(confidenceintervalestimate)計算步驟:(1)計算點估計值;(2)計算tα/2(n-2);(3)根據殘差計算如下公式:,即得區間。當時,估計最精確,否則,y的平均值的置信區間就越寬,越不精確。預測區間估計(predictionintervalestimate):方法與置信區間估計相似,但公式變成了,多了一個1,因此預測區間要比置信區間寬。四種估計舉例:(1)平均值點估計:估計貸款余額為100億元,所有分行不良貸款的平均值;(2)個別值點估計:估計貸款余額為72。8億元的那個分行的不良貸款;(3)置信區間估計:估計貸款余額為100億元,建立不良貸款的95%的置信區間;(4)預測區間估計:估計貸款余額為72.8億元的那個分行的不良貸款的95%的置信區間。一元線性回歸的注意:不能用樣本數據之外的x值去預測相應的y值.殘差分析(residual):確定有關ε的假定是否成立的方法之一是殘差分析。標準化殘差(standardizedresidual):對ε正態性假定的檢驗,也可通過對標準化殘差的分析來完成。標準化殘差是殘差除以它的標準差后得到的數值,也稱為皮爾遜殘差或半學生化殘差(semi-studentizedresiduals),用ze表示。第i個觀察值的標準化殘差表示為:,se是殘差的標準差估計.如果誤差項ε服從正態分布這一假設成立,那么標準化殘差的分布也應服從正態分布。因此,在標準化殘差圖中,大約有95%的標準化殘差落在±2之間。多元回歸模型(multipleregressionmodel):設因變量為y,k個自變量分別為x1,x2…xk和誤差ε的方程為多元回歸模型。公式為。多元回歸方程(multipleregressionequation):即,它描述了因變量y的期望值與自變量xi之間的關系.多重判定系數(multiplecoefficientifdetermination):是多元回歸中的回歸平方和占總平方和的比例,它是度量多元回歸方程擬合程度的一個統計量,反映了在因變量y的變差中被估計的回歸方程所解釋的比例。調整的多重判定系數(adjustedmultiplecoefficientofdetermination):調整的多重判定系數記為,計算公式為:。與R方類似,不同的是同時考慮了樣本量n和模型中自變量的個數k的影響,這就使得的值永遠小于R方,,而的值卻不會由于模型中自變量個數的增加而越來越接近.因此,多元回歸用調整的多重判定系數。復相關系數:R方的平方根稱為復相關系數,或者多重相關系數,它度量了因變量同k個自變量的相關程度。多元線性回歸的估計標準誤差:.多元回歸線性關系檢驗步驟:(1)作出假設:H0:β1=β2=…βk=0;(2)計算F統計量;(3)作出決策:給定α,根據分子自由度l,分母自由度n-k-1,查F分布表,若F>Fα,則接受原假設.多元回歸系數檢驗步驟:(1)提出假設:H0:βi=0,即回歸系數βi=0;(2)計算檢驗統計量:,其中,Se是ε的估計值;(3)決策:確定顯著性水平α,并根據分子的df=n-k-1查t分布表,找到響應的臨界值tα/2。若|t|〉tα/2,拒絕H0,否則接受H0,表明沒有證據表明兩個變量之間線性關系是顯著的。在一元線性回歸中,線性的檢驗和回歸的檢驗是等價的。多元回歸系數的置信區間:。多重共線性(multicollinearity):當回歸模型中兩個或兩個以上的自變量彼此相關時,則稱回歸模型中存在多重共線性。多重共線性會帶來如下問題:(1)可能會使回歸的結果造成混亂,甚至會把分析引入歧途;(2)多重共線性可能對參數估計的正負號產生影響。多重共線性的判別:(1)模型中各對自變量之間顯著相關;(2)當模型線性關系檢驗(F)顯著時,幾乎所有回歸系數βi的t檢驗卻不顯著;(3)回歸系數的正負號與預期相反?;貧w搜尋過程:如果在進行回歸時,每次只增加一個變量,并將新變量與已經存在模型中的變量進行比較,若新變量引入模型后以前的某個變量的t統計量不顯著,這個變量就會被從模型中剔除,在這種情況下,回歸分析就很難存在多重共線性的影響,這就是回歸中的搜尋過程.回歸分析自變量選擇原理及方法:將一個或多個自變量引入回歸模型時,是否使殘差平方和SSE有顯著減少.如果是,則說明應該引入這個變量.標準就是F統計量。變量選擇的方法有向前選擇(forwardselection)、向后剔除(backwardelimination)、逐步回歸(stepwiseregression)、最優子集(bestsubset)。向前選擇:首先對k個自變量分別擬合對因變量y的一元線性回歸模型,共有k個,然后找出F統計量的值最高的模型及其自變量xi,并引入模型;然后在已經引入模型的xi的基礎上,再分別擬合引入模型外的k-1個自變量,挑選出F統計量的值最大的含有兩個自變量的模型,并將F統計量的值最大的那個自變量xj引入模型。向后剔除:對因變量擬合包括所有k個自變量的線性回歸模型。然后考察p個去掉一個自變量的模型,使模型的SSE值減少最少的自變量被挑選出來并從模型中剔除。逐步回歸:是以上兩種方法的結合。前兩步與前向回歸相同,但在增加了一個自變量后,對模型中所有的變量進行考察,看看有無可能剔除某變量。如果在增加了一個自變量后,前面增加的某個自變量對模型的貢獻變得不顯著,這個變量就會被剔除。非線性回歸模型:.f是期望函數。非參數檢驗:是不依賴總體分布的統計推斷方法。它是指在總體不服從正態分布且分布情況不明時,用來檢驗數據資料是否來自同一個總體假設的一類檢驗方法。適用于計量信息較弱的資料,幾乎什么類型的數據都可以做。非參數檢驗:用于檢驗觀測數據是否與某種概率分布的理論數值相符合,進而推斷觀測數據是否是來自于該分布的樣本的問題。零假設:樣本X來自的總體分布服從期望分布的某一理論分布。值越大,觀察頻數和理論頻數距離越遠;值越小,觀察頻數和理論頻數越接近。二項分布檢驗:就是對只具有兩種互斥結果的離散型隨機事件的規律性進行描述的一種概率分布。H0:樣本來自的總體與某個指定的二項分布無顯著性差異;H1:樣本來自的總體與某個指定的二項分布有顯著差異。二項分布檢驗要求變量必須是數值型變量,假如是字符型的,需要對數據進行轉化。如果變量不是二元變量,需要設置斷點,將數據分開。游程檢驗:游程可以用來檢驗任何序列的隨機性,而不管這個序列是怎樣產生的.此外,游程檢驗還可以用來判斷兩個總體的分布是否相同,從而檢驗出它們的位置中心有無顯著差異。一個游程就是某序列中同類元素的一個持續的最大主集。游程數太大或太小都表示變量值可能不存在隨機性現象。單樣本K-S檢驗:K-S檢驗的是利用數據推斷總體是否服從某一理論分布,一般來說它比卡方檢驗更精確的非參數檢驗法。其零假設是:樣本來自的總體與指定的理論分布無顯著差異。如何判斷兩獨立樣本是否獨立?
看在一個總體中抽取樣本對在另一個總體中抽取樣本有無影響,如果沒有影響,則認為兩個總體是獨立的.數據的秩:簡單說就是數據的名次。將數據按升序排序,這時每個具體數據都會有一個在整個數據中的位置或名次,這就是該數據的秩。兩獨立樣本非參數檢驗方法:曼—惠特尼U檢驗、K-S檢驗、極端反應檢驗、游程檢驗.曼-惠特尼U檢驗:最常用的兩樣本秩和檢驗,零假設是樣本所在的兩獨立總體的均值無顯著差異。其主要是通過對平均秩判斷的。首先將兩組樣本數據混合并按升序排序,求出每個數據各自的秩;然后分別對兩組數據的秩求平均,得到平均秩.如果兩個平均秩相差甚遠,則可以說明一組樣本數據偏小,一組樣本數據偏大.K-S檢驗:零假設是兩組獨立樣本所在的兩總體分布無顯著差異。與單樣本K—S檢驗的區別是:這里是以變量的秩作為分析對象的,而非變量值本身。思路是:首先將兩組樣本數據混合并按升序排序,然后分別計算兩組樣本秩的累計頻率的差,得到差值序列,并得到D統計量,計算D的P值,判斷零假設是否成立.這種方法檢驗的是總體分布情況是否相同,如果只是要檢驗中心位置是否相同,最好不要選擇這種方法。極端反應檢驗:給出結果是單側檢驗。如果施加的處理使得某些個體出現正向效應,而另一些個體出現負向效應,應采取該方法.例如,研究居民對電信資費調整下調的反應,多數人會高興,而電信行業會感到沮喪。基本思想是:將一組樣本作為控制樣本,另一組作為試驗樣本。以控制樣本作為對照,檢驗試驗樣本相對于控制樣本是否出現了極端反應。如果沒有出現,則認為兩個總體分布無顯著差異。游程檢驗:檢驗總體分布情況是否相同,只要兩樣本各自所在總體有任何一點分布上的差別,無論是集中、離散以及其他,它都可以檢驗出其中的差異。如果只是要檢驗中心位置是否相同,最好不要選擇這種方法。多獨立樣本非參數檢驗方法:Kruskal—WallisH檢驗、中位數檢驗、Joneckheere-Terpstra檢驗.Kruskal—WallisH檢驗:是曼-惠特尼U檢驗的推廣,重點分析平均秩。Joneckheere—Terpstra檢驗:該檢驗對連續性資料或有序分類資料都適用,并當分組變量為有序分類資料時,此法的檢驗效能高于Kruskal-WallisH檢驗,適用分類資料。中位數檢驗:檢驗各個樣本是否來自具有相同中位數的總體,三種方法其效能最低。重點分析中間位置.兩配對樣本非參數檢驗:是在對兩組配對樣本的總體分布不甚了解的情況下,推斷樣本來自的兩個總體的分布是否存在顯著性差異的方法.這種檢驗對兩個總體服從的分布不作要求,但必須是成對出現,且順序不能隨意調換。方法有:符號檢驗、Wilcoxon符號秩檢驗、McNemar檢驗和MarginalHomogeneity檢驗.符號檢驗:樣本數據相減所得到的差值應當大致有一半為正,一般為負,數量基本平衡。檢驗效能較低,精度較差。該方法更適用于對無法用數字計量的情況進行比較,比如資料本身就是兩分類,對于連續資料最好不要使用。Wilcoxon符號秩檢驗:是符號檢驗的改進.它既考慮了樣本差數的符號,也考慮了差數的順序。首先,按照符號檢驗的方法,分別將第二組樣本的各個觀察值減去第一組樣本的各個觀察值.如果差值為正,則記為正號,差值為負,則記為負號。然后將差值數據按升序排序,并求出相應的秩.最后,分別計算正號秩總和,負號秩總和以及正號平均值和負號平均秩。如果正號平均秩和負號平均秩大致相等,則可認為量配對樣本數據正負變化程度基本相當,兩配對總體的分布無顯著差異。McNemar檢驗:是配對卡方檢驗,只適用于二分類資料,考察重點是兩組間分類的差異。MarginalHomogeneity檢驗:是McNemar方法向多分類情況下的擴展,適用于資料為有序分類的情況。多配對樣本非參數檢驗方法:Friedman檢驗、Kendall協和系數檢驗、Cochran檢驗。Friedman檢驗:利用秩來檢驗多個總體分布是否存在顯著差異。首先,將不同樣本同一順序的樣本排序成若干行,將各個樣本數據按行升序排序并求得各數據在各自行中的秩;然后分別計算各樣本的秩總和和平均秩。如果多個配對樣本的分布存在顯著差異,那么不同行的秩之間的差異必然較大。因此如果各樣本的平均秩大體相當,那么可以認為各總體的分布無顯著差異。Kendall協和系數檢驗:用于分析評判者的評判標準是否一致公平。它將每個評判對象的分數都看作是來自多個配對總體的樣本,通過計算Kendall協和系數W以檢驗多個相關樣本是否來自同一分布的總體。它不僅可以檢驗k個相關樣本是否來自同一分布的總體,還能檢驗變量間的相關性。W表示k個指標間的相互關聯程度。Cochran檢驗:適用于定性數據或二元數據,它是McNemar方法的推廣。因子分析:對變量作因子分析,稱為R型因子分析;對樣品作因子分析,稱為Q型因子分析。因子分析的思想是:通過對變量的相關系數矩陣內部結構分析,從中找出少數幾個能控制原始變量的隨機變量。建立模型X=AF+ε,以F代替X.因子分析的步驟:(1)確認待分析的原變量是否適合做因子分析:采用計算相關系數矩陣、巴特利特球度檢驗和KMO方法檢驗;(2)構造因子變量;(3)利用旋轉方法使因子變量更具有可解釋性:也就是使一個變量在盡可能少的因子上有較高的載荷;(4)計算因子變量得分。聚類分析的分類:(1)樣品聚類,又稱為Q聚類,或對事件(觀測量)進行聚類,根據反映被觀測對象的特征的各變量值進行分類;(2)變量聚類,又稱為R聚類,即在多個反映事物的特征中找出某一方面進行研究。研究樣品之間的關系方法:(1)相似系數,如夾角余弦、相關系數;(2)距離,如明氏距離、馬氏距離、蘭氏距離。明氏距離:,當q=1,是絕對距離;當q=2,是歐氏距離;當q=3,是切比雪夫距離.當各變量的測量值相差懸殊時,不能用明氏距離,常需要先對數據進行標準化,然后才能用。馬氏距離:.馬氏距離排除了各指標之間相關性的干擾。蘭氏距離:,只適合xij〉0的情況.夾角余弦:。當=1,說明兩個樣品完全相同;接近1,說明相似密切;=0,說明完全不一樣;接近0,說明差別大。相關系數:.K—均值算法又稱為快速聚類算法,可用于大量數據,是一種非分層的聚類方法。步驟是:(1)指定聚類數目k;(2)確定k個初始類的中心;(3)根據距離最近原則進行分類;(4)按照新的中心位置,重新計算每一記錄距離新的類別中心點的距離,并重新分類。系統聚類算法:也稱層次聚類法,有兩種類型:(1)對研究對象本身進行分類,也稱Q聚類;另一種是對研究對象的觀察指標進行分類,稱為R聚類。同時根據聚類過程,又分為分解法和凝聚法.分解法是指開始把所有個體都視為同一大類,然后根據距離和相似性逐層分解,直到參與聚類的每個個體自成一類為止;凝聚法指開始把參與聚類的每個個體視為一類,根據兩類之間的距離或相似性進行逐步合并,直到合并為一個大類。系統聚類的變量可以為連續或分類,當樣本量太大或太多時,運算緩慢。SPSS是凝聚法。判別分析:判別分析是判別樣品所屬類型的一種統計方法。其與聚類不同.判別分析是在已知研究對象分成若干類型并已取得各種類型的一批已知樣品的觀測數據,在此基礎上根據某些規則建立判別式,然后對未知類型的樣品進行判別分類。判別分析和聚類分析的結合:判別分析要求先知道各類總體情況才能判斷新樣品的歸類,當總體分類不清楚時,可先用聚類分析對原來的一批樣品進行分類,然后再用判別分析建立判別式以對新樣品進行判別。時間序列(timeseries):是同一現象在不同時間上的相繼觀察值排列而成的序列.經濟數據中大多數以時間序列的形式給出。用t表示所觀察的時間,Y表示觀察值,則Yi表示為時間ti上的觀察值。平穩序列(stationaryseries):時間序列的一種,基本上不存在。這類序列中的各觀察值基本上在某個固定的水平上波動,但不存在規律性,波動可以看成是隨機的。非平穩序列(non-stationaryseries):是包含趨勢、季節性或周期性的序列,它可能只含有其中的一種成分,也可能是幾種成分的組合。趨勢(trend):時間序列四部分之一。是時間序列在長時間內呈現出來的某種持續向上或向下的變動,也稱為長期趨勢。季節性(seasonality):時間序列四部分之二。也稱為季節變動,它是時間序列在一年內重復出現的周期性波動,如“銷售旺季”和“銷售淡季”等.周期性(cyclicity):時間序列四部分之三。也稱為循環波動,它是時間序列中呈現出來的圍繞長期趨勢的一種波浪形或震蕩式的變動。周期性通常是由商業和經濟活動引起的,它不同于趨勢變動,不是朝著單方向持續運動,而是漲落交替運動;也不是季節運動,季節運動有比較固定的規律,且變動周期多為1年,而循環波動則無固定規律,變動周期多為1年以上,且周期長短不一。周期性由經濟環境變化引起的。不規則波動(irregularvariations):時間序列四部分之四。時間序列中除去趨勢、周期性和季節性之后的偶然性波動,稱為不規則波動,也稱為隨機性波動。增長率(growthrate):也稱為增長速度,它是時間序列中報告期觀察值與基期觀察值之比減一的結果,用%表示。增長率分為環比增長率和定基增長率。環比增長率:是報告期觀察值與前一時期觀察值之比減一,說明現象逐期增長變化的程度;公式為:。定基增長率:是報告期觀察值與某一固定時期觀察值之比減一,說明現象在整個觀察期內總的增長變化程度;公式為:。平均增長率(averagerateofincrease):也稱為平均增長速度,它是時間序列中逐期環比值(也稱環比發展速度)的幾何平均數減一后的結果,計算公式為:
。增長率計算的問題:(1)當時間序列中的觀察值出現0或負數時,不宜計算增長率;(2)在有些情況下,不能單純就增長率論增長率,要注意增長率與絕對水平的結合.絕對水平計算公式為:。時間序列預測步驟:(1)確定時間序列所包含的成分,也就是確定時間序列的類型;(2)找出適合此類時間序列的預測方法;(3)對可能的預測方法進行評估,以確定最佳預測方案;(4)利用最佳預測方案進行預測。確定時間序列的成分方法:(1)確定趨勢成分:繪制時間序列圖或使用線性回歸判斷線性關系;(2)確定季節成分:至少需要兩年的數據,而且數據按季度、月份、周天等來記錄,確定集結成分可以從繪制時間序列的線圖入手,該圖為年度折疊時間序列圖.如果時間序列只存在季節成分,年度折疊時間序列圖中的折線將會有交叉;如果時間序列既含有季節成分又含有趨勢,那么年度折疊時間序列圖中的折線將不會有交叉,而卻如果趨勢是上升的,后面年度的折線將會高于前面年度的折線。一般來說,任何時間序列中都會有不規則成分存在,而商務與管理數據中通常不考慮周期性,所以只剩下趨勢成分和季節成分.選擇預測方法:假定過去的變化趨勢會延續到未來,方法選擇如下:
有趨勢成分無趨勢成分有季節性成分季節性預測法:
(1)季節多元回歸模型;
(2)季節自回歸模型;
(3)時間序列分解。季節性預測法:
(1)季節多元回歸模型;
(2)季節自回歸模型;
(3)時間序列分解。無季節性成分趨勢預測法:
(1)線性趨勢預測;
(2)非線性趨勢預測;
(3)自回歸預測模型.平滑法預測:
(1)簡單平均法;
(2)移動平均法;
(3)指數平滑法.預測方法的評估:通過對預測誤差的評估來判斷預測方法的好壞。主要有以下幾種方法:平均誤差、平均絕對誤差、均方誤差以及平均百分比誤差。平均誤差(meanerror):設時間序列的第i個觀察值為Yi,預測值為Fi,則所有預測誤差(Yi-Fi)的平均數就是平均誤差,用ME表示,計算公式為:。由于預測誤差的數值可能有正有負,求和的結果就會相互抵消,在這種情況下,平均誤差可能會低估誤差。平均絕對誤差(meanabsolutedeviation):是將預測誤差取絕對值后計算的平均誤差,用MAD表示。計算公式為:.平均絕對誤差可以避免相互抵消的問題,因而可以準確反映實際預測誤差的大小。均方誤差(meansquareerror):通過平方消去誤差的正負號后計算的平均誤差,用MSE表示,計算公式為:。三者的應用:ME,MAD和MSE的大小受時間序列數據的水平好計量單位的影響,有時并不能真正反映預測模型的好壞,它們只有在比較不同模型對同一數據的預測時才有意義。平均百分比誤差和平均絕對百分比誤差:它們消除了時間序列數據的水平和計量單位的影響,是反映誤差大小的相對值。分別有MPE和MAPE表示.兩者的計算公式分別為:.簡單平均法:根據過去已有的t期觀察值通過簡單平均來預測下一期的數值。設時間序列已有的t期觀察值為Y1,Y2,…,Yt,則t+1期的一側值Ft+1為:。簡單平均法適合較為平穩的時間序列進行預測,即當時間序列沒有趨勢時,用該方法好.但如果時間序列有趨勢或季節成分,該方法的預測不夠準確.此外,簡單平均法將遠期的數值和近期的數值看做對未來同等重要,但從預測角度看,近期的數值要比遠期的數值對未來有更大的作用.移動平均法:是通過對時間序列逐期遞移求得平均數作為預測值的一種預測方法.簡單移動平均是將最近的k期數據加以平均,作為下一期的預測值。設移動間隔為k,則t期的移動平均值為:。該方法也主要適合對較為平穩的時間序列進行預測。確定步長時,選擇一個使均方誤差達到最小的移動步長。指數平滑法(exponentialsmoothing):是通過對過去的觀察值加權平均進行預測的一種方法,該方法使t+1期的預測值等于t期的實際觀察值與t期的預測值的加權平均值。觀察值時間越遠,其權數也跟
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國數字平面儀行業運行態勢及未來發展趨勢預測報告
- 酸梅果醬項目投資可行性研究分析報告(2024-2030版)
- 2025至2030年中國尾氣除霧器行業投資前景及策略咨詢報告
- 2025至2030年中國尼龍畚斗帶行業投資前景及策略咨詢報告
- 中國房產交易管理產業園區行業市場深度研究及投資戰略規劃報告
- 中國電站鍋爐專用設備行業市場發展前景及發展趨勢與投資戰略研究報告(2024-2030)
- 2025至2030年中國少氣墊式汽車安全座椅行業投資前景及策略咨詢研究報告
- 中國包裝產業園區行業投資分析及發展戰略咨詢報告
- 2025年中國銻錠行業市場深度分析及投資戰略規劃建議報告
- 2025年高標準基本農田建設項目可行性研究報告
- 玉盤二部合唱簡譜
- 《Python程序設計基礎教程(微課版)》全套教學課件
- 統信UOS桌面版系統產品白皮書
- 年產1000噸甲殼素項目環評報告書
- 攝影培訓教學課件:攝影用光
- 食品從業者工作服清洗消毒記錄
- 化妝品經營使用單位現場檢查表
- 骨料檢測知識培訓講義
- DB33∕T 2387-2021 外貿綜合服務企業服務規范
- 農藥經營許可管理制度
- 通用精美電子小報模板(35)
評論
0/150
提交評論