《統(tǒng)計(jì)學(xué)》完整ppt課件(PPT 228頁)_第1頁
《統(tǒng)計(jì)學(xué)》完整ppt課件(PPT 228頁)_第2頁
《統(tǒng)計(jì)學(xué)》完整ppt課件(PPT 228頁)_第3頁
《統(tǒng)計(jì)學(xué)》完整ppt課件(PPT 228頁)_第4頁
《統(tǒng)計(jì)學(xué)》完整ppt課件(PPT 228頁)_第5頁
已閱讀5頁,還剩223頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、統(tǒng) 計(jì) 學(xué)第一章 統(tǒng)計(jì)和統(tǒng)計(jì)數(shù)據(jù)的收集第二章 統(tǒng)計(jì)數(shù)據(jù)的整理和展示第三章 數(shù)據(jù)的描述性分析 第四章 概率基礎(chǔ)第五章 區(qū)間估計(jì)和假設(shè)檢驗(yàn)第六章 相關(guān)與回歸分析第七章 非參數(shù)統(tǒng)計(jì)第八章 時(shí)間數(shù)列分析第九章 指數(shù)結(jié)束.第1頁,共228頁。第一章 統(tǒng)計(jì)和統(tǒng)計(jì)數(shù)據(jù)的收集一、什么是統(tǒng)計(jì) 二、數(shù)據(jù) 三、搜集數(shù)據(jù)的組織方式 四、有關(guān)數(shù)據(jù)調(diào)查的幾個(gè)問題 主要內(nèi)容目錄.第2頁,共228頁。一、什么是統(tǒng)計(jì) ?(一)統(tǒng)計(jì)包含三種涵義,兩重關(guān)系1. 統(tǒng)計(jì)工作:對(duì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行搜集、整理和分析的過程 。2. 統(tǒng)計(jì)數(shù)據(jù):統(tǒng)計(jì)工作所產(chǎn)生的成果,用以描述我們所研究現(xiàn)象的屬性和特征 。如統(tǒng)計(jì)圖表,統(tǒng)計(jì)分析報(bào)告等。3. 統(tǒng)計(jì)學(xué):一門

2、研究總體數(shù)量特征的方法論科學(xué)。 統(tǒng)計(jì)工作統(tǒng)計(jì)資料統(tǒng) 計(jì) 學(xué)工作與工作成果關(guān)系實(shí)踐與理論關(guān)系.第3頁,共228頁。(二)四個(gè)重要的術(shù)語 所研究的具有某些相同性質(zhì)的全部單位或事件的整體。總體無限總體:含無限多個(gè)單位。范圍 有限總體:含有限個(gè)單位。樣本: 亦可稱為抽樣總體,是從總體中抽取部分單位所組成的整體,用以分析總體。 參數(shù): 亦可稱為總體指標(biāo),是綜合測量的整個(gè)總體的某個(gè)數(shù)量特征。統(tǒng)計(jì)量:亦可稱為樣本指標(biāo),是根據(jù)樣本數(shù)據(jù)計(jì)算的綜合測量值,可用以反映或估計(jì)、推斷總體的某個(gè)數(shù)量特征。 .第4頁,共228頁。(三)統(tǒng)計(jì)學(xué)的內(nèi)容1. 描述統(tǒng)計(jì)關(guān)于搜集、展示一批數(shù)據(jù),并反映這批數(shù)據(jù)特征的各種方法,其目的是

3、為了正確地反映總體的數(shù)量特點(diǎn)。 2. 推斷統(tǒng)計(jì)根據(jù)樣本統(tǒng)計(jì)量估計(jì)和推斷總體參數(shù)的技術(shù)和方法。 描述統(tǒng)計(jì)是推斷統(tǒng)計(jì)的前提,推斷統(tǒng)計(jì)是描述統(tǒng)計(jì)的發(fā)展。.第5頁,共228頁。二、數(shù)據(jù) (一) 為何需要數(shù)據(jù) ?統(tǒng)計(jì)學(xué)要研究各種隨機(jī)變量,通過對(duì)這些隨機(jī)變量的觀察所獲取的數(shù)據(jù)包含了我們所需的信息,這些信息能有助于我們?cè)谠S多場合中做出更為正確的決策。例如: 市場研究者需要對(duì)產(chǎn)品的特性進(jìn)行評(píng)估,以區(qū)分不同的產(chǎn)品。 藥品制造廠商需要判別一種新藥是否比現(xiàn)在正使用著的藥更有效。 .第6頁,共228頁。審計(jì)人員想通過查看某家公司的財(cái)務(wù)報(bào)表,以確認(rèn)這家公司是否是依據(jù)了通行的會(huì)計(jì)準(zhǔn)則做報(bào)表。 財(cái)務(wù)金融分析人員想判斷在未來

4、的五年中,哪些行業(yè)中的哪些公司最具有成長性。 經(jīng)濟(jì)學(xué)家想估計(jì)我國國內(nèi)生產(chǎn)總值今年的增長速度。生產(chǎn)部門的經(jīng)理按慣例要檢查生產(chǎn)過程,以檢驗(yàn)其生產(chǎn)的產(chǎn)品質(zhì)量是否符合公司的標(biāo)準(zhǔn)。 .第7頁,共228頁。(二)數(shù)據(jù)分類的原則互斥原則:每一個(gè)數(shù)據(jù)只能劃歸到某一類型中,而不能既是這一類,又是那一類 。窮盡原則:所有被觀察的數(shù)據(jù)都可被歸屬到適當(dāng)?shù)念愋椭?,沒有一個(gè)數(shù)據(jù)無從歸屬。(三)數(shù)據(jù)的類型1. 定性數(shù)據(jù)和定量數(shù)據(jù)定性數(shù)據(jù):用文字描述的 。如在本章的“統(tǒng)計(jì)引例”中消費(fèi)者對(duì)永美所提供服務(wù)的總體評(píng)價(jià)等都屬于文字描述的定性數(shù)據(jù)。.第8頁,共228頁。定量數(shù)據(jù):用數(shù)字描述的。如企業(yè)的凈資產(chǎn)額、凈利潤額等。2. 離散型

5、數(shù)據(jù)和連續(xù)型數(shù)據(jù)變量 若我們所研究現(xiàn)象的屬性和特征的具體表現(xiàn)在不同時(shí)間、不同空間或不同單位之間可取不同的數(shù)值,則可稱這種數(shù)據(jù)為變量。 類型離散型變量:數(shù)據(jù)只能取整數(shù)。如一家公司的職工人數(shù)。連續(xù)型變量的數(shù)據(jù)可以取介于兩個(gè)數(shù)值之間的任意數(shù)值。如銷售額、經(jīng)濟(jì)增長率等。 .第9頁,共228頁。3. 數(shù)據(jù)的四個(gè)等級(jí) 定類數(shù)據(jù)例如,對(duì)人口按性別劃分為男性和女性兩類。也稱定名數(shù)據(jù),這種數(shù)據(jù)只對(duì)事物的某 種屬性和類別進(jìn)行具體的定性描述。 能夠進(jìn)行的唯一運(yùn)算是計(jì)數(shù),即計(jì)算每一個(gè)類型的頻數(shù)或頻率(即比重)。定類數(shù)據(jù)例如,對(duì)企業(yè)按經(jīng)營管理的水平和取得的效益劃分為一級(jí)企業(yè)、二級(jí)企業(yè)等。定序數(shù)據(jù),也稱序列數(shù)據(jù),是對(duì)事物

6、所具有的屬性順序進(jìn)行描述。 .第10頁,共228頁。定距數(shù)據(jù)如10、20等。它不僅有明確的高低之分,而且可以計(jì)算差距,如20比10高10,比5高15等。 也稱間距數(shù)據(jù),是比定序數(shù)據(jù)的描述功能更好一些的定量數(shù)據(jù)。 定距測定的量可以進(jìn)行加或減的運(yùn)算,但卻不能進(jìn)行乘或除的運(yùn)算。 定比數(shù)據(jù)如產(chǎn)量、產(chǎn)值、固定資產(chǎn)投資額、居民貨幣收入和支出、銀行存款余額等。也稱比率數(shù)據(jù),是比定距數(shù)據(jù)更高一級(jí)的定量數(shù)據(jù)。它不僅可以進(jìn)行加減運(yùn)算,而且還可以作乘除運(yùn)算。 .第11頁,共228頁。測定層次特征運(yùn)算功能舉例1. 定類測定2. 定序測定3. 定距測定4. 定比測定分類分類;排序分類;排序;有基本測量單位分類;排序;有

7、基本測量單位;有絕對(duì)零點(diǎn)計(jì)數(shù)計(jì)數(shù);排序計(jì)數(shù);排序;加減計(jì)數(shù);排序;加減乘除產(chǎn)業(yè)分類企業(yè)等級(jí)溫度商品銷售額統(tǒng)計(jì)數(shù)據(jù)四個(gè)層次的概括 .第12頁,共228頁。4. 截面數(shù)據(jù)和時(shí)間序列數(shù)據(jù) 截面數(shù)據(jù):所搜集的不同單位在同一時(shí)間的數(shù)據(jù)。例如,所有上市公司公布的2004年年度的凈利潤。時(shí)間序列數(shù)據(jù):所搜集的同一總體或單位在不同時(shí)間的數(shù)據(jù)。某公司公布的1993年到2004年的年度凈利潤就是時(shí)間序列數(shù)據(jù)。 5. 原始數(shù)據(jù)和次級(jí)數(shù)據(jù) 原始數(shù)據(jù):指直接從各個(gè)調(diào)查單位搜集的、尚未經(jīng)過整理的統(tǒng)計(jì)數(shù)據(jù)資料,也稱一手?jǐn)?shù)據(jù)。.第13頁,共228頁。次級(jí)數(shù)據(jù):指那些已經(jīng)加工整理過的,往往是公開發(fā)表的數(shù)據(jù),也稱二手?jǐn)?shù)據(jù)。 如從

8、報(bào)紙雜志、統(tǒng)計(jì)年鑒、會(huì)計(jì)報(bào)表上取得的數(shù)據(jù) 。(四)數(shù)據(jù)的來源1. 從政府機(jī)構(gòu)、各種行業(yè)組織、公司和企業(yè)所公布的數(shù)據(jù)中獲取。就是把政府機(jī)構(gòu)、各種組織和公司所公布的數(shù)據(jù)作為來源,這種數(shù)據(jù)往往是次級(jí)數(shù)據(jù)。 2. 設(shè)計(jì)一次試驗(yàn)以獲取必要的數(shù)據(jù)。例如,在檢驗(yàn)洗衣機(jī)洗凈程度的研究中,研究人員通過實(shí)際洗滌臟衣服,來研究哪種牌子的洗衣機(jī)效果最佳。 .第14頁,共228頁。3.從觀察研究中獲取。研究人員通常是在自然狀態(tài)下,進(jìn)行直接的觀察。 例如,觀察路口的交通流量、觀察顧客在商場的購買行為和觀察流水線上的產(chǎn)品質(zhì)量等。4. 進(jìn)行一次調(diào)查。它對(duì)所調(diào)查人們的行為不進(jìn)行任何控制,僅提出諸如出生年月、愛好、消費(fèi)習(xí)慣、對(duì)某

9、一事件的看法和其他特征方面的問題,然后對(duì)他們回答的結(jié)果進(jìn)行整理、編碼、列表和分析。調(diào)查方案的主要內(nèi)容 確定調(diào)查目的確定調(diào)查對(duì)象和調(diào)查單位 擬訂調(diào)查提綱確定調(diào)查時(shí)間 編制調(diào)查的組織計(jì)劃.第15頁,共228頁。三、數(shù)據(jù)搜集的組織方式 (一)普查、抽樣、統(tǒng)計(jì)報(bào)表制度和重點(diǎn)調(diào)查 1.普查特點(diǎn):工作量大,時(shí)間性強(qiáng),需要大量人力和財(cái)力。任務(wù):搜集重要的國情國力和資源狀況的全面資料,為政府制定規(guī)劃、方針政策提供依據(jù)。方式:建立專門機(jī)構(gòu),配備專門人員調(diào)查。利用基層單位原始記錄和核算資料進(jìn)行調(diào)查。原則:規(guī)定統(tǒng)一的標(biāo)準(zhǔn)時(shí)點(diǎn)。規(guī)定統(tǒng)一的普查期限。規(guī)定統(tǒng)一的調(diào)查的項(xiàng)目和指標(biāo)。.第16頁,共228頁。2.抽樣調(diào)查特點(diǎn):

10、1.按隨機(jī)原則從總體中抽取樣本;2.以樣本指標(biāo)(統(tǒng)計(jì)量)為依據(jù)推斷總體參數(shù) 或檢驗(yàn)總體的某種假設(shè);3.抽樣誤差可以事先計(jì)算并加以控制。.第17頁,共228頁。3.統(tǒng)計(jì)報(bào)表制度 是按一定的表式和要求,自上而下統(tǒng)一布置,自下而上提供統(tǒng)計(jì)資料的一種統(tǒng)計(jì)調(diào)查方法。 這種搜集統(tǒng)計(jì)數(shù)據(jù)方法是伴隨著計(jì)劃經(jīng)濟(jì)而產(chǎn)生的,并曾在我國占主導(dǎo)地位。現(xiàn)在,在社會(huì)主義市場經(jīng)濟(jì)條件下,仍是我國搜集統(tǒng)計(jì)數(shù)據(jù)的組織方式之一。.第18頁,共228頁。4.重點(diǎn)調(diào)查特點(diǎn):在總體中選擇個(gè)別或部分重點(diǎn)單位進(jìn)行調(diào)查。任務(wù):及時(shí)了解總體基本情況,為主管部門指導(dǎo)工作服務(wù)。方式:重點(diǎn)單位指在總體中有舉足輕重地位的單位,其標(biāo)志值在總體標(biāo)志總量中占

11、有絕大比重。經(jīng)常性調(diào)查;同報(bào)表制度結(jié)合,用統(tǒng)計(jì)報(bào)表調(diào)查。 例如,要了解全國鋼鐵生產(chǎn)的基本情況,只要調(diào)查鞍鋼、寶鋼、首鋼、武鋼、包鋼等十幾家特大型的鋼鐵企業(yè)就可以掌握全國鋼鐵企業(yè)生產(chǎn)的基本情況 。.第19頁,共228頁。(二)抽樣的優(yōu)點(diǎn) 1.適用的范圍廣。對(duì)于有限總體,從理論上講,既可以進(jìn)行普查也可以進(jìn)行抽樣;對(duì)于無限總體,就只能進(jìn)行抽樣。若理論上可以而實(shí)際上很難采用全面普查的情況,也只能采用抽樣。如產(chǎn)品質(zhì)量的破壞性檢驗(yàn)、居民住戶調(diào)查等。2.與全面普查相比,抽樣最大的優(yōu)點(diǎn)是節(jié)省人、財(cái)、物力和時(shí)間。 3.隨機(jī)抽樣可以比普查更為精確。 .第20頁,共228頁。(三)抽樣的類型 非隨機(jī)抽樣 隨機(jī)抽樣

12、判斷抽樣 定額抽樣 方便抽樣 簡單隨機(jī)抽樣 抽樣類型系統(tǒng)抽樣 分層抽樣 整群抽樣 .第21頁,共228頁。非隨機(jī)抽樣 又稱為非概率抽樣 ,是不按照隨機(jī)原則來抽取樣本中的單位或個(gè)體。 特點(diǎn)具有方便、快速和低成本精確性差,結(jié)論缺乏普遍性 判斷抽樣 又稱為典型調(diào)查,是從事有關(guān)工作的專家按照一定的標(biāo)準(zhǔn)有意識(shí)地在總體中選擇若干有代表性的單位組成樣本進(jìn)行調(diào)查,代表單位的選取標(biāo)準(zhǔn)應(yīng)根據(jù)統(tǒng)計(jì)研究的目的而定。 .第22頁,共228頁。定額抽樣 是根據(jù)已定的單位數(shù)抽取樣本,往往是對(duì)總體了解甚少的時(shí)采用。如想獲取某地區(qū)化妝品的銷售情況,對(duì)該地區(qū)的5家商廈進(jìn)行調(diào)查。方便抽樣 是為了取樣方便,隨意地抽取樣本單位。街頭偶

13、遇式調(diào)查就是一種最為常見的方便抽樣。.第23頁,共228頁。隨機(jī)抽樣 是根據(jù)隨機(jī)原則來抽取樣本單位 .簡單隨機(jī)抽樣 方法:在抽樣框中的每個(gè)單位都具有相同的被抽中的機(jī)會(huì),每個(gè)容量相同的樣本被抽中的機(jī)會(huì)也是相同的。 亦稱為純隨機(jī)抽樣抽取樣本的方法:有放回抽樣和無放回抽樣。 適合:總體內(nèi)部差異不是很大,規(guī)模也不大的情況 。.第24頁,共228頁。系統(tǒng)抽樣方法:抽樣框中的N個(gè)單位被分成k個(gè)系統(tǒng),k等于抽樣框的容量N除以所需的樣本容量n,在抽樣框中前面的k個(gè)個(gè)體或單位中隨機(jī)抽出第一個(gè)樣本單位,然后,可在其后的每隔k個(gè)單位抽取樣本中其余的部分。亦可稱為等距抽樣 編號(hào)有兩種方法:一種是利用原有的順序或編號(hào)

14、。如學(xué)生的注冊(cè)名單,或者是從生產(chǎn)流水線上下來的、有編號(hào)的產(chǎn)品等。對(duì)所研究的總體已有所了解,則可用已知的相關(guān)變量對(duì)抽樣框中的單位進(jìn)行編號(hào)。.第25頁,共228頁。分層抽樣 亦可稱為類型抽樣 方法:將總體全部單位分類,形成若干個(gè)類型組,后從各類型中分別抽取樣本單位,合成樣本??傮wN樣本n等額等比例最優(yōu).第26頁,共228頁。整群抽樣 方法:首先把總體中的N個(gè)單位劃分成為若干個(gè)群,并要求每個(gè)群對(duì)整個(gè)總體都具有代表性,然后對(duì)群進(jìn)行簡單隨機(jī)抽樣,并對(duì)抽中群內(nèi)的所有單位進(jìn)行調(diào)查研究。 總體群數(shù)R=16 樣本群數(shù)r=4 樣本容量ABCDEFGHIJKLMNOPLHPD.第27頁,共228頁。適合:比簡單隨機(jī)

15、抽樣的方法能節(jié)約更多的成本,特別當(dāng)總體的分布地域非常遼闊 時(shí)。.第28頁,共228頁。四、有關(guān)數(shù)據(jù)調(diào)查的幾個(gè)問題 調(diào)查的目的 判斷調(diào)查誤差的大小 調(diào)查誤 差登記性誤差:代表性誤差系統(tǒng)性的代表性誤差 登記、匯總、過錄時(shí)產(chǎn)生的誤差,以及無回答誤差和測量誤差等 偶然性的代表性誤差即為抽樣誤差 .第29頁,共228頁。調(diào)查中的道德性問題 1.調(diào)查者別有用意地、有意識(shí)地選擇導(dǎo)向性的問題,使回答者出現(xiàn)有傾向性的回答。 2.詢問者有意識(shí)地通過語氣、語調(diào)引導(dǎo)被詢問者出現(xiàn)有傾向性的回答。 3.回答者不重視或不愿意回答調(diào)查的內(nèi)容,就很可能提供錯(cuò)誤的信息。 .第30頁,共228頁。第二章 統(tǒng)計(jì)數(shù)據(jù)的整理和展示統(tǒng)計(jì)數(shù)

16、據(jù)的整理 目錄統(tǒng)計(jì)數(shù)據(jù)的展示排序統(tǒng)計(jì)分組頻數(shù)分布編制統(tǒng)計(jì)表統(tǒng)計(jì)圖.第31頁,共228頁。一、 統(tǒng)計(jì)數(shù)據(jù)的整理排序統(tǒng)計(jì)搜集到的大量資料是分散的,不系統(tǒng)的,只能說明各個(gè)單位的特征和屬性,必須按照科學(xué)的原則加以整理,使之條理化和系統(tǒng)化,成為便于儲(chǔ)存和傳遞的、反映總體特征的數(shù)據(jù)。 就是把定量數(shù)據(jù)按從大到小或從小到大的順序排列,把定性數(shù)據(jù)按習(xí)慣的文字順序排列,便于我們研究其條理。 .第32頁,共228頁。統(tǒng)計(jì)分組對(duì)于定性數(shù)據(jù)就是依據(jù)屬性的不同將數(shù)據(jù)劃分成若干組,對(duì)于定量數(shù)據(jù)就是依據(jù)屬性數(shù)值的不同將數(shù)據(jù)劃分成若干組。 組內(nèi)同質(zhì)性,組間差異性。.第33頁,共228頁。頻數(shù)分布編制分組的關(guān)鍵變量的選擇,選擇與

17、研究的問題有關(guān)的 變量 。組限的確定。應(yīng)遵循窮盡和互斥原則 。定性數(shù)列編制:組限的確定一般比較簡單 。如人口按性別分組、企業(yè)按所有制分組等 定量變量編制:分為單項(xiàng)數(shù)列和組距數(shù)列兩種形式。 單項(xiàng)數(shù)列:即變量的一個(gè)取值為一組,適用于離散型變量,并且變量的取值較少。 組距數(shù)列:即每一組有一個(gè)上限值和一個(gè)下限值所形成的區(qū)間,適用于連續(xù)性變量,或離散型變量且變量的取值較多的情況。 .第34頁,共228頁。注意以下三個(gè)方面的問題 1.確定組數(shù) 2.確定組距:組距為上限與下限之差。等距數(shù)列數(shù)據(jù)分布均勻。異距數(shù)列數(shù)據(jù)分布不均勻。 3.確定組限 應(yīng)能把現(xiàn)象的不同類型劃分出來 。要考慮到數(shù)據(jù)是連續(xù)性變量還是離散型

18、變量。 無法確定實(shí)際數(shù)據(jù)的取值范圍,或者數(shù)據(jù)中存在極端數(shù)值,可采用開口組的形式。4.確定組中值 :(上限下限)2 ,開口組 .第35頁,共228頁。二、統(tǒng)計(jì)數(shù)據(jù)的展示當(dāng)統(tǒng)計(jì)數(shù)據(jù)比較多時(shí),就應(yīng)該制作表格或者圖形進(jìn)行來展示,使數(shù)據(jù)的重要特性能從表格或者圖形中直觀地反映出來,這樣可提高分析數(shù)據(jù)和解釋數(shù)據(jù)的效率。 統(tǒng)計(jì)表是把統(tǒng)計(jì)數(shù)據(jù)用表格的形式展示出來。 類型:按作用分調(diào)查表按數(shù)據(jù)所屬的時(shí)間分截面數(shù)據(jù)表時(shí)間序列表 匯總整理表計(jì)算分析表 .第36頁,共228頁。按分組變量的多少分單變量分組表多變量分組表 有平行形式交叉形式 統(tǒng)計(jì)圖統(tǒng)計(jì)圖形通??杀冉y(tǒng)計(jì)表格更生動(dòng)地描述數(shù)據(jù)。 類型:餅圖是以整個(gè)圓的360度

19、代表全部數(shù)據(jù)的總和,按照各類組所占的百分比(頻率),把一個(gè)“餅”切割為各個(gè)扇形。適用于定性數(shù)據(jù)。 50家門店按區(qū)域分組的餅圖 .第37頁,共228頁。條形圖中,每一分類組表示成一個(gè)條,條的長度代表了這個(gè)組中所含數(shù)據(jù)的頻數(shù)或頻率。適用于定性數(shù)據(jù)。 50家門店數(shù)按區(qū)域分組的條形圖家門店按區(qū)域并按人數(shù)分組的分段比例條形圖.第38頁,共228頁。直方圖與條形圖相似,是在每個(gè)分組區(qū)間上繪制一個(gè)長條形而產(chǎn)生的圖形,它可以用來描述已表示成頻數(shù)或頻率的數(shù)據(jù)。適用于定量數(shù)據(jù)。根據(jù)表2-5的等距數(shù)列 對(duì)于異距數(shù)列,以組距為寬,以頻數(shù)密度為高來繪制直方圖。 .第39頁,共228頁。折線圖可以在直方圖基礎(chǔ)上,將每個(gè)長

20、方形的頂端中點(diǎn)用折線連接而成,或用組中值與頻數(shù)(或頻率)求坐標(biāo)點(diǎn)連接而成 。根據(jù)圖2-6的直方圖繪制的折線圖.第40頁,共228頁。曲線圖當(dāng)變量的取值非常多,變量數(shù)列的組數(shù)無限增多時(shí),折線便趨于一條平滑的曲線,這是一種概括描述變量數(shù)列分布特征的理論曲線。 枝葉圖是探索性數(shù)據(jù)分析中的一種方法,也是對(duì)一批數(shù)據(jù)進(jìn)行組織整理的很有價(jià)值的一個(gè)工具,可用以了解一批數(shù)據(jù)中由所有觀測值構(gòu)成的數(shù)據(jù)的取值范圍是如何分布的。 .第41頁,共228頁。第三章 數(shù)據(jù)的描述性分析 本章將討論的是數(shù)據(jù)的總量和相對(duì)關(guān)系的測度,數(shù)據(jù)的集中趨勢(shì)、離散趨勢(shì)及其形態(tài)的測度。 一、絕對(duì)數(shù)和相對(duì)數(shù)二、集中趨勢(shì)的測定三、離散趨勢(shì)的測定四、

21、數(shù)據(jù)的形態(tài)測定主要內(nèi)容.第42頁,共228頁。一、絕對(duì)數(shù)和相對(duì)數(shù)(一)絕對(duì)數(shù)絕對(duì)數(shù)(亦稱總量指標(biāo))是統(tǒng)計(jì)資料經(jīng)過匯總整理后得到的反映總體規(guī)模和水平的總和指標(biāo)。 (3)是計(jì)算相對(duì)指標(biāo)和平均指標(biāo)的基礎(chǔ)。作用概念例如,企業(yè)的銷售收入、一個(gè)地區(qū)或國家的社會(huì)總產(chǎn)值、國內(nèi)生產(chǎn)總值等。 (1)反映一個(gè)國家的國情和國力,一個(gè)地區(qū)或一個(gè)企業(yè)的人力、物力、財(cái)力 (2)是進(jìn)行經(jīng)濟(jì)核算和經(jīng)濟(jì)活動(dòng)分析的基礎(chǔ) .第43頁,共228頁。分類 按反映總體的內(nèi)容分按反映的時(shí)間狀態(tài)分 按計(jì)量單位分變量總值 單位總數(shù)時(shí)期數(shù)時(shí)點(diǎn)數(shù)實(shí)物量價(jià)值量.第44頁,共228頁。 相對(duì)數(shù)是用兩個(gè)有聯(lián)系的指標(biāo)進(jìn)行對(duì)比的比值,可以反映現(xiàn)象的數(shù)量特征和

22、數(shù)量關(guān)系,并可將現(xiàn)象的絕對(duì)差異抽象化,使原來不能直接相比的絕對(duì)數(shù)可以進(jìn)行比較。 種類計(jì)劃完成相對(duì)數(shù)結(jié)構(gòu)相對(duì)數(shù)比較相對(duì)數(shù)強(qiáng)度相對(duì)數(shù)動(dòng)態(tài)相對(duì)數(shù)(二)相對(duì)數(shù)概念.第45頁,共228頁。五種相對(duì)數(shù)指標(biāo)的比較不同時(shí)期比 較動(dòng) 態(tài)相對(duì)數(shù)注:又稱發(fā)展速度 強(qiáng) 度相對(duì)數(shù)注:復(fù)名數(shù)有正逆指標(biāo)不同現(xiàn)象比較不同總體比較比 較相對(duì)數(shù)同一總體中部分與總體比 較實(shí)際與計(jì)劃比 較結(jié) 構(gòu)相對(duì)數(shù)計(jì)劃完成相對(duì)數(shù)注:有正逆指標(biāo)同一時(shí)期比較同類現(xiàn)象比較.第46頁,共228頁。(1)正確選擇對(duì)比的基數(shù);(2)必須注意統(tǒng)計(jì)的可比性;(3)相對(duì)指標(biāo)要與總量指標(biāo)相結(jié)合。應(yīng)用原則.第47頁,共228頁。二、集中趨勢(shì)的測定平均數(shù)概念表明同類現(xiàn)象

23、在一定時(shí)間、地點(diǎn)、條件下所達(dá)到的一般水平,是總體內(nèi)某個(gè)變量大小各異的觀察值的代表性數(shù)值。也是對(duì)變量分布集中趨勢(shì)的測定。數(shù)據(jù)集中區(qū)變量x.第48頁,共228頁。常用的幾種平均數(shù)概 念 計(jì)算 公 式 特 點(diǎn)優(yōu)點(diǎn):容易理, 便于計(jì)算 靈敏度高 穩(wěn)定性好 和 缺點(diǎn):易受極值影響 在偏斜分布和U形分布中,不具有代表性1. 算術(shù)平均數(shù)( )一個(gè)變量的所有觀察值相加,再除以觀察值的個(gè)數(shù) 簡單:加權(quán):.第49頁,共228頁。權(quán)數(shù)解釋權(quán)數(shù)(Weighted),是分布數(shù)列中的頻數(shù)或頻率。對(duì)求平均數(shù)具有權(quán)衡輕重的作用,是影響平均數(shù)變動(dòng)的兩個(gè)因素之一(另一因素是變量值)。(1) (2)(3)X456合計(jì)頻數(shù)頻率(%)

24、10201025.050.025.040100.0X456合計(jì)頻數(shù)頻率(%)20402025.050.025.080100.0X456合計(jì)頻數(shù)頻率(%)20101050.025.025.080100.0 =5 =5 =4.75 頻率分布變了,均值也變。因此,嚴(yán)格地說,權(quán)數(shù)應(yīng)指頻率。.第50頁,共228頁。算術(shù)平均數(shù)的變形數(shù)學(xué)上稱其為調(diào)和平均數(shù),只是用這種形式時(shí),變量的取值不能為0。求某種商品三種零售價(jià)格的平均價(jià)格調(diào)和平均價(jià)格(元)3.32.52.0合計(jì)銷售額(元)10101030.第51頁,共228頁。常用的幾種平均數(shù)概 念 計(jì)算 公 式 特 點(diǎn)優(yōu)點(diǎn):靈敏度高 受極值影響小于 和 適宜于各比率

25、之積為總比率的變量求平均缺點(diǎn):有“ 0”或負(fù)值時(shí)不能計(jì)算 偶數(shù)項(xiàng)數(shù)列只能用正根2. 幾何平均數(shù)( )幾個(gè)變量值連乘積的n次根簡單:加權(quán):.第52頁,共228頁。概 念 計(jì)算 公 式 特 點(diǎn)3. 中位數(shù)(Me)是一種位置平均數(shù),數(shù)據(jù)按大小順序排列,處于數(shù)據(jù)序列中間位置的數(shù)值就是中位數(shù) 上限公式:下限公式:優(yōu)點(diǎn):容易理解, 不受極值影響適宜于開口組資料和些不能用數(shù)字測定的事物缺點(diǎn):靈敏度和計(jì)算功能差 間斷數(shù)Me常用的幾種平均數(shù).第53頁,共228頁。常用的幾種平均數(shù)概 念 計(jì)算 公 式 特 點(diǎn)4. 眾數(shù)(Mo)是一種位置平均數(shù),是一批數(shù)據(jù)中出現(xiàn)次數(shù)最多的那個(gè)數(shù)值.通常只用于定性數(shù)據(jù)或離散型的定量數(shù)

26、據(jù)。上限公式:下限公式:優(yōu)點(diǎn):容易理解, 不受極值影響 缺點(diǎn):靈敏度和計(jì)算功能差 穩(wěn)定性差 具有不唯一性.第54頁,共228頁。25303540455051015f(人數(shù))月收入:元36.11 d1 d255.第55頁,共228頁。位置平均數(shù)與算術(shù)平均數(shù)的關(guān)系1.眾數(shù)適用于所有的定性數(shù)據(jù)和定量數(shù)據(jù) 中位數(shù)適用于定性數(shù)據(jù)中的定序數(shù)據(jù)和定量數(shù)據(jù) 算術(shù)平均數(shù)只適用于定量數(shù)據(jù)2.定量數(shù)據(jù):若是鐘形分布,三種集中趨勢(shì)指標(biāo)一般 都可適用。而對(duì)J形分布,反J形分布和U形分布,中位數(shù)和算術(shù)平均數(shù)沒有任何意義。3.在確定集中趨勢(shì)指標(biāo)的過程中,算術(shù)平均數(shù)比中位數(shù)和眾數(shù)使用了更多的數(shù)據(jù)信息 。4.對(duì)于鐘形分布且數(shù)據(jù)

27、量很大時(shí),三種集中趨勢(shì)指標(biāo)有如下三種數(shù)量關(guān)系: .第56頁,共228頁。XfXfXf(對(duì)稱分布)正偏態(tài)分布(右)負(fù)偏態(tài)分布(左)1212.第57頁,共228頁。應(yīng)用平均指標(biāo)的原則 1必須是同質(zhì)的量方可平均; 2總平均數(shù)與組平均數(shù)結(jié)合分析; 3集中趨勢(shì)與離散趨勢(shì)結(jié)合分析.第58頁,共228頁。三、離散趨勢(shì)的測定概念標(biāo)志變異指標(biāo)是反映變量分布離散趨勢(shì)、與平均指標(biāo)相匹配的指標(biāo)。 (1)反映變量分布的離散趨勢(shì); (3)是對(duì)事物發(fā)展均衡性的量度。 (2)是對(duì)平均數(shù)的代表性程度的量度;作用.第59頁,共228頁。常用的幾種標(biāo)志變異指標(biāo)概 念 計(jì) 算方法 特 點(diǎn)是非眾數(shù)組所占比重 1異眾比率 如百得便利超市

28、公司50家門店按區(qū)域劃分的眾數(shù)是A區(qū)域,該組的次數(shù)是20家,所以異眾比率為60%,這說明50家門店按區(qū)域劃分的離散程度比較大,眾數(shù)的代表性較差。 異眾比率是反映定名數(shù)據(jù)離散趨勢(shì)的唯一指標(biāo),這個(gè)指標(biāo)越小,說明數(shù)據(jù)的離散程度越小,集中程度越大 .第60頁,共228頁。常用的幾種標(biāo)志變異指標(biāo)概 念 計(jì) 算 特 點(diǎn)數(shù)列中最大值與最小值之差2極差 (R)R=最大值-最小值R=最大組的上限-最小組的下限 優(yōu)點(diǎn):容易理解, 計(jì)算方便缺點(diǎn):不能反映全部數(shù)據(jù)分布狀況3四分位差 (M3- M1)/2 在反映數(shù)據(jù)的離散程度方面比全距較為準(zhǔn)確,但仍顯粗略 是一批數(shù)據(jù)中的第三四分位數(shù)與第一四分位數(shù)之差的二分之一 .第6

29、1頁,共228頁。常用的幾種標(biāo)志變異指標(biāo)概 念 計(jì) 算 特 點(diǎn)4平均差 (AD)各標(biāo)志值與均值離差絕對(duì)值的算術(shù)平均簡單:加權(quán):優(yōu)點(diǎn):反映全部數(shù)據(jù)分布狀況 缺點(diǎn):取絕對(duì)值 數(shù)字上 不盡合理所有觀察值與平均數(shù)離差平方平均數(shù)的平方根,亦稱均方差。標(biāo)準(zhǔn)差的平方即為方差。 5方差(2 s2) 和 標(biāo)準(zhǔn)差( s)優(yōu)點(diǎn):反映全部數(shù)據(jù)分布狀況,數(shù)字上合理。缺點(diǎn):受計(jì)量單位和平均水平影響,不便于比較簡單:加權(quán):.第62頁,共228頁。概 念 計(jì) 算 特 點(diǎn)6標(biāo)準(zhǔn)差系 數(shù) (V)標(biāo)準(zhǔn)差與均值之商,是無量綱的兩列數(shù)據(jù)的分布進(jìn)行離散程度的比較,當(dāng)它們的平均數(shù)不等、計(jì)量單位不同時(shí)則應(yīng)消除平均數(shù)不同和計(jì)量單位不可比的影響

30、。此時(shí)就需要用離散系數(shù)這種相對(duì)數(shù)來是測定離散趨勢(shì) 方差(2)和標(biāo)準(zhǔn)差()是應(yīng)用最廣的標(biāo)志變異指標(biāo)常用的幾種標(biāo)志變異指標(biāo).第63頁,共228頁。四、數(shù)據(jù)的形態(tài)測定 偏度:是測定數(shù)據(jù)分布的偏斜程度的指標(biāo).。 定義M=(X-A)k/n為變量X關(guān)于A的k階矩。 當(dāng)A=0,即以原點(diǎn)為中心,上式稱為“K階原點(diǎn)矩”。K=1,2,3時(shí),有:一階原點(diǎn)矩M1=(X-0)1/n=X/n二階原點(diǎn)矩M2=(X-0)2/n=X2/n三階原點(diǎn)矩M3=(X-0)3/n=X3/n 當(dāng)A= ,即以 為中心,上式稱為“K階中心矩”。K=1,2,3時(shí),有:一階中心矩二階中心矩三階中心矩.第64頁,共228頁。 所以,m3可以測定偏度

31、。為消除量綱,轉(zhuǎn)變?yōu)橄禂?shù),再除以3。0正偏態(tài)峰度:是用來反映數(shù)據(jù)分布曲線頂端的尖峭或扁平程度的指標(biāo)。 3尖頂曲線注:在EXCL等軟件中輸出的峰度是在此基礎(chǔ)上再減3。.第65頁,共228頁。五數(shù)概括 :即最小值xmin 、最大值xmax 、第一四分位數(shù)M1、中位數(shù)Me和第三四分位數(shù)M3 五個(gè)數(shù)之間的關(guān)系,確定數(shù)據(jù)分布形態(tài)的方法: 數(shù)據(jù)是完全對(duì)稱 :數(shù)據(jù)是不對(duì)稱 :最小值xmin到中位數(shù)的距離等于中位數(shù)到最大值xmax的距離 。從xmin到M1的距離等于M3到xmax的距離。從xmax到中位數(shù)的距離大于中位數(shù)到xmin的距離。 從M3到xmax的距離大于從從xmin到M1的距離。 右偏分布.第66

32、頁,共228頁。從xmin到中位數(shù)的距離大于中位數(shù)到xmax的距離。 從xmin到M1的距離大于M3到xmax的距離。 左偏分布箱線圖:是基于五數(shù)概括的圖示方式,使得集中趨勢(shì)、離散趨勢(shì)和偏態(tài)更為直觀。 .第67頁,共228頁。第五章 參數(shù)估計(jì)和假設(shè)檢驗(yàn)推斷統(tǒng)計(jì):利用樣本統(tǒng)計(jì)量對(duì)總體某些性質(zhì)或數(shù)量特征進(jìn)行推斷。隨機(jī)原則總體樣本總體參數(shù)統(tǒng)計(jì)量推斷估計(jì)參數(shù)估計(jì)檢驗(yàn)假設(shè)檢驗(yàn)抽樣分布.第68頁,共228頁。抽樣分布簡單隨機(jī)抽樣和簡單隨機(jī)樣本的性質(zhì)無限總體有限總體不放回放 回樣本樣本放回不放 回樣本樣本獨(dú)立性和同一性同一性當(dāng)n/N5%時(shí),有限總體不放回抽樣等同于放回抽樣無限總體.第69頁,共228頁。統(tǒng)計(jì)

33、量與抽樣分布統(tǒng)計(jì)量:即樣本指標(biāo)。樣本均值樣本成數(shù)樣本方差如:抽樣分布:某一統(tǒng)計(jì)量所有可能的樣本的取值形成的分布。性 質(zhì)數(shù)字特征0P(Xi)1P(Xi)=1均值E(X) 方差Ex-E(x)2 方差的平方根即抽樣分布的標(biāo)準(zhǔn)差就是推斷的抽樣誤差。.第70頁,共228頁。樣本均值的抽樣分布(簡稱均值的分布)抽樣總體樣本 均值X,(N)均值=Xi/Nx,(n)樣本均值是樣本的函數(shù),故樣本均值是一個(gè)統(tǒng)計(jì)量,統(tǒng)計(jì)量是一個(gè)隨機(jī)變量,樣本均值的概率分布稱為樣本均值的抽樣分布。.第71頁,共228頁。均值分布的數(shù)學(xué)期望和方差抽 樣 方 法 均 值 方 差 標(biāo) 準(zhǔn)差(1)從無限總體抽 樣和有限總體放回抽樣(2)從有

34、限總體不放回抽樣抽樣誤差抽樣誤差.第72頁,共228頁。從正態(tài)總體中抽樣得到的均值的分布也服從正態(tài)分布。從非正態(tài)總體中抽樣得到的均值的分布呢? 中心極限定理:無論總體為何種分布,只要樣本n足夠大(n30),均值( )標(biāo)準(zhǔn)化為(z)變量,必定服從標(biāo)準(zhǔn)正態(tài)分布,均值( )則服從正態(tài)分布,即:關(guān)于均值的抽樣分布有如下的一些結(jié)論:1.對(duì)于多數(shù)總體分布來說,不論其形態(tài)如何,如果樣本觀察值超過30個(gè),那么均值的抽樣分布將近似于正態(tài)分布。2.如果總體分布是明顯對(duì)稱的,那么只要樣本觀察值超過15個(gè),均值的抽樣分布也近似于正態(tài)分布。 3.如果總體是正態(tài)分布的,則不管樣本大小如何,均值的抽樣分布一定是正態(tài)分布的。

35、 .第73頁,共228頁。兩個(gè)樣本均值之差的抽樣分布抽樣總體樣本X1,(N1)x1,(n1)抽樣總體樣本X2,(N2)x2,(n2)估計(jì)(1)如:(2如果兩個(gè)總體都是非正態(tài)總體,只要n1、n2足夠大,根據(jù)中心極限定理,可知:.第74頁,共228頁。樣本成數(shù)(即比例)的抽樣分布(簡稱成數(shù)的分布)抽樣總體樣本 成數(shù)X,(N)成數(shù)P=Ni/N x,(n) 所有可能的樣本的成數(shù)( )所形成的分布,稱為樣本成數(shù)的抽樣分布。.第75頁,共228頁。成數(shù)分布的數(shù)學(xué)期望和方差抽 樣 方 法 均 值 方 差 標(biāo) 準(zhǔn)差(1)從無限總體抽 樣和有限總體放回抽樣(2)從有限總體不放回抽樣根據(jù)中心極限定理,只要樣本足夠

36、大, 的分布就近似正態(tài)分布。(np和nq大于5時(shí))抽樣誤差抽樣誤差.第76頁,共228頁。兩個(gè)樣本成數(shù)之差的抽樣分布抽樣總體樣本X1,(N1)x1,(n1)抽樣總體樣本X2,(N2)x2,(n2)估計(jì) 當(dāng)n1、n2都足夠大時(shí),樣本成數(shù) 都近似服從正態(tài)分布,兩個(gè)樣本成數(shù)之差( )也近似服從正態(tài)分布。P1-P2=?.第77頁,共228頁。一個(gè)樣本方差的抽樣分布抽樣總體樣本若:從一個(gè)正態(tài)總體中抽樣所得到的樣本方差的分布n,S2則 當(dāng) 則 .第78頁,共228頁。兩個(gè)樣本方差之比的抽樣分布抽樣總體樣本從兩個(gè)正態(tài)總體中分別獨(dú)立抽樣所得到的兩個(gè)樣本方差之比的抽樣分布。n1,S12則 抽樣總體樣本n2,S2

37、2.第79頁,共228頁。參數(shù)估計(jì)點(diǎn)估計(jì)以樣本指標(biāo)直接估計(jì)總體參數(shù)。評(píng)價(jià)準(zhǔn)則的數(shù)學(xué)期望等于總體參數(shù),即該估計(jì)量稱為無偏估計(jì)。無偏性有效性當(dāng) 為 的無偏估計(jì)時(shí), 方差 越小,無偏估計(jì)越有效。一致性對(duì)于無限總體,如果對(duì)任意則稱的一致估計(jì)。是充分性一個(gè)估計(jì)量如能完全地包含未知參數(shù)信息,即為充分量估計(jì)量.第80頁,共228頁。點(diǎn)估計(jì)常用的求點(diǎn)估計(jì)量的方法 1.數(shù)字特征法: 當(dāng)樣本容量增大時(shí) ,用樣本的數(shù)字特征去估計(jì)總體的數(shù)字特征。 例如,我們可以用樣本平均數(shù)(或成數(shù))和樣本方差來估計(jì)總體的均值(或比率)和方差。2.順序統(tǒng)計(jì)量法 : 如果把取得的樣本觀測值按大小排列起來,那么與排列位置有關(guān)的統(tǒng)計(jì)量就稱為

38、順序統(tǒng)計(jì)量。常用的順序統(tǒng)計(jì)量有樣本中位數(shù)和極差。 .第81頁,共228頁。當(dāng)總體服從正態(tài)分布時(shí),用樣本中位數(shù)來估計(jì)總體的數(shù)學(xué)期望 :3.極大似然估計(jì)法: 極大似然估計(jì)是根據(jù)樣本的似然函數(shù)對(duì)總體參數(shù)進(jìn)行估計(jì)的一種方法 。其實(shí)質(zhì)就是根據(jù)樣本觀測值發(fā)生的可能性達(dá)到最大這一原則來選取未知參數(shù)的估計(jì)量,其理論依據(jù)就是概率最大的事件最可能出現(xiàn)。 .第82頁,共228頁。區(qū)間估計(jì)估計(jì)未知參數(shù)所在的可能的區(qū)間。評(píng)價(jià)準(zhǔn)則隨機(jī)區(qū)間置信度精確度隨機(jī)區(qū)間包含(即可靠程度)越大越好。的概率的平均長度(誤差范圍)越小越好一般形式或總體參數(shù)估計(jì)值誤差范圍 :一定倍數(shù)的抽樣誤差例如:抽樣誤差 一定時(shí),越大,概率(可靠性)大;

39、隨之增大,精確度就差。.第83頁,共228頁。參數(shù)的區(qū)間估計(jì)簡單隨機(jī)抽樣待估計(jì)參數(shù)已知條件置信區(qū)間正態(tài)總體,2已知正態(tài)總體,2未知非正態(tài)總體,n30有限總體,n30(不放回抽樣)總體均值 ()未知時(shí),用S未知時(shí),用S兩個(gè)正態(tài)總體已知兩個(gè)正態(tài)總體未知但相等兩個(gè)非正態(tài)總體,n1,n230兩個(gè)總體均值之差1-2.第84頁,共228頁。簡單隨機(jī)抽樣待估計(jì)參數(shù)已知條件置信區(qū)間無限總體,np和nq都大于5總體成數(shù) (p)無限總體, n1p15, n1q1 5n2p25, n2q25兩個(gè)總體成數(shù)之差(P1 - P2)有限總體,np和nq都大于5有限總體, n1p15, n1q1 5n2p25, n2q25.

40、第85頁,共228頁。簡單隨機(jī)抽樣待估計(jì)參數(shù)已知條件置信區(qū)間正態(tài)總體總體方差 兩個(gè)正態(tài)總體兩個(gè)總體方差之比.第86頁,共228頁。樣本數(shù)的確定待估計(jì)參數(shù)已知條件樣本數(shù)的確定正態(tài)總體,2已知總體均值() 例:誤差范圍簡單隨機(jī)抽樣有限總體,不放回抽樣,2已知總體成數(shù) (P)服從正態(tài)分布有限總體,不放回抽樣.第87頁,共228頁。 假設(shè)檢驗(yàn) 基本思想 檢驗(yàn)規(guī)則 檢驗(yàn)步驟 常見的假設(shè)檢驗(yàn) 方差分析.第88頁,共228頁。 基本思想小概率原理:如果對(duì)總體的某種假設(shè)是真實(shí)的,那么不利于或不能支持這一假設(shè)的事件A(小概率事件)在一次試驗(yàn)中幾乎不可能發(fā)生的;要是在一次試驗(yàn)中A竟然發(fā)生了,就有理由懷疑該假設(shè)的真

41、實(shí)性,拒絕這一假設(shè)???體(某種假設(shè))抽樣樣 本(觀察結(jié)果)檢驗(yàn)(接受)(拒絕)小概率事件未 發(fā) 生小概率事件發(fā) 生.第89頁,共228頁。假設(shè)的形式: H0原假設(shè), H1備擇假設(shè) 雙側(cè)檢驗(yàn):H0:=0 , H1:0單側(cè)檢驗(yàn): H0: = 0 , H1:0 H0: = 0 , H1:0 假設(shè)檢驗(yàn)就是根據(jù)樣本觀察結(jié)果對(duì)原假設(shè)(H0)進(jìn)行檢驗(yàn),接受H0,就否定H1;拒絕H0,就接受H1。.第90頁,共228頁。 檢驗(yàn)規(guī)則確定檢驗(yàn)規(guī)則檢驗(yàn)過程是比較樣本觀察結(jié)果與總體假設(shè)的差異。差異顯著,超過了臨界點(diǎn),拒絕H0;反之,差異不顯著,接受H0差 異臨界點(diǎn)拒絕H0接受H0cc判 斷兩類錯(cuò)誤接受或拒絕H0,都

42、可能犯錯(cuò)誤I類錯(cuò)誤棄真錯(cuò)誤, 發(fā)生 的概率為 II類錯(cuò)誤取偽錯(cuò)誤,發(fā)生 的概率為檢驗(yàn)決策 H0為真 H0非真拒絕H0 犯I類錯(cuò)誤() 正確接受H0 正確 犯II類錯(cuò)誤() 怎樣確定c?.第91頁,共228頁。大就小,小就大基本原則:力求在控制前提下減少 顯著性水平,取值:0.1, 0.05, 0.01, 等。如果犯I類錯(cuò)誤損失更大,為減少損失,值取小;如果犯II類錯(cuò)誤損失更,值取大。 確定,就確定了臨界點(diǎn)c。設(shè)有總體:XN(,2),2已知。隨機(jī)抽樣:樣本均值標(biāo)準(zhǔn)化:確定值,查概率表,知臨界值計(jì)算Z值,作出判斷0接受區(qū)拒絕區(qū)拒絕區(qū).第92頁,共228頁。 當(dāng)檢驗(yàn)判斷為接受原假設(shè)H0時(shí),就有可能犯

43、取偽的錯(cuò)誤即II類錯(cuò)誤。確定犯第類錯(cuò)誤的概率比較困難 ,具體計(jì)算可根據(jù)書上的例子。統(tǒng)計(jì)上把 稱為統(tǒng)計(jì)檢驗(yàn)的勢(shì),它是原假設(shè)實(shí)際上是錯(cuò)誤的應(yīng)該被拒絕的概率。 II類錯(cuò)誤的概率的計(jì)算.第93頁,共228頁。 檢驗(yàn)步驟根據(jù)具體問題的要求,建立總體假設(shè)H0,H112選擇統(tǒng)計(jì)量確定H0為真時(shí)的抽樣分布3給定顯著性水平,當(dāng)原假設(shè)H0為真時(shí),求出臨界值。計(jì)算檢驗(yàn)統(tǒng)計(jì)量的數(shù)值與臨界值比較4.第94頁,共228頁。 幾種常見的假設(shè)檢驗(yàn)總體均值的檢驗(yàn)條件檢驗(yàn)條件量拒絕域H0、H1(1) H0:=0 H1:0z(2) H0: = 0 H1:0(3) H0: = 0 H1:z0z0正態(tài)總體2已知.第95頁,共228頁。

44、總體均值的檢驗(yàn)條件檢驗(yàn)條件量拒絕域H0、H1(1) H0:=0 H1:0t(2) H0: = 0 H1:0(3) H0: = 0 H1:t0t00正態(tài)總體2未知(n30).第96頁,共228頁。總體均值的檢驗(yàn)條件檢驗(yàn)條件量拒絕域H0、H1(1) H0:=0 H1:0z(2) H0: = 0 H1:0(3) H0: = 0 H1:z0z00非正態(tài)總體n302已知或未知.第97頁,共228頁。兩個(gè)總體均值之差的檢驗(yàn)條件檢驗(yàn)條件量拒絕域H0、H1(1) H0: 1=2 H1: 1 2 z(2) H0:1 = 2 H1: 1 2 (3) H0: 1 = 2 H1:1 2 z0z00兩個(gè)正態(tài)總體已知.第

45、98頁,共228頁。兩個(gè)總體均值之差的檢驗(yàn)條件檢驗(yàn)條件量拒絕域H0、H1(1) H0: 1 = 2 H1: 1 2 t(2) H0: 1 = 2 H1: 1 2 (3) H0: 1 = 2 H1: 1 2 t0t00兩個(gè)正態(tài)總體未知,但相等.第99頁,共228頁。兩個(gè)總體均值之差的檢驗(yàn)條件檢驗(yàn)條件量拒絕域H0、H1(1) H0:1 = 2 H1:1 2 (2) H0:1 = 2 H1:1 2 (3) H0:1 = 2 H1:1 2 0z00兩個(gè)非正態(tài)體n130 n230已知或未知zz.第100頁,共228頁??傮w成數(shù)的檢驗(yàn)條件檢驗(yàn)條件量拒絕域H0、H1(1) H0:P=P0 H1:PP0z(2

46、) H0:P = P0 H1:PP0(3) H0:P = P0 H1:PP0z0z00np5nq5.第101頁,共228頁。兩個(gè)總體成數(shù)之差的檢驗(yàn)條件檢驗(yàn)條件量拒絕域H0、H1(1) H0:P1=P2 H1:P1 P2 z(2) H0: P1 P2 H1:P1 P2(3) H0:P1 P2 H1:P1 P2z0z00n1p15n1q15n2p25n2q25.第102頁,共228頁。一個(gè)總體方差的檢驗(yàn)條件檢驗(yàn)條件量拒絕域H0、H1總體服從正態(tài)分布.第103頁,共228頁。兩個(gè)總體方差之比的檢驗(yàn)條件檢驗(yàn)條件量拒絕域H0、H1總體服從正態(tài)分布FFF.第104頁,共228頁。 方差分析一、問題的提出同

47、一原材料加工產(chǎn)品質(zhì)量產(chǎn)地各組產(chǎn)品的質(zhì)量是否有顯著差異?隨機(jī) 原則.第105頁,共228頁。一個(gè)班級(jí) 的學(xué)生,某門課程的成績專業(yè) 分組各組學(xué)生的成績是否有顯著差異?差異隨機(jī)誤差系統(tǒng)誤差隨機(jī) 原則加以比較若存在顯著性差異,則說明該因素的影響是顯著的.第106頁,共228頁。二、假定條件各組水平都服從正態(tài)分布,均值和方差未知,但方差相同(i=1,2,3, ,k).第107頁,共228頁。三、單因素方差分析H0:各水平的均值相等 H1:各水平均值不全相等總離差平方和=組間離差平方和+組內(nèi)離差平方和 離差平方和:SST= SSB + SSE自由度: n-1 = k-1 + n-k方差: MST=MSB

48、+ MSE檢驗(yàn)量=系統(tǒng)誤差/隨機(jī)誤差即: F=MSB/MSE檢驗(yàn)規(guī)則.第108頁,共228頁。.第109頁,共228頁。因?yàn)椋篎=3.15 (0.05)所以接受原假設(shè),認(rèn)為不同的家庭背景對(duì)學(xué)員成績沒有顯著影響。.第110頁,共228頁。 四、不考慮交互作用的兩因素方差分析H0 (A):因素A的k個(gè)水平的均值相等 H1:不全相等總離差平方和=組間離差平方和 +組內(nèi)離差平方和 離差平方和:SST= SS(A)+SS(B)+ SSE自由度: kh-1 = k-1 +h-1 + (k-1)(h-1)方差: MST=MS(A)+MS(B) +MSE檢驗(yàn)量=系統(tǒng)誤差/隨機(jī)誤差即: F(A)=MS(A)/M

49、SE F(B)=MS(B)/MSE H0(B): 因素B的h個(gè)水平的均值相等 H1:不全相等檢驗(yàn)規(guī)則.第111頁,共228頁。 .第112頁,共228頁。 因?yàn)椋篎(A)=0.3935.14 F(B)=0.028 (0.05) P(B)(0.99) (0.05)所以接受原假設(shè),認(rèn)為不同的機(jī)器設(shè)備和不同的工藝方法對(duì)生產(chǎn)量都沒有顯著影響。.第113頁,共228頁。 五、考慮交互作用的兩因素方差分析H0 (A):因素A的k個(gè)水平的均值相等 H1:不全相等總離差平方和=組間離差平方和 +組內(nèi)離差平方和離差平方和:SST= SS(A)+SS(B)+SS(AB)+ SSE自由度: khm-1 = k-1

50、+ h-1 + (k-1)(h-1)+kh(m-1)方差: MST=MS(A)+MS(B) +MS(AB)+MSE檢驗(yàn)量=系統(tǒng)誤差/隨機(jī)誤差即: F(A)=MS(A)/MSE F(B)=MS(B)/MSE F(AB)=MS(AB)/MSEH0(B): 因素B的h個(gè)水平的均值相等 H1:不全相等H0(AB): AB之間不存在交互影響的作用 H1:有交互影響.第114頁,共228頁。 檢驗(yàn)規(guī)則例:.第115頁,共228頁。 .第116頁,共228頁。 .第117頁,共228頁。 因?yàn)椋篎(A)=7.893.40 F(B)=0.532.51或 P(A)(0.002) (0.05) P(AB)(0.0

51、002) (0.05) 所以認(rèn)為不同的機(jī)器設(shè)備對(duì)日產(chǎn)量有顯著影響。不同的工藝方法對(duì)日產(chǎn)量沒有顯著影響。不同機(jī)器設(shè)備與工藝搭配的交互作用對(duì)日產(chǎn)量有顯著的影響。.第118頁,共228頁。 相關(guān)分析 回歸分析第六章 相關(guān)與回歸 相關(guān)和回歸分析方法,是分析兩個(gè)或更多變量之間的相互關(guān)系,測定它們之間聯(lián)系的緊密程度,以揭示其變化的具體形式和規(guī)律性,以便用一個(gè)或幾個(gè)變量,去預(yù)測另一個(gè)我們感興趣的變量。 主要內(nèi)容.第119頁,共228頁。 相關(guān)分析 概念 種類 線性相關(guān)變量之間關(guān)系函數(shù)關(guān)系相關(guān)關(guān)系因果關(guān)系互為因果關(guān)系共變關(guān)系確定性依存關(guān)系隨機(jī)性依存關(guān)系.第120頁,共228頁。 種類一元相關(guān)多元相關(guān)負(fù) 相 關(guān)

52、正 相 關(guān)線性相關(guān)曲線相關(guān)xy正 相 關(guān)xy負(fù) 相 關(guān)xy曲線相關(guān)xy不 相 關(guān).第121頁,共228頁。 線性相關(guān)相關(guān)系數(shù)測定兩變量是否線性相關(guān)?定義式:未分組:已分組:值:|r|=0 不存在線性關(guān)系; |r|1 完全線性相關(guān)0|r|0 正相關(guān);r0 檢驗(yàn)統(tǒng)計(jì)量 F.第139頁,共228頁。6應(yīng)用回歸方程進(jìn)行估計(jì) n30時(shí)給定x0,y0的置信度(1-)的置信區(qū)間為:n30時(shí)xyX00給定的x0越接 ,y值估計(jì)的精確度越高。平均值估計(jì)n30時(shí)特定值估計(jì).第140頁,共228頁。 多元線性回歸1多元線性回歸模型的確定二元線性回歸模型:總體多元線性回歸模型的一般形式Y(jié)的數(shù)學(xué)期望隨機(jī)誤差表明自變量共

53、同變動(dòng)引起的Y 的平均變動(dòng)。也稱總體的二元線性回歸方程。.第141頁,共228頁。常數(shù)項(xiàng),和Y構(gòu)成的平面與Y軸的截距偏回歸系數(shù),表示在 固定時(shí) 每變化一個(gè)單位引起的Y的平均變動(dòng);偏回歸系數(shù),表示在 固定時(shí) 每變化一個(gè)單位引起的Y的平均變動(dòng);隨機(jī)誤差,其理論假定與一元線性回歸模型中的 一樣。偏回歸系數(shù)的符號(hào)與它們所聯(lián)系的自變量Xi同因變量Y的相關(guān)系數(shù)ri的符號(hào)是一致的。 .第142頁,共228頁。樣本多元線性回歸模型的一般形式二元線性回歸模型為:其數(shù)學(xué)期望也稱樣本(或估計(jì)的)二元線性回歸方程。2.二元線性回歸方程的確定根據(jù)實(shí)際資料,用最小平方法,即使 ,分別對(duì)b0、b1、b2求編導(dǎo)并令其為零,求

54、得三個(gè)標(biāo)準(zhǔn)方程:.第143頁,共228頁。解此聯(lián)立方程便可得到0、1和2。 3多元線性回歸模型的判定系數(shù)和估計(jì)標(biāo)準(zhǔn)誤判定系數(shù)修正的判定余數(shù):.第144頁,共228頁。估計(jì)標(biāo)準(zhǔn)誤) r2和Sy(x1、x2)都是對(duì)回歸模型擬合優(yōu)度的評(píng)價(jià)指標(biāo)。 Sy(x1、x2)也是用自變量對(duì)因變量進(jìn)行區(qū)間估計(jì)的抽樣誤差。4多元線性回歸方程的顯著性檢驗(yàn) 對(duì)偏回歸系數(shù)的t檢驗(yàn) H0: 1=0 , H1: 10;H0: 2=0,H1: 20。檢驗(yàn)統(tǒng)計(jì)量:.第145頁,共228頁。按顯著性水平和自由度 (n-3)查t表可得到臨界值t0.第146頁,共228頁。模型整體的F檢驗(yàn)檢驗(yàn)統(tǒng)計(jì)量:(k自變量個(gè)數(shù))或 按給定的和自由

55、度(2)和(n-3)查F表可得到臨界值F.第147頁,共228頁。5多元回歸中的相關(guān)分析 復(fù)相關(guān):指一個(gè)因變量同多個(gè)自變量的相關(guān)關(guān)系。復(fù)相關(guān)系數(shù)恒取正值。偏相關(guān)(凈相關(guān))指各個(gè)自變量在其他自變量固定不變時(shí),單個(gè)變量同因變量的相關(guān)關(guān)系。 x1與y的偏相關(guān)系數(shù): x2與y的偏相關(guān)系數(shù):.第148頁,共228頁。6應(yīng)用多元回歸方程進(jìn)行區(qū)間估計(jì)Y的平均值的區(qū)間估計(jì)Y的特點(diǎn)值的區(qū)間估計(jì)式中,是即區(qū)間估計(jì)的抽樣誤差。的抽樣分布的標(biāo)準(zhǔn)差,式中,是 的抽樣分布的標(biāo)準(zhǔn)差,即區(qū)間估計(jì)的抽樣誤差。.第149頁,共228頁。7建立多元回歸模型應(yīng)注意的幾個(gè)問題和步驟 建立多元回歸模型應(yīng)注意的幾個(gè)問題 1變量的選擇 當(dāng)實(shí)

56、際問題確實(shí)有兩個(gè)或兩個(gè)以上因素影響其變動(dòng)時(shí),就應(yīng)盡力獲得這些因素的資料,構(gòu)造多元回歸模型。 通常有兩種 向前逐步回歸 向后逐步回歸 2多重共線性:如果各自變量之間存在完全相關(guān)或高度相關(guān)的情況,這在統(tǒng)計(jì)上稱作多重共線性。 .第150頁,共228頁。方差膨脹因子(VIF) 若一系列自變量之間是不相關(guān)的,則VIFj等于1。若這些解釋變量之間存在著高度的相關(guān),則VIFj可大到超過10。一般的標(biāo)準(zhǔn)是VIFj的最大值超過5,則可認(rèn)為此自變量與其他自變量之間存在著較高的相關(guān),需要對(duì)回歸模型進(jìn)行修正。 3。多元線性回歸模型的殘差分析 需要對(duì)每個(gè)自變量與因變量的簡單線性回歸方程的殘差圖分別都進(jìn)行分析 .第151

57、頁,共228頁。建立回歸模型的方法 1考慮一批可能入選模型的自變量。 3判別每個(gè)自變量的VIF是否大于5。 4有可能發(fā)生發(fā)下三種結(jié)果: 2擬合一個(gè)含有全部考慮過的自變量的回歸模型,以便判別每個(gè)自變量的變異膨脹因子(VIF)。 a. 沒有一個(gè)自變量的VIF5,若產(chǎn)生這種情況,進(jìn)入第5步。 b. 有一個(gè)自變量的VIF5,若產(chǎn)生這種情況,剔除這個(gè)自變量,進(jìn)入第5步。 c. 不止一個(gè)自變量的VIF5,若產(chǎn)生這種情況,剔除VIF值最大的那個(gè)自變量,然后回到第2步。.第152頁,共228頁。5對(duì)余下的自變量,找出所有自變量形成的子集,進(jìn)行最佳子集的回歸分析,以獲得給定自變量的最佳模型。具體可計(jì)算Cp統(tǒng)計(jì)量

58、來選擇最佳子集,有關(guān)Cp統(tǒng)計(jì)量的計(jì)算公式和使用方法可閱讀相關(guān)的書籍。6列出所有Cp(k+1) 的模型。7在第5步列出的所有模型中,選擇一個(gè)最佳模型。8對(duì)模型做一個(gè)包括殘差分析在內(nèi)的完整分析。9根據(jù)殘差分析的結(jié)果,增加二次項(xiàng)或進(jìn)行變量變換(見下一節(jié)),然后分析數(shù)據(jù)。10用選定的模型進(jìn)行預(yù)測。 .第153頁,共228頁。虛擬變量運(yùn)用虛擬變量,就能把定性自變量作為回歸模型的一部分。 邏輯回歸若給出的定性自變量有兩個(gè)分類,虛擬變量Xd的定義如下: Xd =0,若觀測對(duì)象屬于第一個(gè)分類 Xd =1,若觀測對(duì)象屬于第二個(gè)分類.第154頁,共228頁。邏輯回歸設(shè)P(Y=1X)p表示自變量為X時(shí),因變量Y=1

59、出現(xiàn)的概率,對(duì)p作Logit變換,定義Logit p為 Logit pi 總體一元邏輯回歸模型 :Logit pi +Xi+i 或樣本的一元邏輯回歸方程 a+bXi其中或:.第155頁,共228頁。例:在一次住房展銷會(huì)上,與房地產(chǎn)商簽定初步購房意向書的共有n=325名顧客,在隨后的3個(gè)月時(shí)間內(nèi),只有一部分顧客確實(shí)購買了房屋。購買了房屋的顧客記為1, 沒有購買房屋的顧客記為0。以顧客年家庭收入為自變量X, 對(duì)表所示的數(shù)據(jù),建立邏輯回歸方程。解:令X為自變量,為因變量,由公式6-49可得回歸方程為: -0.8863+0.1558Xi判定系數(shù): r2=0.9243 顯著性檢驗(yàn) p值約等于零,所以高度

60、顯著 .第156頁,共228頁。預(yù)測 :年家庭收入為8萬元的實(shí)際購房比例 邏輯回歸方程 :.第157頁,共228頁。 非線性回歸模型當(dāng)自變量與因變量存在某種曲線相關(guān)關(guān)系時(shí),可擬合曲線回歸模型。例如: 雙曲線模型:指數(shù)曲線模型:二次曲線回歸模型 :對(duì)多元非線性模型: .第158頁,共228頁。非線性模型的判別方法:理論和經(jīng)驗(yàn)判斷;觀察散點(diǎn)圖 非線性模型的確定方法: 通常用變量代換法將曲線轉(zhuǎn)換為直線。按線性模型求解參數(shù),而后再變換為曲線模型。.第159頁,共228頁。第七章 非參數(shù)統(tǒng)計(jì) 非參數(shù)統(tǒng)計(jì)(亦稱非參數(shù)檢驗(yàn)),是根據(jù)樣本資料對(duì)總體的某種性質(zhì)或關(guān)系進(jìn)行假設(shè)檢驗(yàn)的統(tǒng)計(jì)推斷方法。主要特點(diǎn)不要求總體

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論