




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
本資料來源本資料來源1統計學─從數據到結論統計學─從數據到結論2第一章一些基本概念第一章一些基本概念3§1.1統計是什么?統計是人類思維的一個歸納過程站在一個路口,看到每過去20輛小轎車時,也有100輛自行車通過而且平均每10個轎車載有12個人于是,你認為小汽車和自行車在這個路口的運載能力為24:100這是一個典型的統計思維過程§1.1統計是什么?統計是人類思維的一個歸納過程4§1.1統計是什么?一般來說,統計先從現實世界收集數據(信息),如觀測路口的交通然后,根據數據作出判斷,稱為模型模型是從數據產生的模型也需要根據新的信息來改進不存在完美的模型模型的最終結局都是被更能夠說明現實世界的新模型所取代§1.1統計是什么?一般來說,統計先從現實世界收集數據(信5統計學可以應用于幾乎所有的領域:精算,農業,動物學,人類學,考古學,審計學,晶體學,人口統計學,牙醫學,生態學,經濟計量學,教育學,選舉預測和策劃,工程,流行病學,金融,水產漁業研究,遺傳學,地理學,地質學,歷史研究,人類遺傳學,水文學,工業,法律,語言學,文學,勞動力計劃,管理科學,市場營銷學,醫學診斷,氣象學,軍事科學,核材料安全管理,眼科學,制藥學,物理學,政治學,心理學,心理物理學,質量控制,宗教研究,社會學,調查抽樣,分類學,氣象改善,博彩等。統計學可以應用于幾乎所有的領域:精算,農業,動物學,人類學,6§1.1統計是什么?一句話,統計學(statistics)是用以收集數據,分析數據和由數據得出結論的一組概念、原則和方法。§1.1統計是什么?一句話,7以歸納為主要思維方式的統計不是以演繹為主的數學統計可應用于各個不同學科,在有些學科已經有其特有的方法和特點;如生物統計(biostatistics)、經濟計量學(econometrics)以及目前很熱門的生物信息(bioinformation)和數據挖掘(DataMining)的方法主體都是統計。以歸納為主要思維方式的統計不是以演繹為主的數學8§1.2現實中的隨機性和規律性,概率和機會從中學起,我們就知道物理學的許多定律,例如v=v0+at;F=ma等等但是在許多領域,很難用如此確定的公式或論述來描述一些現象。§1.2現實中的隨機性和規律性,概率和機會從中學起,我們就9§1.2現實中的隨機性和規律性,概率和機會一些現象既有規律性又有隨機性(randomness)肺癌患者中(主動或被動)吸煙的比例較大,這體現了規律性而絕非每個吸煙的人都會患肺癌,這體現了隨機性§1.2現實中的隨機性和規律性,概率和機會一些現象既有規律10§1.2現實中的隨機性和規律性,概率和機會再如,一般來說,白種人身材比黃種人要高些,這就是規律性但對于具體的一個白人和一個黃種人,就很難說誰高誰矮了,這體現隨機性§1.2現實中的隨機性和規律性,概率和機會再如,一般來說,11§1.2現實中的隨機性和規律性,概率和機會什么是概率(probability)?新聞中最常見的是“降水概率”從某種意義說來,概率描述了某件事情發生的機會。顯然,這種概率不可能超過百分之百,也不可能少于百分之零。概率是在0和1之間(也可能是0或1)的一個數,描述某事件發生的機會。§1.2現實中的隨機性和規律性,概率和機會什么是概率(pr12§1.2現實中的隨機性和規律性,概率和機會有些概率是無法精確推斷的。比如你明天感冒的概率有些概率是可以知道的。比如在打橋牌時得到一手黑桃的概率為1/635013559600,大約為1.574770×10-12(條件是洗牌均勻,沒有作弊)。實際上得任何特定的一手牌的概率都是一樣的,對嗎?§1.2現實中的隨機性和規律性,概率和機會有些概率是無法精13§1.3變量和數據一節火車車廂有多少坐位是一個固定的數目,稱為常數(constant)或者常量。但是,開車后,坐在這節車廂的旅客有多少就沒準了。這有隨機性。該車廂的乘客數為變量(variable)。§1.3變量和數據一節火車車廂有多少坐位是一個固定的數目,14§1.3變量和數據一個學校的注冊在校男女生比例是固定的,為常量但是,該校任意一群學生的男女生比例就不一定和全校的比例一樣了,它為變量(variable)。§1.3變量和數據一個學校的注冊在校男女生比例是固定的,為15§1.3變量和數據當變量按照隨機規律所取的值是數量時該變量稱為定量變量或數量變量(quantitativevariable);因為是隨機的,也稱為隨機變量(randomvariable)。如身高體重,購買某商品的人數等等§1.3變量和數據當變量按照隨機規律所取的值是數量時該變量16§1.3變量和數據象性別,觀點之類的取非數量值的變量就稱為定性變量或屬性變量或分類變量(qualitativevariable,或categoricalvariable)。這些定性變量也可以由定量變量來描述,如男女生的數目,持有某觀點的人數比例等等。§1.3變量和數據象性別,觀點之類的取非數量值的變量就稱為17§1.3變量和數據定性變量只有用數量來描述時,才有可能建立數學模型,并使用計算機來分析。數據中它們通常用啞元(dummyvariable)代表,比如性別用0、1代表,三種收入用0、1、2代表(或用字母代表)§1.3變量和數據定性變量只有用數量來描述時,才有可能建立18§1.3變量和數據有了變量,何謂數據?不同機構調查所得到的北京收入萬元以上市民的比例都不一樣,這是變量而這些調查產生一些數目,這些數目就是數據(data)數據是關于變量的觀測值。§1.3變量和數據有了變量,何謂數據?19§1.3變量和數據通過數據可驗證有關的理論或假定。比如通過抽樣調查驗證美國選民對共和黨候選人的支持率是否超過50%通過抽樣,可以檢驗某批產品是否合格等等§1.3變量和數據通過數據可驗證有關的理論或假定。20§1.4變量之間的關系現實世界緊密聯系的人們想知道投資方式和經濟效益之間的關系、旅客人數和經濟發展之間的關系等等不討論變量之間的關系,就無從談起任何有深度的應用,統計的基本概念就僅僅是擺設而已。§1.4變量之間的關系現實世界緊密聯系的21§1.4.1定量變量間的關系例1.1.廣告投入和銷售之間的關系。下表(數據ads.txt)顯示了某企業的廣告投入和銷售額之間的關系(萬元)。§1.4.1定量變量間的關系例1.1.廣告投入和銷售之間的22橫坐標代表廣告投入,而縱坐標代表銷售收入。看得出有何種關系嗎?橫坐標代表廣告投入,而縱坐標代表銷售收入。23§1.4.1定量變量間的關系能否從該數據回答下面問題:這兩個變量是否有關系?如果有,它們的關系是否顯著?這些關系是什么關系,能否用數學模型來描述?這個關系是否帶有普遍性?這個關系是不是因果關系?§1.4.1定量變量間的關系能否從該數據回答下面問題:24§1.4.1定量變量間的關系關于因果關系在可控制的試驗中,較容易找到因果關系;比如治療方式和療效的關系等但是,一般來說,變量之間有關系這個事實并不意味著一定存在明確的因果關系。§1.4.1定量變量間的關系關于因果關系25§1.4.1定量變量間的關系比如,北京GDP在一年中是快速增長的,而一個剛出生的巴拿馬嬰兒在這一年中的體重也是快速增長的如果畫出圖來,它們有類似線性的關系但它們顯然沒有因果關系§1.4.1定量變量間的關系比如,北京GDP在一年中是快速26§1.4.1定量變量間的關系只要有關系,即使不是因果關系也不妨礙人們利用這種關系來進行推斷。比如利用公雞打鳴來預報太陽升起;雖然公雞打鳴絕對不是日出的原因(雖然打鳴發生在先)§1.4.1定量變量間的關系只要有關系,即使不是因果關系也27§1.4.1定量變量間的關系簡單的辦法(諸如畫圖)可以得到一些信息,但不一定能夠給出滿意的答案需要更多的工具和手段來進行數值分析得到更加嚴格和精確的解答因此,需要繼續我們的課程§1.4.1定量變量間的關系簡單的辦法(諸如畫圖)可以得到28§1.4.2定性變量間的關系例1.2.下面是對123人進行關于某項政策調查所得結果的一個簡單的三維表,它顯示了人們的收入和性別對該項政策的觀點。(table7.txt)。§1.4.2定性變量間的關系例1.2.下面是對123人進行29計算機軟件所應用的數據形式計算機軟件所應用的數據形式30§1.4.2定性變量間的關系從這個數據,希望可以看出收入、性別對觀點是否有影響及如何影響如果要得到更加精確的結論,就要進行進一步的分析和計算這是后面列聯表分析或多項分布對數線性模型的內容§1.4.2定性變量間的關系從這個數據,希望可以看出收入、31§1.4.3定性和定量變量間的混和關系有些數據不是僅有定性變量或僅有定量變量需要知道包括定性和定量兩種變量的一些變量之間的關系下面數據就包含兩種變量§1.4.3定性和定量變量間的混和關系有些數據不是僅有定性32Asthma.txt數據Asthma.txt數據33§1.4.3定性和定量變量間的混和關系該數據有2個定性變量(性別,污染程度)、一個定量變量(年齡)以及發生哮喘的人數我們希望知道哮喘和這三個變量之間的關系這將在Poisson對數線性模型中討論§1.4.3定性和定量變量間的混和關系該數據有2個定性變量34§1.5統計、計算機與統計軟件現代生活越來越離不開計算機了最初的計算機僅僅是為科學計算而設計和建造的。統計是大型計算機的最早用戶,現在仍然是數值計算的主要用戶§1.5統計、計算機與統計軟件現代生活越來越離不開計算機了35§1.5統計、計算機與統計軟件計算機的使用,從計算機語言到“傻瓜式”地點擊鼠標輸出結果也從數字輸出到各種可以想象得到的形式。輸入數據,點鼠標做一些選項,就可得到漂亮結果但其中充滿了危險的陷阱§1.5統計、計算機與統計軟件計算機的使用,從計算機語言到36§1.5統計、計算機與統計軟件計算機無法識別你的統計方面的錯誤錯誤的方法、錯誤的數據形式都必然輸出錯誤的結果(雖然看上去可能很漂亮),得到大量垃圾另外,統計軟件輸出的結果太多、很難都理解§1.5統計、計算機與統計軟件計算機無法識別你的統計方面的37本資料來源本資料來源38統計學─從數據到結論統計學─從數據到結論39第一章一些基本概念第一章一些基本概念40§1.1統計是什么?統計是人類思維的一個歸納過程站在一個路口,看到每過去20輛小轎車時,也有100輛自行車通過而且平均每10個轎車載有12個人于是,你認為小汽車和自行車在這個路口的運載能力為24:100這是一個典型的統計思維過程§1.1統計是什么?統計是人類思維的一個歸納過程41§1.1統計是什么?一般來說,統計先從現實世界收集數據(信息),如觀測路口的交通然后,根據數據作出判斷,稱為模型模型是從數據產生的模型也需要根據新的信息來改進不存在完美的模型模型的最終結局都是被更能夠說明現實世界的新模型所取代§1.1統計是什么?一般來說,統計先從現實世界收集數據(信42統計學可以應用于幾乎所有的領域:精算,農業,動物學,人類學,考古學,審計學,晶體學,人口統計學,牙醫學,生態學,經濟計量學,教育學,選舉預測和策劃,工程,流行病學,金融,水產漁業研究,遺傳學,地理學,地質學,歷史研究,人類遺傳學,水文學,工業,法律,語言學,文學,勞動力計劃,管理科學,市場營銷學,醫學診斷,氣象學,軍事科學,核材料安全管理,眼科學,制藥學,物理學,政治學,心理學,心理物理學,質量控制,宗教研究,社會學,調查抽樣,分類學,氣象改善,博彩等。統計學可以應用于幾乎所有的領域:精算,農業,動物學,人類學,43§1.1統計是什么?一句話,統計學(statistics)是用以收集數據,分析數據和由數據得出結論的一組概念、原則和方法。§1.1統計是什么?一句話,44以歸納為主要思維方式的統計不是以演繹為主的數學統計可應用于各個不同學科,在有些學科已經有其特有的方法和特點;如生物統計(biostatistics)、經濟計量學(econometrics)以及目前很熱門的生物信息(bioinformation)和數據挖掘(DataMining)的方法主體都是統計。以歸納為主要思維方式的統計不是以演繹為主的數學45§1.2現實中的隨機性和規律性,概率和機會從中學起,我們就知道物理學的許多定律,例如v=v0+at;F=ma等等但是在許多領域,很難用如此確定的公式或論述來描述一些現象。§1.2現實中的隨機性和規律性,概率和機會從中學起,我們就46§1.2現實中的隨機性和規律性,概率和機會一些現象既有規律性又有隨機性(randomness)肺癌患者中(主動或被動)吸煙的比例較大,這體現了規律性而絕非每個吸煙的人都會患肺癌,這體現了隨機性§1.2現實中的隨機性和規律性,概率和機會一些現象既有規律47§1.2現實中的隨機性和規律性,概率和機會再如,一般來說,白種人身材比黃種人要高些,這就是規律性但對于具體的一個白人和一個黃種人,就很難說誰高誰矮了,這體現隨機性§1.2現實中的隨機性和規律性,概率和機會再如,一般來說,48§1.2現實中的隨機性和規律性,概率和機會什么是概率(probability)?新聞中最常見的是“降水概率”從某種意義說來,概率描述了某件事情發生的機會。顯然,這種概率不可能超過百分之百,也不可能少于百分之零。概率是在0和1之間(也可能是0或1)的一個數,描述某事件發生的機會。§1.2現實中的隨機性和規律性,概率和機會什么是概率(pr49§1.2現實中的隨機性和規律性,概率和機會有些概率是無法精確推斷的。比如你明天感冒的概率有些概率是可以知道的。比如在打橋牌時得到一手黑桃的概率為1/635013559600,大約為1.574770×10-12(條件是洗牌均勻,沒有作弊)。實際上得任何特定的一手牌的概率都是一樣的,對嗎?§1.2現實中的隨機性和規律性,概率和機會有些概率是無法精50§1.3變量和數據一節火車車廂有多少坐位是一個固定的數目,稱為常數(constant)或者常量。但是,開車后,坐在這節車廂的旅客有多少就沒準了。這有隨機性。該車廂的乘客數為變量(variable)。§1.3變量和數據一節火車車廂有多少坐位是一個固定的數目,51§1.3變量和數據一個學校的注冊在校男女生比例是固定的,為常量但是,該校任意一群學生的男女生比例就不一定和全校的比例一樣了,它為變量(variable)。§1.3變量和數據一個學校的注冊在校男女生比例是固定的,為52§1.3變量和數據當變量按照隨機規律所取的值是數量時該變量稱為定量變量或數量變量(quantitativevariable);因為是隨機的,也稱為隨機變量(randomvariable)。如身高體重,購買某商品的人數等等§1.3變量和數據當變量按照隨機規律所取的值是數量時該變量53§1.3變量和數據象性別,觀點之類的取非數量值的變量就稱為定性變量或屬性變量或分類變量(qualitativevariable,或categoricalvariable)。這些定性變量也可以由定量變量來描述,如男女生的數目,持有某觀點的人數比例等等。§1.3變量和數據象性別,觀點之類的取非數量值的變量就稱為54§1.3變量和數據定性變量只有用數量來描述時,才有可能建立數學模型,并使用計算機來分析。數據中它們通常用啞元(dummyvariable)代表,比如性別用0、1代表,三種收入用0、1、2代表(或用字母代表)§1.3變量和數據定性變量只有用數量來描述時,才有可能建立55§1.3變量和數據有了變量,何謂數據?不同機構調查所得到的北京收入萬元以上市民的比例都不一樣,這是變量而這些調查產生一些數目,這些數目就是數據(data)數據是關于變量的觀測值。§1.3變量和數據有了變量,何謂數據?56§1.3變量和數據通過數據可驗證有關的理論或假定。比如通過抽樣調查驗證美國選民對共和黨候選人的支持率是否超過50%通過抽樣,可以檢驗某批產品是否合格等等§1.3變量和數據通過數據可驗證有關的理論或假定。57§1.4變量之間的關系現實世界緊密聯系的人們想知道投資方式和經濟效益之間的關系、旅客人數和經濟發展之間的關系等等不討論變量之間的關系,就無從談起任何有深度的應用,統計的基本概念就僅僅是擺設而已。§1.4變量之間的關系現實世界緊密聯系的58§1.4.1定量變量間的關系例1.1.廣告投入和銷售之間的關系。下表(數據ads.txt)顯示了某企業的廣告投入和銷售額之間的關系(萬元)。§1.4.1定量變量間的關系例1.1.廣告投入和銷售之間的59橫坐標代表廣告投入,而縱坐標代表銷售收入。看得出有何種關系嗎?橫坐標代表廣告投入,而縱坐標代表銷售收入。60§1.4.1定量變量間的關系能否從該數據回答下面問題:這兩個變量是否有關系?如果有,它們的關系是否顯著?這些關系是什么關系,能否用數學模型來描述?這個關系是否帶有普遍性?這個關系是不是因果關系?§1.4.1定量變量間的關系能否從該數據回答下面問題:61§1.4.1定量變量間的關系關于因果關系在可控制的試驗中,較容易找到因果關系;比如治療方式和療效的關系等但是,一般來說,變量之間有關系這個事實并不意味著一定存在明確的因果關系。§1.4.1定量變量間的關系關于因果關系62§1.4.1定量變量間的關系比如,北京GDP在一年中是快速增長的,而一個剛出生的巴拿馬嬰兒在這一年中的體重也是快速增長的如果畫出圖來,它們有類似線性的關系但它們顯然沒有因果關系§1.4.1定量變量間的關系比如,北京GDP在一年中是快速63§1.4.1定量變量間的關系只要有關系,即使不是因果關系也不妨礙人們利用這種關系來進行推斷。比如利用公雞打鳴來預報太陽升起;雖然公雞打鳴絕對不是日出的原因(雖然打鳴發生在先)§1.4.1定量變量間的關系只要有關系,即使不是因果關系也64§1.4.1定量變量間的關系簡單的辦法(諸如畫圖)可以得到一些信息,但不一定能夠給出滿意的答案需要更多的工具和手段來進行數值分析得到更加嚴格和精確的解答因此,需要繼續我們的課程§1.4.1定量變量間的關系簡單的辦法(諸如畫圖)可以得到65§1.4.2定性變量間的關系例1.2.下面是對123人進行關于某項政策調查所得結果的一個簡單的三維表,它顯
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 酒店經營管理中團隊建設的重要性試題及答案
- 企業職工刑法教育課件
- 反思總結電氣工程師資格證書考試試題及答案
- 酒店經營管理師選拔標準試題及答案
- 包容多元的學習方式CAD工程師認證試題及答案
- 提升通過率的酒店經營管理師試題及答案
- 公積金貸款二手房屋買賣合同書二零二五年
- 趨勢分析CAD工程師試題及答案
- 紡織機械實施計劃編制試題及答案2024
- 子女的撫養離婚協議書份二零二五年
- ISOTS 22163專題培訓考試
- 六年級下冊數學課件-第4單元 比例 整理和復習 人教版(共21張PPT)
- JJF(魯) 142-2022 稱重式雨量計校準規范
- Adobe-Illustrator-(Ai)基礎教程
- 程序的運行結果PPT學習教案
- 圓柱鋼模計算書
- 合成寶石特征x
- 查擺問題及整改措施
- 年度研發費用專項審計報告模板(共22頁)
- 隧道工程隧道支護結構設計實用教案
- 得力打卡機破解Excel工作表保護密碼4頁
評論
0/150
提交評論