




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
●教育部經濟管理類核心課程教材●“十二五”普通高等教育本科國家級規劃教材●北京高等教育精品教材●北京高等學校優質本科教材課件(第8版)—SPSS和Excel實現五”普通高等教臺本科國家級現則教材統計學SPSS
和Excel實現(第8版)STATISTICS統計學2022/5/22北京高等教育精品教材第
1
章
統計、數據和計算機1.1統計學及其應用領域
1.2怎樣獲得數據1
.3
統計與計算機第1章數據、統計和計算機描述推
斷
)應用2022/5/22思維導圖數據分析基礎統計方法基礎關系分析預測非參數檢驗統
計
學(
第
8
版
)
—第2章用圖表展示數據第3章用統計量描述數據第4章概率分布第5章參數估計第6章假設檢驗第7章類別變量推斷第8章方
頭
v
反
計第9章一元線性回歸第10章多元線性回歸第11章時間序列預測第12章非參數檢驗1-3圖表展示統計量描述推斷理論基礎估計原理與方法檢驗原理與方法類別變量與類別變量因變量,數值
自變量:類別因變量:數值
自變量:數值或類別時間序列參數方法不適應的情形描述方法推斷方法其他方法統計方法分類與本書框架思考以下問題●吸煙對健康是有害的,吸香煙的男性減少壽命2250天●不結婚的男性會減少壽命3500天,不結婚的女性會減少壽命1600天●身體超重30%會使壽命減少1300天●每天攝取500毫升維生素C,生命可延長6年●身材高的父親,其子女的身材也較高●第二個出生的子女沒有第一個聰明,第三個出生的子女沒有第二個聰明,依此類推●學生們在聽了莫扎特鋼琴曲10分鐘后的推理,要比他們聽10分鐘娛樂性的其他曲目后的推理做得更好●漂亮的女性有損男性的智力。男性在看到漂亮女性時智力會下降,這就是為什么大學里的女孩子比
男孩子學習好的原因●上課坐在前面的學生平均考試分數比坐在后面的學生高●中國科學院空間環境研究預報中心的專家稱,在神舟七號載人航天飛行期間,飛船遭遇空間碎片的
概率在百萬分之一以下2022/5/22
統計學(第8版)—
1-4怎樣理解這樣一些統計結論第1章數據、統計和計算機
、
統計學及其應用領域什么是統計學統計學——收集、處理、分析、解釋數據并從數據中得出結論的科學描述性方法⑩
研究數據收集、整理和描述的統計學
方法⑩
描述數據特征,找出數據的基本規律⑩內容包括:數據收集、處理、展示、描述性分析推斷性方法⑩
研究如何利用樣本數據來推斷總體特征的統計學方法⑩
對總體特征作出推斷⑩內容包括:參數估計和假設檢驗2022/5/22
統計學(第8版)—
1-5●統計學研究的是來自各領域的數據●統計學沒有任何固定的對象,是一門獨特的學問●用于解決其他領域內的問題統計學基本上是寄生的??垦芯科渌I域內的工作而生存。這不是對統計學的輕視,
這是因為對很多寄主來說,如果沒有寄生蟲就會死。對有的動物來說,如果沒有寄生
蟲就不能消化它們的食物。因此,人類奮斗的很多領域,如果沒有統計學,雖然不會
死亡,但一定會變得很弱2022/5/22
統計學(第8版)—1-6統計學及其應用領域第1章數據、統計和計算機統計學研究什么例1-
1】——用統計識別作者1787—1788年,三位作者亞歷山大
·漢密爾頓(AlexanderHamilton)、約翰
·杰伊(JohnJay)和詹姆斯
·麥迪遜(JamesMadison)為了說服紐約人認可
憲法,匿名發表了85篇著名的論文。這些論文中的大多數作者已經得到了識別
但是,其中12篇的作者身份引起了爭議。通過對這些論文不同單詞的頻數進行統計分析,得出的結論是詹姆斯
·麥迪遜最有可能是這12篇論文的作者。現在對于這些存在爭議的論文,認為詹姆斯
·麥迪遜是原創作者的說法占主導地位
而且幾乎可以肯定這種說法是正確的2022/5/22
統計學(第8版)—1-7統計學的應用領域——幾個例子第1章數據、統計和計算機統計學的應用領域【例1-2】
——用簡單的描述統計量得到一個重要發現費舍(R.A.Fisher)在1952的一篇文章中舉了一個例子,說明如何由基本的描述統計量的知
識引出一個重要的發現。20世紀早期,哥本哈根卡爾堡實驗室的施密特(J.Schmidt)發現不同
地區所捕獲的同種魚類的脊椎骨和鰓線的數量有很大不同;甚至在同一海灣內不同地點所捕
獲的同種魚類,也發現這樣的傾向然而,鰻魚的脊椎骨的數量變化不大。施密特從歐洲各地、冰島、亞速爾群島以及尼羅河
等幾乎分離的海域里所捕獲的鰻魚的樣本中,計算發現了幾乎一樣的均值和標準偏差值。由
此,施密特推斷所有各個不同海域內的鰻魚是由海洋中某公共場所繁殖的。后來名為“戴納
(Dana)”的科學考察船在一次遠征中發現了這個場所2022/5/22
統計學(第8版)—1-8統計學的應用領域——幾個例子統計學的應用領域第1章數據、統計和計算機1.1【
例1-3】——挑戰者號航天飛機失事預測1986年1月28日清晨,載有7名航天員的挑戰者號進入發射狀態。發射幾分鐘后,航天飛機發生爆炸,
機上的航天員全部遇難。在此次失事前,該航天飛機24次發射成功。將航天飛機送入太空的兩個固體燃
料推進器有6支O型項圈密封,在幾次飛行中,曾發生過O型項圈被腐蝕或氣體泄漏事故。這類事故與氣溫是否有關系呢?本次發射時的天氣預報氣溫為攝氏零下0.56°C。根據前23次飛行中O型項圈發生腐蝕或泄漏事故損壞的個數(因變量y)及發射時火箭連接處的溫度(自變量x)數據進行線性回歸得到的回歸方程為y=2.1771-0.0856x當溫度為-0.56°C時,O型項圈發生事故的預計次數為2.225次。結果顯示溫度與O型項圈事故之間有
一定的相關性。如果當時那些經理們看到了回歸的預測結果,也許推遲發射會成為其謹慎的選擇2022/5/22
統計學(第8版)—1-9統計學的應用領域——幾個例子統計學的應用領域第1章數據、統計和計算機●統計濫用不好的樣本或過小的樣本誤導性圖表局部描述故意曲解●統計應用上的兩個極端——不用或幾乎不用統計;簡單問題復雜化●在統計應用中,這兩個極端都是不可取的●簡單的方法不一定沒用,復雜的方法也不一定
有用。正如有的學者所說的,最簡單的模型往
往是最有用的●統計應該恰當地應用到它能起作用的地方。不能把統計神秘化,更不能歪曲統計,把統計作
為掩蓋實事的陷阱2022/5/22統計學(第8版)—
1-10統計學的應用領域第1章數據、統計和計算機統計的誤用與濫用1.1●
變
量
(
v
a
r
i
a
b
l
e
)觀察一個企業的銷售額,這個月和上個月不同;觀察股票市場上漲股票的家數,今天與昨天數量不一樣;觀察一個班學生的生活費
支出,一個人和另一個人不一樣;投擲一枚骰子觀察其出現的點數,這次投擲的結果和下一次也不一樣“企業銷售額”、“上漲股票的家數”、“
生活費支出”、“投擲一枚骰子出現的點數
”等就是變量●
數
據
(
d
a
t
a
)變量的觀測結果無序類別變量(名義值)有序類別變量
(順序值)離散變量
(有限值)連續變量
(無限制)類別變量(定性變量)數值變量
(定量變量)2022/5/22
統計學(第8版)—1-11變量與數據——變量及其分類第1章數據、統計和計算機怎樣獲得數據變量的基本分類●類別變量(categorical
variable)>取值為事物屬性或類別以及區間值的變量,也稱分類變量(classified
variable)或定性變量(qualitative
variable)>比如,觀察人的性別、公司所屬的行業、用戶對商品的評價時,得到的結果就不是數字,而是用法文字表示
的類別類別變量根據取值是否有序分為兩種口名義(nominal)值類別變量也稱無序類別變量,其取值是不可以排序的口順序(ordinal)值類別變量也稱有序類別變量,其取值間可以排序●數值變量(metric
variable)>取值為數字的變量,也稱為定量變量(quantitative
variable)數值型變量根據其取值的不同,可以分為離散變量(discrete
variable)和連續變量(continuous
variable口離散型變量是只能取有限個值是變量,而且其取值可以——列舉。連續型變量是可以在一個或多個區間中取任何值的變量,它的取值是連續
不斷的,不能——列舉●數據(data)量
的觀察
結
果2022/5/22
統計學(第8版)—
1-12變量與數據——變量及其分類第1章數據、統計和計算機怎樣獲得數據●簡單隨機抽樣從總體N個單位(元素)中隨機地抽取n個單位作為樣本,使得總體中每一個元素
都有相同的機會(概率)被抽中抽取元素的具體方法有放回抽樣和無放回抽樣●
分層抽樣將總體單位按某種特征或規則劃分為不同層,再從不同的層中隨機地抽取樣本●系統抽樣將總體中的所有單位(抽樣單位)按一定順序排列,在規定的范圍內隨機地抽取
一個單位作為初始單位,然后按事先規定好的規則確定其他樣本元素●整群抽樣將總體中若干個單位合并為組(群),抽樣時直接抽取群,再對中選群中的所有
單位全部實施調查●二手數據●抽取樣本總體(population):
包含所研究
的全部個體(或數據)的集合樣本(sample):
從總體中抽取的
一部分元素的集合樣本量(sample
size):構成樣本
的元素的數目●概率抽樣方法根據已知的概率抽取樣本元素
,也稱隨機抽樣2022/5/22
統計學(第8版)—
1-13第1章數據、統計和計算機怎樣獲得數據數據的來源●SAS
——統計分析系統(Statistical
Analysis
System)的縮寫●SPSS
——SPSS原是社會科學統計軟件包(statisticalpackageforthesocial
science)的縮寫,現為統計產品與服務解決方案軟件(Statistical
Product
and
Service
Solutions)
的縮寫,是世界最早的統計分析軟件●
R—
——基于R語言的一種優秀的統計軟件。在CRAN網站/
上下載R的各種版本●
EXCEL——Microsoft公司推出的Office系列產品之一,是一個功能強大的電子表格
軟件2022/5/22
統計學(第8版)—
1-14第1章數據、統計和計算機統計與計算機常用統計軟件THE
END統計THANKSTHE
ENDTHANKS●教育部經濟管理類核心課程教材●“十二五”普通高等教育本科國家級規劃教材●北京高等教育精品教材●北京高等學校優質本科教材課件統計學(第8版)2022/5/22無"普通高等教有本科國家級現則教材統計學SPSS
和Excel實現(第8版)STATISTICS北京高等教育精品教材第
2
章
用圖表展示數據2
.1生成頻數分布表2.2類別數值數據可視化2.3數值數據可視化2.3合理使用圖表類別數據生成頻數表數值數據觀察頻數類別數據可視化觀察頻數構成展示分布展示關系數值數據可視化展示相似時間序列簡單頻數表二維列聯表類別化分組表簡單條形圖帕累托圖簇狀條形圖
堆積條形圖餅圖
環
形圖直方圖莖葉圖
箱形圖
散
點
圖
氣泡圖
雷達圖
輪廓圖
折線圖
面積圖統計學(第8版)—
2-19思維導圖數據的圖表展示2022/5/22下面的數據是2016年8月5日到2016年8月21日在巴西里約熱內盧舉辦的第31屆奧運會
上,獲得金牌前6名的國家獎牌數的分布狀況日在倫敦舉辦的第30屆奧運會上,獲得
金牌前6名的國家獎牌排名國家金牌銀牌銅牌總數1美國637381212英國272317673中國261826704俄羅斯191819565德國171015426日本1282141根據上面的數據,你認為可以選擇哪些圖形來展示三個國家所獲得的獎牌情況?學完
本章的圖表展示技術,這樣的問題就會迎刃而解2022/5/22統計學(第8版)—
2-20用哪些圖形展示獎牌思考以下問題類別數據的頻數分布表生成頻數分布表●
列出各類別●
計算各類別的頻數●
生成頻數分布表計算描述統計量●頻數(frequency):落在各類別中的數
據個數●比例(proportion):某一類別數據個數占全部數據個數的比值●百分比(percentage):將對比的基數作
為100而計算的比值●比率(ratio):不同類別數值個數的比值2022/5/22統計學(第8版)—
2-21第2章用圖表展示數據生成頻數分布表性別飲料類型性別飲料類型女碳酸飲料女茶類飲料男茶類飲料男礦泉水男礦泉水女茶類飲料女礦泉水女碳酸飲料男碳酸飲料女礦泉水男礦泉水男其他飲料…………男其他飲料女茶類飲料女碳酸飲料女其他飲料男茶類飲料女果汁男茶類飲料男茶類飲料女碳酸飲料女其他飲料男碳酸飲料女礦泉水
生成頻數分布表類別數據的頻數分布表——簡單頻數表——例題分析【例2
-
1]為研究人們對不同類型軟飲料的偏好
情況,一家調查公司在
某超市隨機調查了50名
消費者。表2-1是消費者
性別及其所偏好的飲料
類型記錄。生成頻數分
布表,觀察不同性別的消費者及其所偏好的飲
料類型的分布狀況●
只涉及一個類別變量●
這個變量的各類別(
取值)可以放在頻數
分布表中“行”的位置
,也可以放在“列”的
位置●
將該變量的各類別及其相應的頻數列出來就是一個簡單的頻數
表,也稱為一維列聯
表2022/5/22
統計學(第8版)—
2-22飲料類型頻率百分比有效百分比累積百分比有效茶類飲料1122.022.022.0果汁612.012.034.0礦泉水1020.020.054.0其他飲料816.016.070.0碳酸飲料1530.030.0100.0總計50100.0100.0性別頻率百分比有效百分比累積百分比有效男2244.044.044.0女2856.056.0100.0總計50100.0100.0類別數據的頻數分布表——簡單頻數表——例題分析2022/5/22統計學(第8版)—
2-23生成頻數分布表第2
章用圖表展示數據SPSS
輸
出●涉及兩個類別變量●將一個變量的各類別放在“行”的位置,另一個變量的各類別放在“列”
的位置(行和列可以互換)生成頻數分布表,這樣表格稱為二維列聯表(contingency
table),簡稱列聯表或交叉表(cross
table)●列聯表主要用于反映兩個類別變量的交叉頻數分布狀況2022/5/22
統計學(第8版)—2-24類別數據的頻數分布表——二維列聯表第
2
章
用圖表展示數據生成頻數分布表性別。飲料類型交叉表飲料類型總計茶類飲料果汁礦泉水其他飲料碳酸飲料性別男計數7162622占性別的百分比31.8%4.5%273%9.1%273%100.0%占飲料類型的百分比63.6%16.7%60.0%25.0%40.0%44.0%占總計的百分比14.0%2.0%12.0%4.0%12.0%44.0%女計數4546928占性別的百分比14.3%17.9%14.3%21.4%32.1%100.0%占飲料類型的百分比364%83.3%40.0%75.0%60.0%56.0%占總計的百分比8.0%10.0%8.0%12.0%18.0%56.0%總計計數161081550占性別的百分比22.0%12.0%20.0%16.0%30.0%100.0%占飲料類型的百分比100.0%100.0%100.0%100.0%100.0%100.0%占總計的百分比22.0%12.0%20.0%16.0%30.0%100.0%性別*飲料類型
交叉表計數飲料類型總計茶類
飲料果汁礦泉
水其他
飲料碳酸
飲料性別男7162622女4546928總計1161081550類別數據的頻數分布表——二維列聯表——例題分析第2章用圖表展示數據統計學(第8版)—
2-25生成頻數分布表【例2-2】沿用例2-1。SPSS輸出結果2022/5/22234159187155172183182177163158143198141167194225177189196203187160214168173178184209176188161152149211196234185189196206150161178168174153186190160171228162223170165179186175197208153163218180175144178191197192166196179171233179187173174210154164215233175188237194198168174226180172190172187189200211156165175210207181205195201172203165196172176182188195202213
生成頻數分布表數值數據的頻數分布表——數據分組——類別化處理——例題分析表展2【例2-3】某電腦公司2021年前4個月的銷售額數據如表2-6
所示。對數據額做適當分組
,分析銷售額的分布特征2022/5/22統計學(第8版)—
2-26確定組數的方法有幾種。設組數為K,根據斯特奇斯
(Sturges)
給出的組數確定方法,K=1+log?0(n)/log?0(2)
。
當然這只是個
大概數,具體的組數可根據需要適當調整。表2-6共有120個數據,
K=1+log?0(100)/log?0(2)≈8,因此,可以將數據大概分成8
組。當然,這只是個大概數,實際分組時,可根據需要適當調整。
本例可將組距確定為10●
確定各組的組距(組的寬度)>組距可根據全部數據的最大值和最小值及所分的組數來確定,即
組距=(最大值-最小值)÷組數。對于表2-6數據,最小值為141,
最大值為237,則組距=(237-141)/8≈12,因此組距可取12。為便
于理解,本例取組距=10(使用者根據分析的需要確定一個大概數即可)●
統計出各組的頻數即得頻數分布表>
在統計各組頻數時,恰好等于某一組上限的變量值一般不算在本
組內,而算在下一組,即一個組的數值x滿足a≤x<b。銷售額分組(萬元)天數(天)頻率(%)140-15043.3315-16097.50160-1701613.33170-1802722.50180-1902016.67190-2001714.17200-210108.33210=22086.67220-23043.33230-24054.17合計120100.00數值數據的頻數分布表——數據分組——類別化處理——例題分析●確定要分的組數
某電腦公司2021年前4個月銷售額的分組表2022/5/22
統計學(第8版)—
2-27生成頻數分布表第2
章用圖表展示數據●條形圖(bar
plot)是用一定寬度和高度的矩形表示各類別頻數多少的圖形
,主要用于展示類別數據的頻數分布●繪制條形圖時,各類別可以放在x軸(橫軸),也可以放在y軸(縱軸)。類別放在x軸的條形圖稱為垂直條形圖(verticalbarplot)或柱形圖,類別放在
y軸的條形圖稱為水平條形圖(horizontal
bar
plot)●只有一個類別變量時,可以繪制簡單條形圖和帕累托圖;有兩個類別變量時
,可以繪制簇狀條形圖或堆積條形圖類別數據可視化——簡單條形圖和帕累托圖——簡單條形圖2022/5/22
統計學(第8版)—2-28第2章
用圖表展示數據類別數據可視化類別數據可視化——簡單條形圖和帕累托圖——簡單條形圖——例題分析2022/5/22統計學(第8版)—
2-29類別數據可視化第2
章用圖表展示數據●
帕累托圖
(paretoplot)
是以意大利經濟學家V.Pareto的名字而命名●按各類別的頻數多少降序排列后繪制
的條形圖●帕累托圖可以看做是簡單條形圖的一
個變種,利用該圖很容易看出哪類頻
數出現得多,哪類頻數出現得少類別數據可視化——簡單條形圖和帕累托圖——帕累托圖——例題分析2022/5/22統計學(第8版)—
2-30類別數據可視化例2-4沿用例2-1第2
章用圖表展示數據四礦泉水
飲料類型四碳酸飲料團茶類飲料日果汁其他飲料百分比計
數20●簇狀條形圖中,一個類別變量作為坐標軸,另一個類別變量各類別頻數的條形并列擺放計數計數D2●當有據兩個類別變量時,可以將兩個變量的條形圖以簇狀或
堆積的方式繪制,這就是簇狀
條形圖和堆積條形圖●在堆積條形圖中,
一個類別變量作為坐標軸,另一個類別變
量各類別的頻數按比例堆疊在同一個條中(例2
-
5沿用例2-1108類別數據可視化——簇狀條形圖和堆積條形圖——例題分析性別□男
■女6152022/5/22
統計學(第8版)—2-31日礦泉水其他飲料碳酸飲料
飲料類型類別數據可視化果汁
礦泉水
其
飲碳
飲飲料類型4茶類飲料
果汁第2章用圖表展示數據4茶類飲
料性別□男
■女5
類別數據可視化類別數據可視化——餅圖和環形圖——餅圖——例題分析●
餅圖
(piechart)
是用圓形及圓內
扇形的角度來表
示一個樣本(或
總體)中各類別
的頻數占總頻數
比例大小的圖形●對于研究結構性
問題十分有用性別44009飲料類型數飲2-322022/5/22
統計學(第8版)—例2-6沿用例2-1性別男飲料類型茶類飲
料果汁礦泉水其他飲料
碳酸飲料女
類別數據可視化類別數據可視化——餅圖和環形圖——環形圖——例題分析表展2東部中部西部總計非常滿意104140132376比較滿意156108120384一般148148160456不滿意156108140404非常不滿意156116108380總計7206206602000●環形圖與餅圖類似,但
又有區別。環形圖中間
有一個“空洞”,每個樣本用一個環來表示,樣
本中每一類別的頻數構
成用環中的一段表示●環形圖可顯示多個樣本
各類別頻數占其相應總頻數的比例,從而有利
于構成的比較研究例
2
-
7
■為研究不同地區的消費者對網上購物的滿意度,隨機抽取東部、中部和西部的2000個消費者進行調查,得到的結果如表2
-8所示。繪制環形
圖,分析各類別的人數構成狀況2022/5/22
統計學(第8版)—2-33數值數據可視化——展示分布的圖形——直方圖●直方圖——將數據分組后,在x軸上用矩形的寬度表示每個組
的組距,在y軸上用矩形的高度
表示每個組的頻數或密度,多
個矩形并列在一起就是直方圖●利用直方圖的形狀可以觀察數
據分布的特征2022/5/22統計學(第8版)—
2-34數值數據的圖表展示第2
章用圖表展示數據與條形圖的區別●條形圖中的每一矩形表示一個類別,其寬度沒有意義,而直方圖的寬
度則表示各組的組距●由于分組數據具有連續性,直方圖的各矩形通常是連續排列,而條形
圖則是分開排列●條形圖主要用于展示類別數據,而直方圖則主要用于展示數值數據數值數據可視化——展示分布的圖形——直方圖——與條形圖的區別2022/5/22
統計學(第8版)—2-35第2章
用圖表展示數據數值數據可視化日期1
月2月3月4月5
月6月13592191081925131251655233501814145942443101123348561263830481227158285419662817165105937552970864561592830466890531531446411
數值數據的圖表展示數值數據可視化——展示分布的圖形——直方圖——例題分析展2【例2-8】
2020年1月-6月北京市的PM2.5
數據。繪制
直方圖分析PM2.5的分布特
征2022/5/22統計學(第8版)—
2-362022/5/22統計學(第8版)—
2-37數值數據的圖表展示第2章用圖表展示數據●用于顯示未分組的原始數據的分布●由“莖”和“葉”兩部分構成,其圖形是由數字組成的●以該組數據的高位數值作樹莖,低位數字作樹葉●樹葉上只保留最后一位數字●莖葉圖類似于橫置的直方圖,但又有區別直方圖可觀察一組數據的分布狀況,但沒有給出具體的數值莖葉圖既能給出數據的分布狀況,又能給出每一個原始數值,保留了原始數據的信息
直方圖適用于大批量數據,莖葉圖適用于小批量數據數值數據可視化——展示分布的圖形——莖葉圖2022/5/22統計學(第8版)—
2-38第
2
章
用圖表展示數據數值數據可視化【例2-9】沿用例2-8●圖中的第1列給出每個莖上葉子的頻數(顯示為頻率
),第2列是“莖”
(Stem),
第3列是“葉”●下面標出了極端值的個數,共有11個(系統自動將
>=117的數值定義為極端值。莖的寬度為10,每個
葉代表一個數據(案例)。圖2-11顯示,PM2.5主要分
布在10~19之間,有35個葉子,即出現35天。從葉
子的分布看,PM2.5
呈現右偏分布PM2.5莖葉圖頻率
Stem
&葉21.00
0.35566777777888888999935.00
1.0000000111112244444567777788889999924.002.00111133333356666788889926.003.0000112344445555667778899920.00
4.0111112233444556788918.00
5.00011113355556899913.00
6.01112344566688.00
7.001225562.00
8.562.00
9.072.00
10.8911.00極值(>=117)主干寬度:10每
個
葉:1
個
案
數值數據可視化數值數據可視化——展示分布的圖形——莖葉圖——例題分析2022/5/22統計學(第8版)—
2-39●首先,找出一組數據的中位數
(
median)
和兩個四分位數
(quartiles)
,并畫出箱子箱形圖的示意圖●其次,計算出內圍欄和相鄰值,并畫出須線。內圍欄
(
interfence)是與Q
?5%和
Q?5%的距離等于1.5倍四分位差的兩個點
,其中Q?5%-1.5×1QR
稱為下內圍欄,Q?5%+1.5×1QR
稱
為上內圍欄。上下內圍欄一般不在箱線圖中顯示,只是作為
確定離群點的界限。然后找出上下內圍欄之間的最大值和最
小值(即非離群點的最大值和最小值),稱為相鄰值(
adjacent
value)
,其中大于Q?5%-1.5×1QR
的最小值稱
為下相鄰值,小于Q?5%+1.5×1Q
R
的最大值稱為上相鄰值。用直線將上下相鄰值分別與箱子連接,稱為須線(
whiskers)
。25%四分位數離群點00須線中位數75%四分位數上相鄰值離群點0須線●最后,找出離群點,并在圖中單獨標出。離群點
(
outlier)
是
大
于
上
內
圍
欄
或
小
于
下
內
圍
欄
的
數
值
,
也
稱
外
部
點(
outside
value)
,
在圖中用“O”單獨標出1.5倍四分位差一下內圍欄Q?5%-1.5×IQR四分位差1.5倍四分位差上內圍欄Q75%+1.5×IQR2022/5/22統計學(第8版)—
2-40數值數據可視化——展示分布的圖形——箱形圖第
2
章
用圖表展示數據數值數據可視化下相鄰值左偏分布010
20對稱分布古。否呂-3
-2
0
2
3右偏分布0
10
20
30010
2030-3
30.00
0.02
0.04
0.06
0.08
0.10數值數據可視化——展示分布的圖形——箱形圖2022/5/22統計學(第8版)—
2-41第2
章用圖表展示數據數值數據可視化的箱
形圖
【例2-9】沿用例2-8圖中,“O”和對應的數字表示離
群點的位置及其數值。圖2顯示
,2月份的PM2.5數值較高(中
位數較大),4月份的PM2.5數
值較低(中位數較小)。從分布
形狀看,6月份PM2.5的分布大致為對稱,其余月份PM2.5的分
布均為右偏分布,其中,2月份
PM2.5的分布偏斜程度最大,其次是1月份和3月份。這幾個月均
出現了較多的離群值數值數據可視化——展示分布的圖形——箱形圖——例題分析2022/5/22統計學(第8版)—
2-42第
2
章
用圖表展示數據數值數據可視化地區地區生產總值房地產開發投資社會消費品零售總額北京市35371.33838.415063.7天津市14104.32727.84218.2河北省35104.54347.112985.5山西省17026.71656.57030.5內蒙古自治區17212.51042.05051.1陜西省25793.23903.710213.0甘肅省8718.31257.93700.3青海省2966.0406.3948.5寧夏回族自治區3748.5403.11399.4新疆維吾爾自治區13597.11074.03617.0●散點圖——將兩個變量的各
對觀測點畫在二維坐標中,
并利用各觀測點的分布來展
示兩個變量間的關系●設兩個變量分別為x
和y,
每對觀測值(xi,yi)
在二維坐標中用一個點表示,n
對觀測值在坐標中形成的n
個點圖稱為散點圖●利用散點圖可以觀察兩個變
量間是否有關系,如果有,
則關系的形態以及關系強度
如何等
數值數據可視化數值數據可視化——展示變量間關系的圖形——散點圖【例2-11】我國2019年我國31個地區的地區生產總值、房地產開發投
資和社會消費品零售總額數據。繪散點圖觀察它們之間的關系2022/5/22
統計學(第8版)—2-43
數值數據可視化數值數據可視化——展示變量間關系的圖形——散點圖——例題分析600001重疊散點圖300000
4000005000042022/5/22
統計學(第8版)—
2-44(例2-11地區生產總值
房地產開發投資
社會消費品零售總額O醫產開發段責△地區圈棄復段費
囚費要四總額普通散點圖房地產開發投資
社會消費品零售總額200000房地產開發投資矩陣散點圖1000001600004000020000120001000000800000120000R2線性(L)-0935地區生產總值地區生產總值6【例2-11】繪氣泡圖觀察它們之間的關系氣泡大小=社會消費品零售總額180001600014000120001000080006000400020002000040000
60000
80000地區生產總值●普通散點圖只能展示兩個變量間的關系●對于3個變量之間的關系,除
了可以繪制三維散點圖外,也
可
以
繪
制氣
泡
圖
(bubblechart),
它可以看作是散點
圖的一個變種●在氣泡圖中,第3個變量數值
的大小用圓的大小表示。數值數據可視化——展示變量間關系的圖形——氣泡圖——例題分析2022/5/22統計學(第8版)—
2-45第2章用圖表展示數據數值數據可視化房地產開發投資100000120000●
雷
達圖
(rad
ar
chart)
是從一個
點出發,用每一
條射線代表一個
變量,多個變量
的數據點連接成
線,即圍成一個
區域,多個樣本
圍成多個區域,就是雷達圖●可用于研究多個樣本之間的相似程度。
【例2-12】2
018年北京、天津、上海和重慶的人均消費支出數據,繪制雷達圖
,比較不同地區的家庭消費支出的特點和相似性地區食品煙酒衣著居住生活用品及服務交通通信教育文
化娛樂醫療保健其他用品
及服務北京8064.92175.514110.32371.94767.43999.43274.51078.6天津8647.51990.06406.31818.44280.93186.62676.9896.3上海10728.22036.814208.52095.54881.25049.43070.21281.5重慶6220.81454.53498.81338.92545.02087.81660.0442.8數值數據可視化——展示樣本相似性的圖形——雷達圖——例題分析2022/5/22
統計學(第8版)—
2-46第
2
章
用圖表展示數據數值數據可視化 【例2-12]2018年北京、天津、上海和重慶的人均消費支出數據,繪制雷達圖,比較不同地區的家庭消費支出的特點和相似性食品煙酒1600014000其他用品及服務12000
衣著10000800060醫療保健
住一北京-天津上海重慶食品煙酒100000其他用品及服務醫療保健1000010010010衣著居住一北京
一天津
-上海
重慶教育文化娛樂
生活用品及服務交通通信教育文化娛樂
生活用品及服務交通通信數值數據可視化——展示樣本相似性的圖形——雷達圖——例題分析2022/5/22統計學(第8版)—
2-47第2章
用圖表展示數據數值數據可視化●
輪廓圖
(outlinechart)也稱為平
行坐標圖或多線圖●用x軸表示各樣本
,y
軸表示每個樣
本的多個變量的
取值,將同一樣
本的不同變量取
值用折線連接,
即為輪廓圖食品煙酒衣著居住生活用品及服務交通通信教育文化娛樂醫療
保健其他用品及服務4.92175.514110.32371.94767.43999.44.51078.68647.51990.06406.31818.44280.93186.626
6.9896.310728.22036.814208.52095.54881.25049.430
0.21281.56220.81454.53498.81338.92545.02087.81660.0442.8
【例2-12】2018年北京、天津、上海和重慶的人均消費支出數據,繪制輪廓圖
,比較不同地區的家庭消費支出的特點和相似性數值數據可視化——展示樣本相似性的圖形——輪廓圖——例題分析2022/5/22
統計學(第8版)—
2-48第2章用圖表展示數據數值數據可視化16000140001200010000支出金額400006000002月份的數據為例,繪制的PM2.5的折線圖。日
期■1
月■2
月
200●時間序列是一種常見的數
據形式,它是在不同時間
點上記錄的一組數據,如
各年份的GDP數據、各月
份的CPI數據、一年中各交
易日的股票價格指數收盤
數據等●利用折線圖(linechart)
和面積圖
(area
graph),
可以觀察時間序列的變化
模式和特征12345678910111213141516171819202122232425262728293031日
期2022/5/22
統計學(第8版)—
2-49數值數據可視化——時間序列圖形——折線圖和面積圖——例題分析數值數據可視化【例2-13】沿用例2-8。以例2-8中1月份和第2章用
圖表
展
示數
據-O-
1
月
一
-2
月●一幅完整的圖形大體上包括圖形主體、標題、坐標軸注釋等要素。圖形主體用于表達數據信息●標題用于注釋圖形的內容,
一般包括數據所屬的時間(when)、地點(where)和內容(what),此外,還應包括必要的圖形編號。標題可以放在圖的上方,也可放在圖的下方●坐標軸注釋需要標示出坐標軸代表的變量名稱,以便于閱讀和理解●圖形的比例也十分重要,一般圖形大致為4:3的一個矩形,過長或過高的圖形都有
可能歪曲數據,給人留下錯誤的印象2022/5/22
統計學(第8版)—2-50第
2
章
用圖表展示數據使用圖表的注意事項合理使用圖表數據特征THANKSTHE
END用圖形探索●教育部經濟管理類核心課程教材●“十二五”普通高等教育本科國家級規劃教材●北京高等教育精品教材●北京高等學校優質本科教材課件統計學(第8版)2022/5/22無"普通高等教有本科國家級現則教材統計學SPSS
和Excel實現(第8版)STATISTICS北京高等教育精品教材第
3
章
用統計量描述性數據3
.1描述水平的統計量3.2描述差異的統計量3.3
描述分布形狀的統計量納塔利婭
帕杰林娜郭文琚卓格巴德拉赫
蒙赫珠勒妮諾
·薩盧克瓦澤維多利亞
柴卡萊萬多夫斯卡
薩貢亞斯娜
舍卡里奇10.010.09.39.89.38.110.28.510.510.010.39.410.39.610.010.48.710.010.49.29.910.210.48.39.510.19.99.910.610.19.210.210.29.89.310.510.39.510.710.510.49.19.89.48.510.49.29.99.79.710.710.710.610.59.410.09.510.89.29.19.810.79.39.39.79.210.88.69.69.9在2008年的第29屆北京奧運會女子10米氣手槍比賽中,每個運動員首先進行每組10槍共4組的預賽,根據預賽總成績確定進入決賽的8名運動員。決賽時8名運動員再進行10槍射擊,預賽成績加上決賽成績確定最后的名次。在2008年8月10日舉行的第29屆北京奧運會女子10米氣手槍決賽中,進入決賽的8名運動員的預賽成績和最后10槍的決賽成績如下表所示最后的比賽結果是,中國運動員郭文…憑借決賽的穩定發揮,以總成績492.3環奪得金牌,預賽排在第1名的俄羅斯運動員納塔利婭
·
帕杰林娜以總成績489.1環獲得銀牌,預賽
排在第4名的格魯吉亞運動員妮諾
·薩盧克瓦澤以總成績487.4環獲得銅牌,而預賽排在第3名的蒙古國運動員卓格巴德拉赫
·
蒙赫珠勒僅以479.6環的成績名列第8。由此可見,在射擊比賽中,運動員能否取得好的成績,發揮的穩定性至關重要。那么,怎樣評價一名運動員的發揮是否穩定呢?通過本章內容的學習就能很容易回答這樣的問題
哪名運動員發揮更穩定思考以下問題2022/5/22統計學(第8版)—
2-54中位數四分位數百分位數2-55描述水平描述差異描述分布
形狀統計學(第8版)—平均數分位數眾數極差和四分位差方差和標準差離散系數標準分數偏度系數峰度系數第2
章用圖表展示數據思維導圖用統計量描述數據2022/5/22平均數簡單平均數●平均數——也稱為均值,常用
的統計量之一●消除了觀測值的隨機波動●易受極端值的影響●根據總體數據計算的,稱為總
體平均數,記為μ;根據樣本
數據計算的,稱為樣本平均數,
記為x加權平均數2022/5/22統計學(第8版)—
2-56描述水平的統計量第2章用圖表展示數據859783616786559270868175915596868991668772925082799090859566平均數——簡單平均數——例題分析【例3-1]
在某年級中隨機抽取30名學生,得到每名學生的統計學考試分數如表3-12022/5/22統計學(第8版)—
2-57所示。計算30名學生考試分數的平均數描述水平的統計量第2章用圖表展示數據=80【例3
-
1】沿用例3-1。假定將30名學生的數學考試分數分組后結果表3-2所示。計算
考試分數的平均數分組組中值(m)人數(f)分組組中值(m;)人數(f)60以下55360以下55360~7065460~7065470~8075470~8075480~90851080~908510850Zi=1x=90~10095990~1009598552430二30n=81合計
30合計302430
描述水平的統計量平均數——加權平均數——例題分析2022/5/22統計學(第8版)—
2-58m;×f165260300●
分位數———組數據按從小到大排序后,可以找出排在某個
位置上的數值,該數值可以代
表數據水平的高低。這些位置上的數值就是相應的分位數(quantile)。常用的分位數有
中位數、四分位數、百分位數
等
描述水平的統計量分位數——中位數——例題分析例3-3■計算例3-1的中位數將30名學生的考試分數排序,然后確定中位數的位置:
(30+1)÷2=15.5,中位數是排序后的第15.5位置上的數值,即中位數在第15個數值(85)和第16個數值(85)中間(0.5)的位置上。因此(85+85)/2=852022/5/22
統計學(第8版)—
2-59●中
位
數——排序后處于中間位置上的值。不受極端值影響數值計算位置確
定【例3-4】沿用例3-1。計算四分位數,即Q?
5%在第7個數值(67)和第8個數值(70)之間0.75的位置上,因此,Q?
5%=67+0.75×(70-67)=69.25。,即Q75%在第23個數值(90)和第24
個數值(91)之間0.25的位置上,因此,Q75%=90+0.25×(91-90)=90.25?!?/p>
四分位數——
一組數據排序
后處在25%和75%位置上的數
值●
它是用3個點將全部數據等分
為4部分,其中每部分包含
25%的數據?!?/p>
中間的四分位數就是中位數,
通常所說的四分位數是指處
在25%位置上和75%位置上的
兩個數值2022/5/22
統計學(第8版)—
2-60分位數——四分位數——例題分析第2章用圖表展示數據描述水平的統計量位置確定分位數——百分位數——例題分析●百分位數——用99個
點將數據分成100等份,
處在各分位點上的數
值就是百分位數●百分位數提供了各項
數據在最小值和最大
值之間分布的信息【例3
-
5】沿用例3-1。計算30個學生考試分數的第5個百分位數和第90個百分位數第5個百分位數在第1個值(50)和第2個值(55)之間0.5
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 行政管理考試要點總結試題及答案
- 公路工程執照考試基礎試題及答案
- 軟考網絡工程師考試模擬試題及答案
- 網絡服務的負載均衡技術考點試題及答案
- 數據庫安全性測試試題及答案
- 2025年機電工程核心知識點及試題及答案
- 軟考網絡工程師備考過程中應注意的陷阱試題及答案
- 嵌入式硬件設計的規范試題及答案
- 2025年信息項目管理普及試題及答案
- 軟件設計師考試相關知識的深度挖掘試題及答案
- T/BCEA 001-2022裝配式建筑施工組織設計規范
- 2025年《高級養老護理員》考試練習題庫含答案
- 骨科手術圍手術期管理
- 委托尋找房源協議書
- 法洛四聯癥的護理課件
- 2025年佛山市三水海江建設投資有限公司招聘筆試參考題庫附帶答案詳解
- DB44-T 2458-2024 水庫土石壩除險加固設計規范
- 2025屆高考語文寫作押題作文10篇
- 跨國醫療體檢代理合作協議
- 2024年廣東省乳源瑤族自治縣事業單位公開招聘高層次緊缺人才24名筆試題帶答案
- 中國成人呼吸系統疾病家庭氧療指南(2024年)解讀
評論
0/150
提交評論