《商務統計分析 第2版》 課件 第1、2、4章 數據與統計分析、數據的圖表描述、抽樣與抽樣分布_第1頁
《商務統計分析 第2版》 課件 第1、2、4章 數據與統計分析、數據的圖表描述、抽樣與抽樣分布_第2頁
《商務統計分析 第2版》 課件 第1、2、4章 數據與統計分析、數據的圖表描述、抽樣與抽樣分布_第3頁
《商務統計分析 第2版》 課件 第1、2、4章 數據與統計分析、數據的圖表描述、抽樣與抽樣分布_第4頁
《商務統計分析 第2版》 課件 第1、2、4章 數據與統計分析、數據的圖表描述、抽樣與抽樣分布_第5頁
已閱讀5頁,還剩95頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第1章

數據與統計分析1第1章數據與統計分析——目錄1.1數據1.2數據來源1.3統計分析1.4統計軟件21.1數據——定義數據是對現象進行計量的結果。3地區年末常住人口/萬人城鎮人口/萬人鄉村人口/萬人北京市21711878293天津海市24182121297江蘇省802955212508浙江省565738471810表1-1

中國東部地區2018年人口分布情況地區年末常住人口/萬人城鎮人口/萬人鄉村人口/萬人北京市21711878293天津海市24182121297江蘇省802955212508浙江省5657384718101.1數據——個體、變量和觀測值4在研究中,對每個個體的每一變量收集測量值,從而得到數據(data)。個體(element)是指收集數據的對象。變量(variable)是個體的特征或屬性。觀測值(observation)是數據集中每個個體的測量值集合。觀測值個體變量表1-1

中國東部地區2018年人口分布情況51.1數據——定性數據和定量數據取值是否能排序否是是否有比例屬性否是定性數據定量數據名義數據順序數據定距數據定比數據是否能用數值表示是否變量是否連續連續變量離散變量是否61.1數據——定性數據和定量數據√√√√定比數據√√√定距數據√√√

分類(=,≠)排序(<,>)

間距(+,-)比值(×,÷)順序數據名義數據四種計量尺度的比較計量尺度數學特性“√”表示該尺度所具有的特性注:

定性數據可以用數值變量表示,但不可看作是數值型數據。處理定量數據也可轉化為定性數據(如年齡→老年、中年、青年、兒童)71.1數據——截面數據和時間序列數據按照被描述的現象與時間的關系截面數據(cross-sectionaldata)是在相同或近似相同的時間點上收集的不同個體的數據,用于描述現象在某一時刻的變化情況。時間序列數據(timeseriesdata)是在不同時間點上收集的同一個體的數據,用于描述現象隨時間的變化情況。地區年末常住人口/萬人城鎮人口/萬人鄉村人口/萬人北京市21711878293天津海市24182121297江蘇省802955212508浙江省565738471810表1-1

中國東部地區2018年人口分布情況81.1數據——截面數據和時間序列數據截面數據91.1數據——截面數據和時間序列數據時間序列數據年度中央財政債務余額/億元國內債務/億元國外債務/億元2018149607.42148208.621398.802017134770.15133447.431322.722016120066.75118811.241255.512015106599.59105467.481132.11201495655.4594676.31979.14表1-2

中央財政債務余額情況101.2數據——直接來源和間接來源調查或實驗間接來源:別人通過調查或實驗的方式收集的,使用者只是找到它們并加以使用。系統內部數據;或從公開出版、公開報道的信息中獲得優點:收集方便、數據采集快、采集成本低等等缺點:針對性不夠

調查(survey)通常針對社會現象。普查:調查針對總體中的所有個體;抽樣調查:總體、樣本、樣本量(舉例)。實驗(experiment):在控制條件下進行的(舉例)。直接來源:自己直接調查或實驗獲得的一手數據。使用二手數據時應注意以下幾點:數據的含義數據搜集的時間計算口徑計算方法數據的可信度111.2數據——直接來源和間接來源121.2數據——直接來源和間接來源(調查vs實驗)抽樣調查研究問題:一個班的平均身高,按一定的規律抽出20個同學的身高研究。總體:這個班的所有同學的身高。個體:A同學的身高就是1個個體。樣本:20個同學的身高。樣本容量:20。實驗研究問題:糖寧膠囊聯合利拉魯肽對2型糖尿病治療是否有效。實驗方法:對照組皮下注射利拉魯肽注射液,治療組在對照組基礎上口服降糖寧膠囊,然后收集每組每個人治療前后的血糖數據。最后數據的統計分析將會有助于了解該藥的治療效果。131.3數據——什么是統計學統計學描述統計(descriptivestatistics):是將數據以表格、圖形或數值形式匯總的統計方法。推斷統計(inferencestatistics):利用樣本數據信息對總體特征做出推斷,包括參數估計和假設檢驗兩大類。統計學(statistics):一門分析數據的科學,涉及數據的收集、整理、分析及對數字信息的解釋。141.3數據——什么是統計學(推斷統計)樣本平均值數據對總體平均數進行估計總體:用新燈絲生產的所有燈泡的平均壽命未知200個用新燈絲制成的燈泡200個用新燈絲制成的燈泡的平均壽命為760小時抽樣獲得樣本數據推斷統計的過程151.4數據——統計軟件SPSS:目前國內應用最為廣泛的統計軟件Excel:不是專業的統計軟件,但包含一些基本的統計方法,容易上手R:專業統計人員最常用的統計軟件第2章

數據的圖表描述16第2章數據的圖表描述——目錄2.1單個定性變量的數據描述2.2單個定量變量的數據描述2.3兩個變量數據的表格描述2.4兩個變量數據的圖形描述2.5數據可視化:創建有效圖形172.1單定性變量的數據描述定性數據是非數值型的,因此只能對其進行分組(類)處理頻數分布(頻數、相對頻數、百分數頻數)條形圖餅形圖18頻數(frequency):落在某一特定組別中的觀測值個數相對頻數(relativefrequency):頻數除以總觀測值個數(n)百分數頻數(percentagefrequency):相對頻數乘以100%192.1單定性變量的數據描述——頻數百分數頻數=相對頻數×100%相對頻數=頻數/n2.1單定性變量的數據描述——頻數分布表(實例)202.1單定性變量的數據描述——頻數分布表(實例)212.1單定性變量的數據描述——頻數分布表(實例)222.1單定性變量的數據描述——條形圖條形圖(barchart):對已匯總定性數據的頻數分布進行直觀描述的一種圖形表示方法。用寬度相同的條形的高度來表示各類別數據的頻數(條形高度與類別頻數成正比)。繪制條形圖時,各類別可以放在縱軸,也可以放在橫軸。類別放在橫軸的條形圖也可稱為柱形圖(columnchart)。232.1單定性變量的數據描述——條形圖24圖2-1

購買手機品牌的條形圖2.1單定性變量的數據描述——餅形圖

252.1單定性變量的數據描述——餅形圖26圖2-2

購買手機品牌的餅形圖

272.2單個定量變量的數據描述——頻數2.2單定量變量的數據描述——頻數分布表(實例)282.2單定量變量的數據描述——頻數分布表(實例)29

2.2單定量變量的數據描述——頻數分布表(實例)302.2單定量變量的數據描述——頻數分布表(實例)312.2單定量變量的數據描述——直方圖直方圖(histogram):用矩形的寬度和高度(即面積)來表示頻數分布的定量數據的圖形描述方法。在直角坐標中,用橫軸表示數據分組,縱軸表示頻數分布,各組與相應的頻數就形成了一個矩形,即直方圖。32圖2-5

考試成績的直方圖2.2單定量變量的數據描述——條形圖vs直方圖條形圖用條形的高度(縱置時)表示各類別頻數的多少,其寬度沒有意義,是固定的。直方圖用矩形的寬度和高度(即面積)來表示頻數分布,其高度和寬度均有意義。條形圖的條形是分開排列的,而直方圖的矩形是連續排列的。332.2單定量變量的數據描述——累積頻數34累積頻數(cumulativefrequency):將各類有序組別的頻數逐漸累加起來得到的頻數。可用于描述定量數據或順序數據表示小于或等于每一組上組限的數據個數。2.2單定量變量的數據描述——累積頻數352.2單定量變量的數據描述——莖葉圖莖葉圖(stem-and-leafplot):用于顯示未分組的原始數據的分布,既能給出數據的分布狀況,又能給出每一個原始數值,保留了原始數據的信息。莖葉圖由“莖”和“葉”兩部分構成,以“17”為例:該組數據的高位數值作樹莖“1”,低位數字作樹葉“7”。362.2單定量變量的數據描述——莖葉圖37圖2-6考試成績的莖葉圖2.2單定量變量的數據描述——直方圖vs莖葉圖直方圖可以直觀看清數據分布的總體趨勢,但是得不到原始的數據內容。莖葉圖不僅可以看出數據的分布,還能保留原始數據的信息。制作莖葉圖不需要對數據進行分組,當數據量較少時,用莖葉圖更容易觀察數據的分布。莖葉圖的數據可以隨時添加數據,方便記錄與表示。莖葉圖和直方圖的應用取決于總體中的個體數。當總體中的個體取值較少時,用莖葉圖估計總體的分布;當總體中的個體取值較多時,將樣本數據恰當分組,選擇直方圖。382.3兩個變量數據的表格描述——交叉分組表交叉分組表(crosstable),也稱列聯表(contingencytable):用于分類觀測值的表格描述方法,是觀測數據按多個變量分類所列出的頻數表。交叉分組表提供了兩個變量之間的相互關系的基本畫面,可以幫助我們發現它們之間的相互作用。交叉分組表中的兩個變量,可以是定性數據或者定量數據。392.3兩個變量數據的表格描述——交叉分組表402.3兩個變量數據的表格描述——辛普森悖論412.3兩個變量數據的表格描述——辛普森悖論422.4兩個變量數據的圖形描述——散點圖

432.4兩個變量數據的圖形描述——散點圖44圖2-10北京市旅游人數與餐飲業收入的散點圖2.4兩個變量數據的圖形描述——線圖線圖(linechart):變量以時間為序的圖形描述方法。繪圖時,以時間為橫軸,以變量值為縱軸。時間序列數據通常以線圖的形式來表示。45圖2-1204-18年北京市旅游人數的時間序列圖2.4兩個變量數據的圖形描述——復合和結構條形圖復合條形圖和結構條形圖均是在條形圖的基礎上進行的拓展,可以用于顯示和對比多個數據變量。復合條形圖(side-by-sidebarchart):同時顯示已匯總的多個條形圖的一種圖形描述方法。結構條形圖(stackedbar):其每一個長條被分解為不同段,每段顯示該組數據的相對頻數。462.4兩個變量數據的圖形描述——復合和結構條形圖47圖2-13復合條形圖圖2-14結構條形圖2.4兩個變量數據的圖形描述——環形圖環形圖(doughnutchart):由兩個及兩個以上大小不一的餅圖疊在一起,挖去中間部分所構成的圖形。類似于結構條形圖,環形圖同樣可以用來描述數據總體結構并對不同數據系列進行直觀對比。環形圖中,每個樣本用一個環來表示,樣本中的每組數據的相對頻數(百分數頻數)用環中的一段表示。482.4兩個變量數據的圖形描述——環形圖49圖2-15環形圖2.5數據可視化——創建有效的圖形創建有效的圖形顯示是科學也是藝術。作為單獨的圖形,簡單的永遠是最好的。標題要清晰、簡明。圖形要保持簡潔,能用二維表示時不要用三維。軸有清楚的標記,并給出測量的單位。使用顏色區分類別時,要確保顏色有明顯差異。用圖例來標明多種顏色或線型時,要將圖例靠近所表示的數據。所設計的圖形應有助于洞察問題的實質,避免歪曲事實。502.5數據可視化——選擇圖表的類型51用于顯示數據分布的圖形描述方法:·條形圖展示定性數據的頻數分布和相對頻數分布·餅形圖展示定性數據的相對頻數分布和百分數頻數分布·直方圖展示定量數據在一個區間組集合上的頻數分布·莖葉圖展示定量數據的等級順序和分布形態用于進行比較的圖形描述方法:·復合條形圖展示兩個變量頻數的比較·結構條形圖比較和展示兩個變量的相對頻數和百分數頻數·環形圖展示兩個數據變量的相對頻數和百分數頻數用于顯示兩變量數據相關關系的圖形描述方法:·散點圖展示兩個數據變量的相關關系·線圖展示數據變量隨時間的變化關系2.5數據可視化——工具Echarts:百度開發的一款不需要編程的可視化圖表生成工具。其特點:可以在網頁端個性化定制可視化圖表;完全開源免費;可以和百度地圖結合使用;能夠應對較大的數據量和三維繪圖任務。HighCharts:國外開放的一款成熟的可視化圖表生成工具。其特點:具有詳細的使用教程和案例庫;產品穩定性較強;對非商業使用免費。Tableau:一款用于可視分析數據的商業智能工具。其特點:允許數據混合和實時協作;可以在不編程的情況下進行數據分析,也可以集成R語言或Python對數據進行分析;學生用戶可以認證信息后免費下載和試用一年,其他用戶也可以下載TableauPublic免費使用,但是需要將自己的數據公開到Tableau的服務器上。522.5數據可視化——工具PowerBI:是微軟推出的一款商業智能工具。其特點:可連接數百個數據源,進行數據的收集、整理和分析,生成個性化的數據儀表板;可以在web和移動設備上與他人共享;當建立好數據模型后,可以自動刷新數據,生成新的圖表,實現數據處理的全自動化;操作簡單,不需要編程;個人用戶可以免費使用PowerBIDesktop。FineBI:主要面向企業客戶,也是一款不需要編程的商業智能工具。其特點:相比于其他商業智能工具,FineBI更加契合企業分工協作進行數據分析的工作流程;操作界面簡單,對普通用戶的使用和上手門檻相對更低;對于個人用戶來說,FineBI可以免費下載使用。532.5數據可視化——數據儀表板數據儀表板(datadashboard):一個直觀顯示的集合,它用易于理解的方法匯總和展示公司或機構的信息,用以監控公司業績。542.5數據可視化——數據儀表板55為了說明在決策中數據儀表板的使用,我們將用某超市2019年4月1日到30日一個月的銷售數據,做一個銷售分析的數據儀表板。首先,我們要明確數據儀表板要展示什么內容?超市的數據儀表板要幫助管理者明確如何選擇更優的庫存管理方法,加快庫存周轉率,促進產品銷售,從而使企業獲得更多的利潤。針對這個問題,確定以下關鍵指標:1.總銷售額、總利潤。2.各品類利潤的比較。3.各品牌利潤、銷售量的比較。4.各品牌有無促銷的銷售量比較。5.各品牌當前庫存的庫存量。2.5數據可視化——數據儀表板56頻數:展示銷售額利潤情況條形圖:各品牌的利潤比較情況餅形圖:各類產品的利潤占比情況條形圖:各品牌當前的庫存量條形圖:各品牌的銷售量比較情況復合條形圖:有無促銷的銷售量比較情況

周銷售額:75028.3

周利潤:32914.3

2.5數據可視化——數據儀表板57前面討論的數據可視化準則適用于數據儀表板的單個圖,也適用于整個儀表板。除了這些準則,數據儀表板應最大限度地減少屏幕滾動的次數,以及圖與圖之間應使用邊框以提高可讀性。構建標題陷阱,誤導讀者58第2章數據的圖表描述的拓展——圖表的欺騙性改變縱坐標刻度,拉伸縱坐標,壓縮橫坐標造成圖形更陡峭的效果59過去一年的各季度銷售額過去一年的各季度銷售額第2章數據的圖表描述的拓展——圖表的欺騙性改變條形圖寬度和高度的比例,夸大增長量60第2章數據的圖表描述的拓展——圖表的欺騙性加拿大家庭的周均食品支出第4章

抽樣與抽樣分布6162在一些情況下,對總體的觀察成本太高:例:調查國民民意時對國民逐一調查耗時耗力對于某些情況,對總體進行全部檢驗也是不現實的:例:生產線上產品質檢、湖水中物質分析樣本推斷總體具有一定的可靠性。為什么要抽樣?第4章抽樣與抽樣分布第4章抽樣與抽樣分布——目錄4.1幾個基本概念4.2抽樣4.3正態分布以及與其相關的幾種分布4.4樣本統計量的抽樣分布4.5其他抽樣方法634.1幾個基本概念——抽樣總體和抽樣框抽樣總體(sampledpopulation):被抽取樣本的總體。抽樣框(sampledframe):用于抽取樣本的總體中所有個體的名單。抽樣框是對抽樣總體列出名冊或排序編號,是抽樣總體的具體表現。

目標總體與抽樣總體的關系64例:檢測某個地區的人均收入水平,抽樣總體是該地區群眾,抽樣框是所有群眾的列表。例:研究某企業員工薪酬水平;研究全國人民收入水平。4.1幾個基本概念——總體參數與樣本統計量基本概念:總體參數:描述總體特征的指標,如均值、方差等。樣本統計量:由樣本數據構造的不含未知參數的函數,用以描述樣本特征。推斷統計是通過樣本統計量推斷總體參數。65總體樣本抽樣樣本統計量總體參數推斷描述統計4.2抽樣

66利用計算機生成隨機數(均勻分布),從容量為N的總體中生成容量為n的隨機樣本。例如:Excel的RANDBETWEEN(1,900)能夠用來隨機產生1到900之間的整數。例如:Excel的RAND()能夠用來隨機產生0到1之間的數。674.2抽樣——隨機樣本的生成

4.2抽樣——有限總體和無限總體

684.3正態分布以及與其相關的幾種分布

6970正態分布

正態隨機變量在特定區間上取值的概率由該區間正態分布曲線下的面積給出4.3分布——正態分布714.3分布——正態分布正態分布的特征

72

4.3分布——標準正態分布73

74

75

76

77

78

79

4.4樣本統計量的抽樣分布在實際操作中,為了通過觀測樣本獲得總體的特征,我們測量樣本均值以及方差等樣本統計量。從總體中抽取樣本的可能性是無窮的,不同樣本的統計量有不同的取值,因此樣本統計量本身就是隨機變量,對樣本統計量的判斷和比較基于它們的概率分布。樣本統計量所有可能值的概率分布稱為樣本統計量的抽樣分布,是一種理論分布。4.4樣本統計量的抽樣分布樣本誤差抽樣誤差(samplingerror):樣本統計量與其對應的總體參數之間的差異。擴大樣本容量可減少抽樣誤差,使得樣本更具有代表性。非抽樣誤差(nonsamplingerror):除了抽樣誤差以外所有誤差的總和。可以通過縝密的設計和規劃進行人為控制。4.4樣本統計量的抽樣分布——樣本均值的分布

824.4樣本統計量的抽樣分布——樣本均值的分布83如果抽樣總體服從正態分布,從總體中抽取的隨機樣本的均值分布服從正態分布。

=50

=10X總體分布n=4抽樣分布Xn=164.4樣本統計量的抽樣分布——樣本均值的分布84總體抽樣分布

4.4樣本統計量的抽樣分布——樣本均值的分布85總體正態分布

非正態分布

【例】設一個總體,含有4個元素(個體),即總體單位數N=4。4個個體分別為X1=1、X2=2、X3=3、X4=4。總體的均值、方差及分布如下均值和方差總體分布14230.1.2.3864.4抽樣分布——樣本均值的分布(例子)現從總體中抽取n=2的簡單隨機樣本,在重復抽樣條件下,共有42=16個樣本。所有樣本的結果如下表3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二個觀察值第一個觀察值所有可能的n=2的樣本(共16個)874.4抽樣分布——樣本均值的分布(例子)計算出各樣本的均值,如下表。并給出樣本均值的抽樣分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二個觀察值第一個觀察值16個樣本的均值(x)樣本均值的抽樣分布1.00.1.2.3P(x)1.53.04.03.52.02.5x884.4抽樣分布——樣本均值的分布(例子)式中:M為樣本數目比較及結論:1.樣本均值的均值(數學期望)等于總體均值

2.樣本均值的方差等于總體方差的1/n894.4抽樣分布——樣本均值的分布(例子)4.4樣本統計量的抽樣分布——其他統計量的分布

904.4樣本統計量的抽樣分布——其他統計量的分布

914.5其他抽樣方法概率抽樣(隨機抽樣)簡單隨機抽樣分層隨機抽樣整群抽樣多階段抽樣系統抽樣4.5其他抽樣方法——分層隨機抽樣分層隨機抽樣(stratifiedsampling):總體被分為若干個組,每個組稱為層,從每層中隨機抽取樣本。分層隨機抽樣方法要求按照一定的規則或者標準對總體進行分組。每個組內樣本需要具有相同或相近的特征,同時要求組間差異明顯。優點:保證樣本的結構與總體的結構比較相近,從而提高估計的精

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論