運輸數據分析與挖掘任務數據分析的統計基礎課件_第1頁
運輸數據分析與挖掘任務數據分析的統計基礎課件_第2頁
運輸數據分析與挖掘任務數據分析的統計基礎課件_第3頁
運輸數據分析與挖掘任務數據分析的統計基礎課件_第4頁
運輸數據分析與挖掘任務數據分析的統計基礎課件_第5頁
已閱讀5頁,還剩66頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

運輸數據分析與挖掘任務4數據分析的統計基礎CONTENT目錄知識點1統計的含義和種類知識點2統計調查的基本術語知識點3統計方法1.熟悉統計的含義及特點;2.了解統計的基本術語和特點;3.掌握數據統計的方法和種類;學習目標i知識點1

統計的含義和種類一、統計的含義吸煙導致肺癌,抗生素治療胃潰瘍,鍛煉有助于預防心臟病……我們怎么知道這些?因為科學家有統計數據證明。2025/4/15

第一章總論什么是統計?正常條件下新生嬰兒的性別比為107:100投擲一枚均勻的硬幣,出現正面和反面的頻率各為1/2;投擲一枚骰子出現1~6點的頻率各為1/6農作物的產量與施肥量之間存在相關關系2025/4/15

第一章總論

統計是以數據為食物的動物

?統計的本業是消化數據,并產生有營養的結果。它的本質,和母牛相差不多。

2025/4/15

第一章總論Data——Statistics——Information

Grass——Cow——Milk2025/4/15

第一章總論統計statistics,一般是指統計工作或統計科學1.統計工作收集數據的活動2.統計數據對現象計量的結果3.統計學分析數據的方法與技術2025/4/15

第一章總論統計學經濟學管理學醫學工程學社會學…統計學的應用領域統計工作即統計實踐活動,是人們利用各種科學的統計方法,搜集、整理、分析預測和提供統計資料等工作的總稱。統計的含義之一一個完整的工作過程一般包括:統計設計、統計調查、統計整理、統計分析四個環節。2025/4/15

第一章總論統計工作:一、統計的含義之一政府統計:國家統計局、職能部門企事業單位統計:企業統計機構等經營統計:調查咨詢公司、統計事務所等其它:如研究性統計機構等2025/4/15

第一章總論統計資料(統計信息):統計工作過程中所取得的各項數字資料及與之相關的其它資料的總稱;

統計資料包括:原始資料;次級資料即整理后的資料統計資料的表現形式有:統計表、統計圖、統計報告、統計公報和統計年鑒等。統計的含義之二2025/4/15

第一章總論統計學統計的含義之三

即統計理論,是統計工作實踐經驗的總結和理論概括。是研究如何對客觀事物數量方面進行調查、整理和分析的原理、原則與方式、方法的科學。

科學的定義:統計學是一門關于數據資料的收集、整理、分析和推斷的科學。總之,統計包含三種涵義,兩重關系統計工作統計資料統計學工作與工作成果關系實踐與理論關系總而言之,統計是適應社會政治經濟的發展和國家管理的需要而建立起來的,其發展與社會生產力的發展緊密聯系在一起。2025/4/15

第一章總論二、統計研究的特點數量性總體性具體性變異性2025/4/15

第一章總論但應注意,統計學研究現象的數量方面,不同于數學上研究的純數量.例如:要了解哈爾濱市重工業產值重工業是為國民經濟各部門提供技術裝備、動力和原材料的工業,包括采掘工業、原材料工業和制造工業。2025/4/15

第一章總論統計研究的是大量社會經濟現象中具體事物的數量方面,是在一定時間、地點、條件下發生的。又稱大量性或綜合性,統計研究的著眼點是大量社會經濟現象總體。不排除從個別現象入手,是手段而不是目的。1、客貨運輸量

運輸數據統計內容2、裝卸搬運量3、汽車維修產量4、運輸總產值、凈產值、增加值5、運輸線路、運輸工具、勞動力數量、勞動時間6、運輸安全質量、運輸財務成本知識點2統計的基本概念2025/4/15

第一章總論總體即統計總體,是指要調查或統計的某一現象的全部數據的集合。一、總體與總體單位

總體單位即構成統計總體的個別單位或個別事物。是各項統計數字的原始承擔者。

2025/4/15

第一章總論無限總體:含無限多個單位范圍有限總體:含有限個單位差異性同質性大量性特點請思考?總體和總體單位的關系?2025/4/15

第一章總論

總體和總體單位的關系:

在一次特定范圍、目的的統計研究中,統計總體與總體單位是不容混淆的,二者的含義是確切的,是包含與被包含的關系。但是隨著統計研究任務、目的及范圍的變化,統計總體和總體單位可以相互轉化。

2025/4/15

第一章總論總體、總體單位總體、總體單位總體或總體單位的區分不是固定的:同一個研究對象,在一種情況下是總體,在另一種情況下可能成了總體單位。總體與總體單位相對性示例2025/4/15

第一章總論課堂練習請同學們來判斷:1、若欲對全國人口進行調查;2、若欲對全省農戶進行調查;3、若欲對牡丹江市工業企業進行調查;4、若對農經學院各班情況進行調查;5、若對農經學院會審071班學生情況進行調查問:何為總體?個體?有限總體?無限總體?在4和5題中,班級是個體還是總體?轉化的條件是什么?▼

12345總體個體2025/4/15

第一章總論(一)標志的概念標志是說明總體單位所共同具有的屬性和特征的名稱。

工業企業作為總體單位具有哪些標志?(二)分類1、按標志本身性質分為:(1)品質標志:說明總體單位的屬性特征的標志。(2)數量標志:說明總體單位的數量特征的標志。

二、標志與標志表現請思考2025/4/15

第一章總論標志性別年齡民族宗教信仰政治面貌身高體重品質標志不變標志數量標志可變標志專業

班級

2025/4/15

第一章總論課堂練習請同學們判斷以下標志為數量標志還是品質標志:

1、鄉鎮個數;2、新開企業代碼;3、國家基建占地數量;4、農用車牌號;5、企業規模編碼;6、發電量;7、企業經濟類型;8、企業經濟類型編碼;9、牛奶產量;10、大牲畜總量▼

12345678910數量標志質量標志2025/4/15

第一章總論2、標志按變異情況可分為:可變標志不變標志一個標志在總體各單位的具體表現都相同,即標志表現無差別。一個標志在總體各單位的具體表現不完全相同,即標志表現有差別。可變標志決定總體的差異性不變標志決定總體的同質性2025/4/15

第一章總論“凡是統計調查研究的標志都是可變標志,是統計研究關注的重點”。不變標志是劃分總體范圍的依據。請判斷2025/4/15

第一章總論(三)標志表現:即標志特征在各單位上的具體表現。數量標志的標志表現又稱標志值.1、標志表現是最基礎的統計資料,是形成指標數值的原材料。2、就一個品質標志或數量標志而言,其具體表現可能多種多樣,不能將標志與標志表現混為一談。

請注意思考郵政編碼類型?標志和標志表現的關系?品質標志和數量標志的標志表現有何異同?思考2025/4/15

第一章總論標志性別年齡民族宗教信仰政治傾向身高體重男漢族佛教無黨派43歲182cm75公斤標志表現品質標志文字表述數量標志數據表述標志是統計所要調查的項目,標志表現則是調查所得的結果2025/4/15

第一章總論2004年,我國城鎮新增就業人數980萬人,比預期目標多80萬人;年末城鎮登記失業率為4.2%;城鄉居民收入增長較快。全年城鎮居民人均可支配收入9422元,比上年實際增長7.7%;農民人均純收入達到2936元,實際增長6.8%,是1997年以來增長最快的一年。年末城鄉居民人民幣儲蓄存款余額達119555億元,比上年末增加15929億元。案例資料三、統計指標2025/4/15

第一章總論統計指標反映社會經濟現象總體數量特征的概念及其具體數值12.852002末中國總人口億人時間限制空間限制指標名稱具體數值計量單位計算方法綜合性數量性具體性具體構成要素:特點:2025/4/15

第一章總論統計指標是數量范疇,“沒有無數量的指標”。某系男生數量占全系學生數的比重為100%某系學生的性別為男×數量性“男”不是數量,因此這不是指標,而是標志。2025/4/15

第一章總論總體在具體時間、地點、條件下的數量特征,即統計指標“質的規定性”。

住本地(鄉、鎮、街道),戶口在本地;住本地半年以上,戶口在外地;住本地不滿半年,離開戶口登記地半年以上;住本地,戶口待定;原住本地,現在國外工作或學習。常住人口指標解釋具體性2025/4/15

第一章總論對總體數量特征的綜合說明,是由個體數量綜合而來的。平均分數趙大60分+錢二78分+孫三80分+李四55分+……+上官95分+歐陽76分全班學生數綜合性2025/4/15

第一章總論(四)種類1、按所說明的總體現象的內容不同:

數量指標:反映現象總規模水平或工作總量的指標,也稱總量指標或絕對指標。一般通過數量標志值直接匯總而來,用絕對數表示,表示事物外延量的大小,廣度.是最基本的指標,指標數值均有單位,是計算其他指標的基礎。例如,人口總數、工業企業數、總產量、利潤額、產值、耕地面積等。2025/4/15

第一章總論

質量指標:說明總體現象相對水平或工作質量的統計指標。又分為相對指標和平均指標,分別用相對數和平均數表示,它們通常是由兩個總量指標對比派生出來的,反映現象之間內在聯系和對比關系。表示的是事物內涵量的狀況,深度,又叫派生指標.如性別構成、單位成本。2025/4/15

第一章總論2

、按其表現形式不同,分為:

總量指標:以絕對數形式反映社會經濟現象總體規模或總水平的統計指標。

相對指標:說明社會經濟現象發展過程中兩個相互聯系的指標對比關系。③平均指標:總體各單位某一數量標志值一般水平的統計指標。2025/4/15

第一章總論實物單位自然單位度量衡單位標準實物單位價值單位勞動單位多個單位的結合運用:復合單位雙重單位多重單位(如:人·次、噸·公里)(如:人/平方公里)(如:艘/噸/千瓦)適用范圍綜合能力差強大小如:臺、件如:米、平方米如:標準噸如:工日、工時如:元2025/4/15

第一章總論

標志是說明總體單位特征的;指標是說明總體特征的。標志中的品質標志不能用數量表示;而所有的指標都能用數量表示。區別四、指標與標志的關系

對數量標志的標志值匯總可以得到指標的數值.

隨著總體和總體單位的變換,指標和數量標志之間有一個變換的關系。聯系2025/4/15

第一章總論變量指可變的數量標志和所有的統計指標。變量值指變量的具體數值表現。

離散變量——只能取整數變量值的變量

連續變量——可以取小數變量值的變量.按取值是否連續五、變量思考年齡這一變量的類型?

2025/4/15

第一章總論連續型變量連續性變量的數值是連續不斷的,任意兩個變量值之間可以做無限分割。人的身高、體重、產品的產量(重量、體積、面積等),產值、銷售額等價值量需要使用度量工具取值身高的例子:165166165.1165.2●●知識點3統計的方法數據類型的分類1、計量資料(measurementdata)用儀器、工具等測量方法獲得的數據,又稱數值變量。特點:有計量單位,如患者的身高(cm),體重(kg),血壓(kPa)等.2、計數資料(countdata)按某種屬性分類計數后得到的數據,又稱無序分類變量,有二分類和多分類兩種情形.特點:無計量單位,如膚色(黑白)、血型(ABO)、職業(工農兵)、性別(1=男,2=女)等.3、等級資料(ordinaldata)半定性或半定量的觀察結果,有大小順序,又稱有序分類變量.如①癌癥分期:早、中、晚。

②藥物療效:治愈、好轉、無效、死亡。

③尿蛋白:

,,,++,+++及以上住院號年齡身高體重住院天數職業文化程度分娩方式妊娠結局20256552716571.55無中學順產足月20256532216074.05無小學助產足月20258302515868.06管理員大學順產足月20225432316169.05無中學剖宮產足月20224662515962.011商業中學剖宮產足月20245352715768.02無小學順產早產20258342015866.04無中學助產早產20194642415870.53無中學助產足月20257832915457.07干部中學剖宮產足月實例數據計量資料計數資料三類資料間關系

例:一組20

40歲成年人的血壓以12kPa為界分為正常與異常兩組,統計每組例數

<8低血壓

8

正常血壓

12

輕度高血壓

15

中度高血壓

17

重度高血壓計量資料等級資料計數資料一般統計方法根據數據的類型可以分為以下三種統計方法1、計量資料的統計方法**2、計數資料的統計方法3、等級資料的統計方法運用統計方法應遵循的原則堅持用數據說話的基本觀點。有目的地收集數據。掌握數據的來源。認真整理數據。計量資料的統計分析1、頻數分布(frequencydistribution)為了了解數據的分布情況,可以編制頻數表(frequencytable).(1)求極差(range):即最大值與最小值之差,又稱為全距。(2)數據分組:由樣本容量n確定組數、通常分10-15個組;一般采取等距分組,組距=極差/組數。(3)列出組段:第一組段的下限略小于最小值,最后一個組段上限必須包含最大值,其它組段上限值忽略。(4)劃記計數:用劃記法將所有數據歸納到各組段,得到各組段的頻數。頻數表的編制步驟編號血清甘油三脂編號血清甘油三脂10.51……20.521531.6530.591541.6640.611551.6750.611561.6760.621571.6970.631581.780.641591.71……1601.77

表2-1:160名正常成年女子的血清甘油三酯(mmol/L)

組段(1)劃記(2)頻數,f(3)組中值,X(4)

fX(5)=(3)×(4)0.5~

30.551.650.6~正90.655.850.7~正正120.759.000.8~正正130.8511.050.9~正正正170.9516.151.0~正正正181.0518.901.1~正正正正201.1523.001.2~正正正181.2522.501.3~正正正171.3522.951.4~正正131.4518.851.5~正91.5512.401.6~正81.6514.851.7~1.8

合計

31.755.25160182.30編制頻數表,繪制頻數分布圖對稱分布:以頻數最多組段為中心左右大體對稱.右(正)偏態分布:頻數最多組段右側組段數多.(skewedtotherightdistribution)左(負)偏態分布:頻數最多組段左側組段數多.(skewedtotherightdistribution)2、集中趨勢的描述

統計上使用平均數(average)來反映計量資料的集中趨勢(centraltendency).常用平均數有:

1.算術均數(arithmeticmean),簡稱均數(mean)

2.幾何均數(geometricmean)

3.中位數(median)

4.百分位數(percentile)3、離散趨勢的描述反映數據的離散度(Dispersion),即個體觀察值的變異(variation)程度,常用的統計指標有:

1.極差(Range)

(全距)

2.四分位數間距(Quartilerange)

3.方差(Variance)

4.標準差(StandardDeviation)

5.變異系數(CoefficientofVariation)四分位間距:QR=P75-P25三、SPSS實現計量資料的統計分析下面是SPSS軟件中繪制頻數圖的步驟四、計數資料的統計分析住院號年齡職業文化程度分娩方式妊娠結局202565527無中學順產足月202565322無小學助產足月202583025管理人員大學順產足月202567724知識分子中學順產早產202564730管理人員大學順產足月202584832無小學剖宮產足月201991527無中學順產死產202586129無大學剖宮產足月202460125農民中學順產足月200038626無小學順產足月1、計數資料數據的整理按年齡(2歲一組)與職業整理年齡工人管理人員農民商業服務無知識分子總計18

2

0

0

0

3

0

520

9

2

610

18

0

452228

71024

70111502450342852153443612650432545133703662834351034

78572483011141122

39171143214

2

314

24

3

6034

4

2

5

3

12

2

2836

2

1

1

4

5

1

1438

3

1

1

0

2

1

840

0

0

2

0

0

0

2合計

207

14110220853720614012、常用相對數指標計數資料常用的數據形式是絕對數,如某病的出院人數,治愈人數等.但絕對數不具可比性,需要計算相對數.率(rate):說明某現象或某事物發生的頻率或強度。率=(實際發生數/可能發生總數)×比例基數比例基數:100%、1000‰、10000/萬、100000(1/10萬)等如:發病率、死亡率、發生率、陽性率、患病率等構成比(proportion):說明某一事物內部,各組成部分所占的比重,也叫百分比。構成比=(某部分觀察單位數/各組成部分觀察單位總數)×100%

如:教研室20人中高級職稱有5人,占25%。相對比(relativeratio):是A、B兩個有關指標之比,說明A是B的若干倍或百分之幾,通常用倍數或分數表示。如:男:女、醫生:護士、教師:學生年齡組⑴受檢人數⑵白內障例數⑶患者年齡構成比(%)⑷患病率(%)⑸=(3)/(2)40~50~60~70~≥80合計5604412961492268129135971915.1828.7930.1321.654.2412.1429.2545.6165.1086.36

1468448100.0030.52例:患病率與構成比五、統計表與統計圖

統計表(statisticaltable)——數據代替文字描述

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論