




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第9章分類數據分析9.1分類數據與列聯表9.2獨立性檢驗9.3列聯表中的相關測量9.4列聯分析中其他的問題12導引——科學研究
什么是科學科學=數學?Or科學=技術?科學=計算機?上述均為科學的結果科學(EarlBabbie)是一種探索的方法是一種學習周圍事物的方法科學(Science)言之有理,符合邏輯經驗證據,可以重復檢驗科學研究科學研究Research就方法論(methodology)而言,人們從事的研究,不外乎異中求同、及同中求異,前者是在大量資料中發現其間的共同性(homothetic),而后者則是發現其間的異質性(idiographic)。研究是一門「問題」的學術,旨在發現(非「創造」)有用的知識。研究的目的和價值在發掘知識并解決問題,解決前人未曾解決的問題科學研究科學研究目的敘述、預測、解釋及控制研究問題之現象控制Control解釋Explanation預測Prediction敘述Description報導Reporting理解程度/努力程度最低最高科學研究科學研究類型問題目標&假設抽樣
實驗
如何測量?描述知識基礎數據結論科學研究流程圖
設計要求統計分析圖形描述模型化估計和置信區間統計檢驗引例引例1:禿頭與政治有西方專家研究發現,前蘇聯最高首腦頭發多少居然與他們的政治風格有關,禿頭的激進,頭發濃密的保守,而且激進和保守交替出現:列寧禿頭,激進;斯大林發多,保守;赫魯曉夫禿頭,激進;勃列日涅夫發多,保守;安德羅波夫禿頭,激進;契爾年科夫發多,保守;戈爾巴喬夫禿頭,激進葉利欽雖然發多,卻最激進,但他不屬于前蘇聯引例引例3:有名字的奶牛產奶量更高英國紐卡斯爾的科學家,凱瑟琳·道格拉斯博士和皮特·羅林森博士表示,給奶牛起名字,并像對待人一樣去對待奶牛,這樣牛也高興了,放松了,產奶量也上去了,可以為每個奶牛場提高500品脫的年產量引例引例4:鸛鳥送子歐洲,人們把一種鳥稱為送子鳥相傳,送子鳥落到誰家屋頂造巢,誰家就會喜得貴子,幸福美滿。因此,在歐洲鄉村,你經常能看到住家的屋頂煙囪上搭著一個平臺,那是專為送子鳥準備的,種神奇的送子鳥就是白鸛三種關系16三種關系17相關關系函數關系因果關系三種關系18函數關系19世紀末,德國數學家康托創立了集合論,人們把函數的定義提升到抽象的層次:設A,B是非空的集合,f是某一法則,若A中每個元素x,經由法則f,總有集合B中確定的元素y與之對應,則稱f是定義在集合A上的一個函數圓的面積(S)與半徑之間非關系可表示為S=R2
;商品的銷售額(y)與銷售量(x)之間的關系可表示為y=pxp為單價三種關系三種關系因果關系科學:因果律---力學規律描述任何物體的任何運動,都是確定的;量子力學中位置和動量不可以同時被確定的,但是其中之一是可以被精確地確定的,對于單個微觀粒子無法判斷其真實位置,但是服從統計規律,所以量子力學的因果律是統計規律的因果律宗教:因果報應:善惡終有報,不是不報,時辰未到玄學:生死由命、富貴在天;緣份社會學:三分天注定、七分靠打拼;陰謀論:MH370…….
虛假相關虛假相關:相關不等于因果白血病的例子:生活在高壓線附近的孩子,由于輻射的原因,患白血病的機率會增加到平均值的3倍美國國家科學院于1996年發表了歷經3年的研究結果,認為高壓線環境與白血病發病率無關。美國國家癌癥研究所經過歷經7年涉及1200人的研究,于1997年發布了同樣的結論生活在高壓線附近的家庭通常比較貧困,導致白血病發病率較高的原因是其較差的生活和衛生條件,而與高壓線本身無關23虛假相關虛假相關:相關不等于因果公雞打鳴與太陽升起24相關類型虛假相關26記住:統計數據有相關性并不意味著兩個事件具有因果聯系,而具有因果聯系的兩件事從統計數據上看有時也并不相關我們肯定永遠不能證明X是Y的原因,僅僅推斷存在一種關系因果關系只能被推斷,而不能毫無疑問地加以證明虛假相關27涂爾干自殺論:信仰新教導致了人們的自殺?有兩個現象/因素——信仰新教(因素A),自殺率(因素B),統計表示,他們之間確實存在正相關運用排除法,分析各種可能影響自殺率的因素(C、D、E、F……),發現:人的自殺率跟他與其他人之間社會聯系紐帶的緊密程度(因素C)具有正相關(因素C影響因素B);也就是說,一個人與他人的聯系越少,就越容易陷入孤獨、生活上的困境等等而自殺。而新教徒之間的聯系的紐帶較為松弛;天主教徒之間的聯系比較緊密(因素C影響因素A)新教信仰并不是導致自殺的原因(證明因素A和因素B之間是虛假相關維持人和人之間良好的紐帶和溫情脈脈,才是解決現代社會孤獨、絕望等很多社會問題的根本途徑虛假相關28統計探索:關于變量間關系的四個問題從數據來看,變量間有關系嗎?如果有關系,關系有多強?是偶然的嗎?是因果關系嗎?統計與變量間關系解釋與預測自變量與因變量Y與X:兩條腿比一條腿有勁閃電和打雷爆米花銷售和垃圾袋使用發電量和熱天數廣告時間和用水量……統計與變量間關系不同類型變量的關系思考:引例中分別屬于?
自變量因變量分類型順序型數值型
分類型
順序型
數值型統計與變量間關系統計與變量間關系Independent(Predictor)VariablesMediatingVariablesDependent(Outcome)VariablesModeratingVariablesControlVariablesSmoking………………causes(bypeoplewithaspecialgene)cellstomutatethatcauses…….Cancer
(whencontrollingforage)
9.1分類數據列聯表分類變量(Categoricalvariable)分類變量的結果表現為類別,各類別用符號或數字代碼來測度,使用分類或順序尺度列贊成還是反對這一改革方案?1.贊成;2.反對你吸煙嗎?1.是;2.否對分類數據的描述和分析通常使用列聯表或復合條形圖分類變量間的關系列聯表(contingencytable)由兩個以上的變量交叉分類的頻數分布表行變量的類別用r
表示,ri
表示第i
個類別列變量的類別用c
表示,cj
表示第j
個類別每種組合的觀察頻數用fij
表示表中列出了行變量和列變量的所有可能的組合,所以稱為列聯表一個
r行c
列的列聯表稱為r
c
列聯表分類變量間的關系二維列聯表…:………::::nc2c1合計r2f22f21i=2r1合計f12j=2j=1f11i=1列(cj)列(cj)行(ri)fij
表示第i
行第j
列的觀察頻數分類變量間的關系(續)三維列聯表
觀點:贊成觀點:不贊成
低收入中等收入高收入低收入中等收入高收入男201055810女25157279分類變量間的關系(續)分類變量間的關系例析廣告公司想要了解觀眾的所得收入與電視節目收視是否相關,其零假設為:
H0:電視節目的選擇與收入無關
H1:收入與選擇電視節目有關該公司抽取500戶為樣本,先用收入將樣本區分成高、中、低三類,再以收看電視的種類分成「運動」、「電影」、「新聞」三類所得資料列聯表分類變量間的關系分類變量間的關系圖示法41分類變量間的關系圖示法9.2獨立性檢驗500*(250/500)*(250/500)=125500*(150/500)*(50/500)=15基于χ2統計量的獨立性檢驗Criticalvalue=9.49數值法:有沒有關系?基于χ2統計量的獨立性檢驗9.3列聯表中的相關性測量分類變量的相關性測量相關的強度主要是對分類(也可對順序數據)之間相關程度的測度列聯表相關測量的統計量主要有相關系數列聯相關系數V
相關系數分類變量的相關性測量
相關系數(correlationcoefficient)測度22列聯表中數據相關程度對于22列聯表,
系數的值在0~1之間
相關系數計算公式為分類變量的相關性測量思路:簡化的22列聯表為例合計x1x2y1aba+by2cdc+d合計a+cb+dn分類變量的相關性測量列聯表中每個單元格的期望頻數分別為將各期望頻數代入的計算公式得分類變量的相關性測量將入
相關系數的計算公式得若ad等于bc,=0,表明變量X與Y之間獨立;若b=0,c=0,或a=0,d=0,意味著各觀察頻數全部落在對角線上,此時||=1,表明變量X與Y之間完全相關列聯表中變量的位置可以互換,的符號沒有實際意義,故取絕對值即可分類變量的相關性測量C相關系數(coefficientofcontingency)用于測度大于22列聯表中數據的相關程度計算公式為C的取值范圍是0C<1C=0表明列聯表中的兩個變量獨立C的數值大小取決于列聯表的行數和列數,并隨行數和列數的增大而增大根據不同行和列的列聯表計算的列聯系數不便于比較分類變量的相關性測量V相關系數(Vcorrelationcoefficient)計算公式為V的取值范圍是0V1V=0表明列聯表中的兩個變量獨立V=1表明列聯表中的兩個變量完全相關不同行和列的列聯表計算的列聯系數不便于比較當列聯表中有一維為2,min[(r-1),(c-1)]=1,此時V=分類變量的相關性測量、C、V的比較同一個列聯表,、C、V的結果會不同不同的列聯表,、C、V的結果也不同在對不同列聯表變量之間的相關程度進行比較時,不同列聯表中的行與行、列與列的個數要相同,并且采用同一種系數Chi-SquareTests
ValuedfAsymp.Sig.(2-sided)PearsonChi-Square21.174a4.000LikelihoodRatio19.4694.001NofValidCases500
a.0cells(0.0%)haveexpectedcountlessthan5.Theminimumexpectedcountis10.00.SymmetricMeasuresc
ValueApprox.Sig.NominalbyNominalPhi.206.000Cramer'sV.146.000ContingencyCoefficient.202.000NofValidCases500
c.Correlationstatisticsareavailablefornumericdataonly.分類變量的相關性測量559.4列聯分析中其他的問題條件百分比的方向一般自變量放在列,因變量在行但如果擴大因變量某項的樣本量,可能會歪曲真相條件百分比的方向58條件百分比的方向59列聯分析的樣本量要求χ2分布的期望值準則如果只有兩個單元,每個單元的期望頻數必須大于等于5如果兩個以上單元,20%以上的單元期望頻數大于等于5關系的掩蓋與扭曲重要的第三變量Simpson’sParadoxAssociationoftwovariableswithoutthethirdleadstoaspecificconclusion.Associationoftwovariableswiththethirdvariableleadstotheoppositeconclusions分類變量間的關系(續)緣由順序變量比分類
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 太湖創意職業技術學院《東方管理學》2023-2024學年第二學期期末試卷
- 2025關于城鎮醫療服務合同范本
- 2025至2031年中國大空間智能主動滅火裝置行業投資前景及策略咨詢研究報告
- 山西教育主題館施工方案
- 2025至2031年中國PS印刷版行業投資前景及策略咨詢研究報告
- 2025至2030年中國附油封型直線運動球軸承數據監測研究報告
- 2025至2030年中國跳接線數據監測研究報告
- 春季婚宴預訂方案范本
- 鋼結構外墻維修施工方案
- 拆除混凝土硬化施工方案
- 多維系統分析方法
- 人才招聘與獵頭服務行業的國際化發展
- 模擬政協培訓課件
- 2024年江蘇省鐵路集團有限公司招聘筆試參考題庫含答案解析
- 2023年《思想道德與法治》期末考試復習題庫(帶答案)
- 將配偶追加為被執行人申請書
- 醫院標識標牌采購投標方案
- 天津市居住證申請表(word)
- 3-1實驗室廢棄物的處理
- 電感-變壓器外觀培訓資料
- 第7講-化學工程的倫理問題-201912092040097
評論
0/150
提交評論