論文中數據的統計學問題_第1頁
論文中數據的統計學問題_第2頁
論文中數據的統計學問題_第3頁
論文中數據的統計學問題_第4頁
論文中數據的統計學問題_第5頁
已閱讀5頁,還剩4頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

千里之行,始于腳下。第2頁/共2頁精品文檔推薦論文中數據的統計學問題論文撰寫中要注重的統計知識題(轉)

(一、均值的計算

在處理數據時,常常會碰到對相同采樣或相同試驗條件下同一隨機變量的多個不同取值舉行統計處理的問題。此時,往往我們會不假思索地直接給出算術平均值和標準差。明顯,這種做法是不嚴謹的。

這是由于作為描述隨機變量總體大小特征的統計量有算術平均值、幾何平均值和中位數等多個。至于該采納哪種均值,不能按照主觀意愿任意確定,而要按照隨機變量的分布特征確定。

反映隨機變量總體大小特征的統計量是數學期望,而在隨機變量的分布聽從正態分布時,其數學期望就是其算術平均值。此時,可用算術平均值描述隨機變量的大小特征;假如所討論的隨機變量不聽從正態分布,則算術平均值不能精確?????反映該變量的大小特征。在這種狀況下,可通過假設檢驗來推斷隨機變量是否聽從對數正態分布。假如聽從對數正態分布,則幾何平均值就是數學期望的值。此時,就可以計算變量的幾何平均值;假如隨機變量既不聽從正態分布也不聽從對數正態分布,則按現有的數理統計學學問,尚無合適的統計量描述該變量的大小特征。此時,可用中位數來描述變量的大小特征。

因此,我們不能在處理數據的時候一律采納算術平均值,而是要視數據的分布狀況而定。

二、直線相關與回歸分析這兩種分析,說明的問題是不同的,既互相又聯系。在做實際分析的時候,應先做變量的散點圖,確認由線性趨勢后再舉行統計分析。普通先做相關分析,惟獨在相關分析有統計學意義的前提下,求回歸方程才有實際意義。普通來講,有這么兩個問題值得注重:

定要把回歸和相關的概念搞清晰,要做回歸分析時,不需要報告相關系數;做相關分析的時候,不需要計算回歸方程。

三、相關分析和回歸分析之間的區分

相關分析和回歸分析是極為常用的2種數理統計辦法,在環境科學及其它討論領域有著廣泛的用途。然而,因為這2種數理統計辦法在計算方面存在無數相像之處,因此在應用中我們很簡單將二者混淆。

最常見的錯誤是,用回歸分析的結果解釋相關性問題。例如,將“回歸直線(曲線)圖”稱為“相關性圖”

或“相關關系圖”;將回歸直線的R2(擬合度,或稱“可決系數”)錯誤地稱為“相關系數”或“相關系數

的平方”;按照回歸分析的結果宣稱2個變量之間存在正的或負的相關關系。

相關分析與回歸分析均為討論2個或多個變量間關聯性的辦法,但2種辦法存在本質的差別。相關分析的目

的在于檢驗兩個隨機變量的共變趨勢(即共同變化的程度),回歸分析的目的則在于試圖用自變量來預測

因變量的值。

實際上在相關分析中,兩個變量必需都是隨機變量,假如其中的一個變量不是隨機變量,就不能舉行相關

分析。而回歸分析中,因變量絕對為隨機變量,而自變量則可以是一般變量(有確定的取值)也可以是隨

機變量。

很明顯,當自變量為一般變量的時候,這個時候你根本不行能回答相關性的問題;當兩個變量均為隨機變

量的時候,鑒于兩個隨機變量客觀上存在“相關性”問題,只是因為回歸分析辦法本身不能提供針對自變

量和因變量之間相關關系的精確?????的檢驗手段,因此這又回到了問題二中所講的,假如你要以預測為目的,

就不要提相關系數;當你以探究兩者的“共變趨勢”為目的,就不要提回歸方程。

回歸分析中的R2在數學上恰好是Pearson積矩相關系數r的平方。因此我們不能錯誤地理解R2的含義,認為R2就是“相關系數”或“相關系數的平方”。這是由于,對于自變量是一般變量的時候,2個變量之間的“相關性”概念根本不存在,又談什么“相關系數”呢?

四、相關分析中的問題

相關分析中,我們很簡單犯這么一個錯誤,那就是不考慮兩個隨機變量的分布,直接采納Pearson積矩相關系數描述這2個隨機變量間的相關關系(此時描述的是線性相關關系)。

關于相關系數,除有Pearson積矩相關系數外,還有Spearman秩相關系數和Kendall秩相關系數等。其中,Pearson積矩相關系數可用于描述2個隨機變量的線性相關程度,Spearman或Kendall秩相關系數用來推斷

兩個隨機變量在二維和多維空間中是否具有某種共變趨勢。

因此我們必需注重的是,Pearson積矩相關系數的挑選是由前提的,那就是2個隨機變量均聽從正態分布假

設。假如數據不聽從正態分布,則不能計算Pearson積矩相關系數,這個時候,我們就因該挑選Spearman

或Kendall秩相關系數。

兩組以上的均值比較,不能采納t

檢驗舉行均值之間的兩兩比較。

t檢驗的時候,一定要注重其前提以及討論目的,否則,會得出錯誤的結

論。

六、常用統計分析軟件

國際上已開發出的特地用于統計分析的商業軟件無數,比較著名有

SocialSciences)、SAS(StatisticalAnalysisSystem)

、BMDF和STATISTICA等。其中,SPSS是特地為社

會科學領域的討論者設計的(但是,此軟件在自然科學領域也得到廣泛應用);學領域討論者編制的統計軟件。

五、t檢驗用于比較均值的t檢驗可以分成三類:第一類是針對單組設計定量資料的;其次類是針對配對設計定量資料的;第三類則是針對成組設計定量資料的。后兩種設計類型的區分在于事先是否將兩組討論對象根據某一個或幾個方面的特征相像配成對子。無論哪種類型的

t檢驗,都必需在滿足特定的前提條件下應用才是合理的。若是單組檢驗,必需給出一個標準值或總體均值,同時,提供一組定量的觀測結果,應用t檢驗的前提條件就是該組資料必需聽從正態分布;若是配對設計,每對數據的差值必需聽從正態分布;若是成組設計,個體之間互相自立,兩組資料均取自正態分布的總體,并滿足方差齊性。之所以需要這些前提條件,是由于必需在這樣的前提下所計算出的t統計量才聽從t分布。t檢驗是目前在科學討論中使用頻率最高的一種假設檢驗辦法。t檢驗辦法容易,其結果便于解釋。簡單、認識加上外界的要求,促成了t檢驗的流行。但是,因為我們對該辦法理解得不全面,導致在應用過程中浮現不少問題,有些甚至是十分嚴峻的錯誤,直接影響到結論的牢靠性。常見錯誤:不考慮t檢驗的應用前提,對兩組的比較一律用t檢驗;將各種試驗設計類型一律視為多個單因素兩水平設計,多次用t檢驗舉行均值之間的兩兩比較。以上兩種狀況,均不同程度地增強了得出錯誤結論的風險。而且,在試驗因素的個數大于等于2時,無法討論試驗因素之間的交互作用的大小。正確做法:當兩樣本均值比較時,如不滿足正態分布和方差齊性,應采納非參檢驗辦法(如秩檢驗);

因此我們必需注重,在使用SPSS(StatisticalPackagefor

BMDPi特地為生物學和醫

固然,excel也能用于統計分析。單擊“工具”菜單中的“數據分析”命令可以掃瞄已有的分析工具。

假如在“工具”菜單上沒有“數據分析”命令,應在“工具”菜單上運行“加載宏”命令,在“加載宏”對話框中挑選“分析工具庫”。

DPS其界面見附圖。其功能較為強大,除了擁有統計分析功能,如參數分

析,非參分析等以外,還特地針對一些專業編寫了專業統計分析模塊,顧客愜意指數模型(結構方程模型)、數同學態、生物測定、地理統計、遺傳育種、生存分析、水文頻率分析、量表分析、質量控制圖、

ROC曲線分析等內容。有些不是統計分析的功能,如含糊數學辦法、灰色系統

可以找到。

皮爾遜積差相關系數與斯皮爾曼等級相關系積差相關系數編輯

(Correlationcoefficient)相關表和相關圖可反映兩個變量之間的互相關系及其相關方向,個變量之間相關的程度。

著名統計學家卡爾?皮爾遜設計了統計指標一一相關系數。同特征,其統計指標的名稱有所不同。如將反映兩變量間線性相關關系的統計指標稱為相關系數(相關系數的平方稱為判定系數),將反映兩變量間曲線相關關系的統計指標稱為非線性

相關系數、非線性判定系數。將反映多元線性相關關系的統計指標稱為復相關系數、復判定系數等。相關系數的值介于-1與+1之間,即-10時,表示兩變量正相關,r<0時,兩變量為負相關。*當|r|=1時,表示兩變量為徹低線性相關,即為函數關系。*當r=0時,表示兩變量間無線性相關關系。

*當Ov|r|v1時,表示兩變量存在一定程度的線性相關。且

|r|越臨近1,兩變量間線性

關系越密切;|r|越臨近于0,表示兩變量的線性相關越弱。<|r|<1為高度線性相關。

在統計學中,變量按變量值是否延續可分為延續變量與離散變量兩種

.在一定區間內可

以隨意取值的變量叫延續變量,其數值是延續不斷的,相鄰兩個數值可作無限分割,即可取無限個數值.例如,生產零件的規格尺寸,人體測量的身高,體重,胸圍等為延續變量,其數值只能用測量或計量的辦法取得.反之,其數值只能用自然數或整數單位計算的則為離散變量

.例如,企業個數,職工人數,

設備臺數等,只能按計量單位數計數,這種變量的數值普通用計數辦法取得.

2性質

編輯

符號x假如能夠表示對象集合S中的隨意元素,就是變量。假如變量的域

(即對象的集合

S)是離散的,該變量就是離散變量;假如它的域是延續的,它就是延續變量。延續變量因為不能一一列舉其變量值,只能采

用組距式的分組方式,且相鄰的組限必須重疊。如以總產值、商品銷售額、勞動生產率、工資等為標志舉行分組,就只能是相鄰組限重疊的組距式分組。[1]3區別

延續變量(continuousvariable)與離散變量(discretevariable)[2]的容易區別辦法延續變量與離散變量的容易區分辦法:延續變量時向來疊加上去的,增長量可以劃分為固定的單位,即:1,2,3……

特殊推舉一款國產軟件隨機前沿面模型、數據包絡分析(DEA)、

辦法、各種類型的線性規劃、非線性規劃、層次分析法、

BP神經網絡、徑向基函數(RBF)等,在DPS里面也

但無法確切地表明兩

依據相關現象之間的不

……;在百度貼吧中,用戶首先要有1個粉絲,其后他才干有2,3……位

粉絲。

而離散變量則是通過計數方式取得的,即是對所要統計的對象舉行計數,增長量非固定的,如:一個地區的企業數目可以是今年惟獨一家,而其次年開了十家;一個企業的職工人數今年惟獨10人,其次年一次聘請了20人等。

分類變量可分為無序變量和有序變量兩類。

釋義無序分類變量(unorderedcategoricalvariable)是指所分類別或屬性之間無程度和挨次的差別。,它又可分為①二項分類,如性別(男、女),藥物反應(陰性和陽性)等;②多項分類,如

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論