試驗數據的獲取準備和處理方法劉愛陽_第1頁
試驗數據的獲取準備和處理方法劉愛陽_第2頁
試驗數據的獲取準備和處理方法劉愛陽_第3頁
試驗數據的獲取準備和處理方法劉愛陽_第4頁
試驗數據的獲取準備和處理方法劉愛陽_第5頁
已閱讀5頁,還剩26頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

試驗設計數據獲取、處理和準備方法

目錄

試驗設計與數據處理的概念

試驗數據的分類及獲取方法

試驗數據的準備及整理

試驗數據的表圖表示法1試驗設計與數據處理的概念200220012000

試驗設計與數據處理是以概率論、數理統計及線性代數為理論基礎,結合專業知識和實踐經驗,研究經濟、合理地安排試驗方案以及系統、并對試驗數據進行計算分析,最終達到減少試驗次數、縮短試驗周期、迅速找到優化方案的一種科學計算方法。它主要應用于工農業生產和科學研究過程中的科學試驗,是產品設計、質量管理和科學研究的重要工具和方法。2試驗數據的分類及獲取方法

2.1數量資料數量資料是指通過測量、計量或計數方式而獲得的數據,有計量資料(連續性資料)和計數資料(間斷性資料)之分。(1)計量資料指用度、量、衡等計量工具直接測定而獲得的數據資料。各個觀測值不一定是整數,兩個相鄰的整數間可以有帶小數的數值出現,各個觀測值之間的變異是連續性的。因此計量資料又稱為連續性變異資料。如食品中各種營養成分的含量、蘋果個體的重量、小麥中淀粉的含量等。(2)計數資料指用計數方式得到的數據資料。在試驗數據可分為以下幾種,且不同的數據類型有不同途徑的獲取方法。(2)計數資料指用計數方式得到的數據資料。在這類資料這類資料中,各個觀測值只能以整數表示,各個觀測值不是連續的,因此該類資料也稱為不連續性變異資料或間斷性變異資料。如盒裝方便面的份數、一箱飲料的瓶數、微生物的個數、腐爛蘋果的個數等。2.2質量資料質量資料是指不方便直接測量,只能通過觀察,用文字來描述其特征而獲得的資料,如食品顏色、風味等。這類特征不能直接用數值表示,要獲得這類特征的數據,需要對其結果作必要的數量化處理。(1)評分法這是食品感官中常用的一種方法。一般請若干有經驗的人,根據相關評判標準,對試驗產品的指標綜合評判打分,用評分進行統計分析。例如,分析面包的質量時,可以按照國際面包評分細則進行打分,綜合評價面包質量。(2)統計次數法在一定的總體或樣本中,根據某一質量性狀的類別統計其次數,以次數作為質量性狀的數據。例如,在研究批次產品合格數與次品數時,可以統計其合格與次品個數。(3)分級法將變異的性狀分成幾級,每一級分別指定以適當的數值表示。例如食品褐變程度按深淺分為五級。(4)秩次法將各種處理按指標性狀的好壞依次排隊,排隊的順序為秩,用處理的秩和進行統計分析,這在食品感官評定過程中常用到。(5)化學分析法對于某些質量指標,雖然用分級法、評分法、統計次數法也能得到數量資料,但得到的多數是次數資料。若借助化學分析手段即可得到計量資料。例如果汁的色澤可通過測定果汁中花青苷的光密度來表示,澄清度可用測定其透光率來表示等。除以上幾種方法以外,也可以借助必要的先進儀器來評價質量指標,獲得數量資料。如質構儀、色差計、色譜儀、質譜儀等。3試驗數據的準備及整理獲得的數據在在未整理之前,稱為原始數據。通常,通過生產記錄、抽樣檢驗和試驗研究得到的大量原始數據都是零星的、孤立的、和雜亂無章的,少有規律性可循。但通過對它們進行科學的整理和分析,則可發現其規律性,揭示事物的本質。數據資料的準備及整理是進一步分析處理的基礎。3.1數據的檢查與核對在對原始數據進行整理之前,首先要對全部數據進行檢查與核對,然后再根據數據資料的類型及研究的目的對數據進行整理。檢查與核對原始數據的目的在于確保原始資料的完整性和正確性。所謂正確性是指原始數據的測量或記載無差錯。檢查中要特別注意特大、特小或異常數據。對于有重復、異?;蜻z漏的數據,應予以刪除或補齊;對于有錯誤或相互矛盾的數據資料應進行更正,必要時進行復查或重新試驗。3.2可疑值檢驗檢驗和剔除異常數據是統計分析中應當注意的重要問題??梢芍禉z驗是用數理統計方法檢驗測定數據是否存在應剔除的值。方法:Q值檢驗法和格魯布斯檢驗法目的:確定某個數據是否可用3.2.1Q值檢驗法步驟:(1)數據從小至大排列x1,x2,……,xn(2)求極差xn-x1(3)求出可疑值與其最相鄰數據之間的差值的絕對值。(4)計算:(5)根據測定次數和要求的置信度(如90%)查表:不同置信度下,舍棄可疑數據的Q值表

測定次數Q0.90Q0.95

3

0.940.98

40.760.85

50.640.73

60.560.69

70.510.59

80.470.54

90.440.51

100.410.48(6)判斷:將Q計與Q表(如Q0.90)相比,Q計>Q表舍棄該數據,否則應予保留,當數據較少時舍去一個后,應補加一個數據。

3.2.2格魯布斯(Grubbs)檢驗法步驟:(1)數據從小至大排列x1,x2,……,xn(2)計算該組數據的平均值和標準偏差S(3)確定檢驗端:比較可疑數據與平均值之差-x1與xn-,先檢驗差值大的一端(4)計算:(5)根據測定次數和要求的置信度(如95%)查表:

表1-2不同置信度下,舍棄可疑數據的G值表測定次數G0.95G0.993

1.151.1541.461.49

51.671.7561.821.9471.942.1082.032.2292.112.32102.182.41(6)將G計與G表(如G0.95)相比,若G計>G表舍棄該數據,否則應予保留。當數據較少時舍去一個后,應補加一個數討論:由于格魯布斯(Grubbs)檢驗法使用了所有數據的平均值和標準差,故準確性比Q檢驗法好。3.3連續性數據資料的整理連續性數據資料的整理通常采用組距式分組的方法,基本步驟是先確定全距、組數、組距、組中值及組限,然后將全部觀測值計數歸組。

表3-1120位同學的考試成績

(1)求全距。全距是數據中最大值與最小值之差,又稱極差,極為R。表中最大值為95,最小值為64,則全距為R=95-64=31.0(2)確定組數。組數要適當,一般以達到既簡化數據又不影響反應數據的規律性為原則。(3)確定組距。每組最大值與最小值之差稱為組距,記為i。等組距分組時,組距的計算公式為:組距(i)=全距/組數本例i=31.0/16=2.0(4)確定組限及組中值。各組的最大值與最小值稱為組限。最小值稱為下限,最大值稱為上限。每一組的中點值稱為組中值。顯然,組中值=(組下限+組上限)/2,它是該組的代表值。組距確定后,首先要選定第一組的組中值。為了避免第一組歸組后數據太多,且能較正確地反應數據的規律性,第一組的組中值以近似于或等于數據中的最小值為好。第一組組中值確定后該組組限即可確定。(5)制作次數分布表。分組結束后,將數據資料中的每一觀測值逐一歸組,統計每組組限內所包含的觀測值個數,作為各組的次數,如此便完成了次數分布表。120位同學的成績分布表見表3-2。從表中可以看出數據的分布情況。表3-2120位同學的成績的次數分布

次數分布表不僅簡化了數據,達到了壓縮統計數據的目的,給人更加清晰的概念,同時對試驗數據的集中與分散程度有了進一步的認識。例如,120位同學的成績,多數集中在79.5~81.5,約占觀測值總個數的三分之一,用它來代表同學們成績的平均水平,有較強的代表性。由次數分布表還可看出,同學們的成績小于65及大于93的,均為極少數,分別只占到觀測值的0.6%。而且通過次數分布表,可以更加清楚地看到,120位同學的成績分于正態分布,即以79.5~81.5為中心,向兩邊做遞減的對稱分布。次數分布表不僅便于觀察數據的規律性,而且可根據它繪成次數分布圖及計算平均數、標準差等統計量。3.3間斷性數據資料的整理間斷性數據資料的整理常采用單項式分組法。其方法是用樣本的觀測值直接進行分組,每組均用一個觀測值表示。分組時,將數據中的每個觀測值歸入相應的組內,然后計數,制成次數分布表。若資料中數據的變異范圍較大時也應采用組距式分組法,此時各組的上下限均應列出。3.4質量資料的整理對于質量資料可以按照類別或等級進行分組,分別統計各組的次數,然后制成次數分布表。

同時,在試驗過程中由于實驗儀器精度的限制,實驗方法的不完善,科研人員認識能力的不足和科學水平的限制等方面的原因,在試驗中獲得的試驗值與它的客觀真實值并不一致,這種矛盾在數值上表現為誤差(error)。可見,誤差是與準確相反的一個概念,可以用誤差來說明試驗數據的準確程度。試驗結果都具有誤差,誤差自始至終存在于一切科學實驗過程中。隨著科學水平的提高和人們經驗、技巧、專門知識的豐富,誤差可以被控制的越來越小,但是不能完全消除。3.5.1真值與平均值

真值(truevalue)是指在某一時刻或者某一狀態下,某量的客觀值或實際值。

在科學試驗中,雖然試驗誤差在所難免,但平均值(mean)可綜合反應試驗值在一定條件下的一般水平,所以在科學試驗中,經常將多次試驗值的平均值作為真值的近似值。3.5.2誤差的基本概念

試驗值與真值之差稱為絕對誤差,即絕對誤差=試驗值-真值

絕對誤差雖然在一定條件下能反映試驗值的準確程度,但還不全面。例如兩城市之間的距離為200450m,若測量的絕對誤差為2m,則這次測量的準確度是很高的;但是2m的絕對誤差對于人身高的測量而言是不能容許的。所以,為了判斷試驗值的準確性,還必須考慮試驗值本身的大小,故引出了相對誤差。3.5試驗數據的誤差分析3.5.3試驗數據的來源及分類

誤差根據其性質或產生的原因,可分為隨機誤差、系統誤差、和過失誤差

隨機誤差是指在一定試驗條件下,以不可預知的規律變化著的誤差,多次試驗值的絕對誤差時大時小。

系統誤差是指在一定試驗條件下,由某個或某些因素按照某一確定的規律起作用而形成的誤差

過失誤差是一種與事實不符的誤差,沒有一定的規律,它主要由于實驗人員粗心大意造成的。3.5.4試驗數據的精準度

精密度反映了隨機誤差大小的程度,是指在一定的試驗條件下,多次試驗值的彼此符合程度或一致程度。精密度的概念與重復試驗時單次試驗值的變動性有關,如果試驗數據分散程度較小,則說明是精密的。例如,甲、乙兩人對同一個量進行測量,得到兩組試驗值:

甲:11.4511.4611.4511.44乙:11.3911.4511.4811.50很顯然,甲組數據的彼此符合程度好于乙組,故甲組數據的精密度較高

正確度:正確度是指大量測試結果的(算術)平均值與真值或接受參照值之間的一致程度,它反映了系統誤差的大小,是指在一定的試驗條件下,所有系統誤差的綜合。

準確度:反映了系統誤差和隨機誤差的綜合,表示了試驗結果與真值或標準值的一致程度

。

4試驗數據的表圖表示法

統計表是用表格的形式來表示數量關系,使數據條理化、系統化,便于理解、分析和比較。統計圖是用幾何圖形來表示數量關系,不同形狀的幾何圖形可以將研究對象的特征、內部構成、相互關系等形象直觀地表達出來,便于比較分析。4.1統計表4.1.1統計表的結構和要求(1)標題。標題要簡明扼要,有時須注明時間、地點,列于表的上方。(2)標目。標目分橫標目和縱標目兩項。橫標目列在標的左側,用于表示被說明事項的主要標志;縱標目列在表的上統計表的結構和要求

標題要簡明扼要,有時須注明時間、地點,列于表的上方。表的上下兩條邊線略粗,縱、橫標目間及合計可用細線分開,表的左右邊線應略去?,F在多用所謂“三線表”,即表中不繪縱線。

(1)標題(2)標目標目分橫標目和縱標目兩項。橫標目列在標的左側,用于表示被說明事項的主要標志;縱標目列在表的上端,說明橫標目各統計指標的內容,并注明計算單位,如%、kg、cm等。(3)線條4.1.2統計表的種類1簡單表由一橫標目和一縱標目組成,縱、橫標目均未分組的統計表稱為簡單表。2復合表縱、橫標目兩者至少有其中之一被分為兩組或兩組以上的統計表稱為復合表。表4-1為復合表。表4-1不同品種的蘋果貯藏4個月時果實硬度的變化4.2統計圖統計圖是用圖形將統計資料形象化,利用線條的高低、面積的大小及點的分布來表示數量的變化,形象直觀、一目了然。常用的統計圖有長條

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論