




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據統計分析模型第1頁,課件共16頁,創作于2023年2月參考書施雨,李耀武編,概率論與數理統計應用,西安交通大學出版社梅長林,范金成編,數據分析方法,高等教育出版社,王學民編,應用多元統計分析,上海財經大學出版社方開泰編,使用多元統計分析,華東師范大學出版社第2頁,課件共16頁,創作于2023年2月統計軟件SAS(StatisticalAnalysisSystem)SPSS(StatisticalPackagefortheSocialScience)R第3頁,課件共16頁,創作于2023年2月數據統計分析常用模型方差分析回歸分析判別分析聚類分析主成分分析相關分析(典型相關分析)因子分析列聯表分析時間序列分析第4頁,課件共16頁,創作于2023年2月例子例1:為了比較同一類型的三種不同食譜的營養效果,將19只幼鼠隨機地分為三組,每只分為8只、4只、7只,各采用這三種食譜喂養。假定其他條件均保持相同,12周后測得其體重增加量如下表所示,是比較這三種食譜的營養效果是否有顯著差異食譜體重增加量甲164190203205206214228257乙185197201231丙187212215220248265281第5頁,課件共16頁,創作于2023年2月例子例2:為了研制一種治療枯草熱病的藥物,將兩種成分(A和B)各按三種不同劑量(低、中、高)混合,將36位自愿受試患者隨機分為9組,每組4人服用各種劑量回合下的藥物,記錄其病情緩解的時間(單位:小時)如下表所示,試分析兩種成分及交互作用對病情緩解的時間是否有顯著影響。第6頁,課件共16頁,創作于2023年2月例子AB低劑量中劑量高劑量低劑量2.42.72.32.54.64.24.94.7
4.84.54.44.6低劑量5.85.25.55.38.99.18.79.0
9.19.38.79.4低劑量6.15.75.96.29.910.510.610.113.513.013.313.2第7頁,課件共16頁,創作于2023年2月例子例3:費希爾(Fisher)于1936年發表了關于鳶尾花(Iris)的數據。數據是對3種鳶尾花:剛毛鳶尾花(第1組)、變色鳶尾花(第2組)和費吉尼亞鳶尾花(第3組)各抽取一個容量為50的樣本,測量其花萼長x1,花萼寬x2,花瓣長x3,花瓣寬x4,單位為mm,數據如下表所示。假定有新樣品(x1,x2,x3,x4)=(62.35,58,18),試判別該樣品屬于哪種鳶尾花。第8頁,課件共16頁,創作于2023年2月例子編號品種萼長x1萼寬x2瓣長x3瓣寬x4
1503314214634143………………265284615262224515………………364285622………………150363336025第9頁,課件共16頁,創作于2023年2月例子例4:2000年全國大學生數學建模競賽A題DNA序列分類
2000年6月,人類基因組計劃中DNA全序列草圖完成,預計2001年可以完成精確的全序列圖,此后人類將擁有一本記錄著自身生老病死及遺傳進化的全部信息的“天書”。這本大自然寫成的“天書”是由4個字符A,T,C,G按一定順序排成的長約30億的序列,其中沒有“斷句”也沒有標點符號,除了這4個字符表示4種堿基以外,人們對它包含的“內容”知之甚少,難以讀懂。破譯這部世界上最巨量信息的“天書”是二十一世紀最重要的任務之一。在這個目標中,研究DNA全序列具有什么結構,由這4個字符排成的看似隨機的序列中隱藏著什么規律,又是解讀這部天書的基礎,是生物信息學(Bioinformatics)最重要的課題之一。
雖然人類對這部“天書”知之甚少,但也發現了DNA序列中的一些規律性和結構。例如,在全序列中有一些是用于編碼蛋白質的序列片段,即由這4個字符組成的64種不同的3字符串,其中大多數用于編碼構成蛋白質的20種氨基酸。又例如,在不用于編碼蛋白質的序列片段中,A和T的含量特別多些,于是以某些堿基特別豐富作為特征去研究DNA序列的結構也取得了一些結果。此外,利用統計的方法還發現序列的某些片段之間具有相關性,等等。這些發現讓人們相信,DNA序列中存在著局部的和全局性的結構,充分發掘序列的結構對理解DNA全序列是十分有意義的。目前在這項研究中最普通的思想是省略序列的某些細節,突出特征,然后將其表示成適當的數學對象。這種被稱為粗粒化和模型化的方法往往有助于研究規律性和結構。
第10頁,課件共16頁,創作于2023年2月作為研究DNA序列的結構的嘗試,提出以下對序列集合進行分類的問題:
1)下面有20個已知類別的人工制造的序列(見下頁),其中序列標號1—10
為A類,11-20為B類。請從中提取特征,構造分類方法,并用這些已知類別的序列,衡量你的方法是否足夠好。然后用你認為滿意的方法,對另外20個未標明類別的人工序列(標號21—40)進行分類,把結果用序號(按從小到大的順序)標明它們的類別(無法分類的不寫入):
A類__________
;B類_______________
。
請詳細描述你的方法,給出計算程序。如果你部分地使用了現成的分類方法,也要將方法名稱準確注明。
這40個序列也放在如下地址的網頁上,用數據文件Art-model-data
標識,供下載:
網易網址:
教育頻道
在線試題;
教育網:
New
mcm2000
教育網:
/mcm
第11頁,課件共16頁,創作于2023年2月例子
2)在同樣網址的數據文件Nat-model-data
中給出了182個自然DNA序列,它們都較長。用你的分類方法對它們進行分類,像1)一樣地給出分類結果。
提示:衡量分類方法優劣的標準是分類的正確率,構造分類方法有許多途徑,例如提取序列的某些特征,給出它們的數學表示:幾何空間或向量空間的元素等,然后再選擇或構造適合這種數學表示的分類方法;又例如構造概率統計模型,然后用統計方法分類等。第12頁,課件共16頁,創作于2023年2月例子Art-model-data
1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg
2.cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattattcggtttaaacgggacaaggaaggcggctggaacaaccggacggtggcagcaaagga
3.gggacggatacggattctggccacggacggaaaggaggacacggcggacatacacggcggcaacggacggaacggaggaaggagggcggcaatcggtacggaggcggcgga
4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagcttagatgcatatgttttttaaataaaatttgtattattatggtatcataaaaaaaggttgcga
5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggctacaccaccgtttcggcggaaaggcggagggctggcaggaggctcattacggggag
6.atggaaaattttcggaaaggcggcaggcaggaggcaaaggcggaaaggaaggaaacggcggatatttcggaagtggatattaggagggcggaataaaggaacggcggcaca
7.atgggattattgaatggcggaggaagatccggaataaaatatggcggaaagaacttgttttcggaaatggaaaaaggactaggaatcggcggcaggaaggatatggaggcg
8.atggccgatcggcttaggctggaaggaacaaataggcggaattaaggaaggcgttctcgcttttcgacaaggaggcggaccataggaggcggattaggaacggttatgagg
9.atggcggaaaaaggaaatgtttggcatcggcgggctccggcaactggaggttcggccatggaggcgaaaatcgtgggcggcggcagcgctggccggagtttgaggagcgcg
10.tggccgcggaggggcccgtcgggcgcggatttctacaagggcttcctgttaaggaggtggcatccaggcgtcgcacgctcggcgcggcaggaggcacgcgggaaaaaacg
11.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt
12.gtttaattactttatcatttaatttaggttttaattttaaatttaatttaggtaagatgaatttggttttttttaaggtagttatttaattatcgttaaggaaagttaaa
13.gtattacaggcagaccttatttaggttattattattatttggattttttttttttttttttttaagttaaccgaattattttctttaaagacgttacttaatgtcaatgc
14.gttagtcttttttagattaaattattagattatgcagtttttttacataagaaaatttttttttcggagttcatattctaatctgtctttattaaatcttagagatatta
15.gtattatatttttttatttttattattttagaatataatttgaggtatgtgtttaaaaaaaatttttttttttttttttttttttttttttttaaaatttataaatttaa
16.gttatttttaaatttaattttaattttaaaatacaaaatttttactttctaaaattggtctctggatcgataatgtaaacttattgaatctatagaattacattattgat
17.gtatgtctatttcacggaagaatgcaccactatatgatttgaaattatctatggctaaaaaccctcagtaaaatcaatccctaaacccttaaaaaacggcggcctatccc
18.gttaattatttattccttacgggcaattaattatttattacggttttatttacaattttttttttttgtcctatagagaaattacttacaaaacgttattttacatactt
19.gttacattatttattattatccgttatcgataattttttacctcttttttcgctgagtttttattcttactttttttcttctttatataggatctcatttaatatcttaa
20.gtatttaactctctttactttttttttcactctctacattttcatcttctaaaactgtttgatttaaacttttgtttctttaaggattttttttacttatcctctgttat
21.tttagctcagtccagctagctagtttacaatttcgacaccagtttcgcaccatcttaaatttcgatccgtaccgtaatttagcttagatttggatttaaaggatttagattga
22.tttagtacagtagctcagtccaagaacgatgtttaccgtaacgtqacgtaccgtacgctaccgttaccggattccggaaagccgattaaggaccgatcgaaaggg
23.cgggcggatttaggccgacggggacccgggattcgggacccgaggaaattcccggattaaggtttagcttcccgggatttagggcccggatggctgggaccc24.tttagctagctactttagctatttttagtagctagccagcctttaaggctagctttagctagcattgttctttattgggacccaagttcgacttttacgatttagttttgaccgt
25.gaccaaaggtgggctttagggacccgatgctttagtcgcagctggaccagttccccagggtattaggcaaaagctgacgggcaattgcaatttaggcttaggcca
26.gatttactttagcatttttagctgacgttagcaagcattagctttagccaatttcgcatttgccagtttcgcagctcagttttaacgcgggatctttagcttcaagctttttac
27.ggattcggatttacccggggattggcggaacgggacctttaggtcgggacccattaggagtaaatgccaaaggacgctggtttagccagtccgttaaggcttag
28.tccttagatttcagttactatatttgacttacagtctttgagatttcccttacgattttgacttaaaatttagacgttagggcttatcagttatggattaatttagcttattttcga
29.ggccaattccggtaggaaggtgatggcccgggggttcccgggaggatttaggctgacgggccggccatttcggtttagggagggccgggacgcgttagggc30.cgctaagcagctcaagctcagtcagtcacgtttgccaagtcagtaatttgccaaagttaaccgttagctgacgctgaacgctaaacagtattagctgatgactcgta
31.ttaaggacttaggctttagcagttactttagtttagttccaagctacgtttacgggaccagatgctagctagcaatttattatccgtattaggcttaccgtaggtttagcgt32.gctaccgggcagtctttaacgtagctaccgtttagtttgggcccagccttgcggtgtttcggattaaattcgttgtcagtcgctctrtgggtttagtcattcccaaaagg
33.cagttagctgaatcgtttagccatttgacgtaaacatgattttacgtacgtaaattttagccctgacgtttagctaggaatttatgctgacgtagcgatcgactttagcac
34.cggttagggcaaaggttggatttcgacccagggggaaagcccgggacccgaacccagggctttagcgtaggctgacgctaggcttaggttggaacccggaaa
35.gcggaagggcgtaggtttgggatgcttagccgtaggctagctttcgacacgatcgattcgcaccacaggataaaagttaagggaccggtaagtcgcggtagcc
36.ctagctacgaacgctttaggcgcccccgggagtagtcgttaccgttagtatagcagtcgcagtcgcaattcgcaaaagtccccagctttagccccagagtcgacg
37.gggatgctgacgctggttagctttaggcttagcgtagctttagggccccagtctgcaggaaatgcccaaaggaggcccaccgggtagatgccasagtgcaccgt
38.aacttttagggcatttccagttttacgggttatt
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 個人承包合作合同樣本
- 2025年湖北省土地流轉合同
- 2025年的技術服務合同樣本
- 2025合作伙伴培訓合同(詳細資料)
- 2025美容院轉讓合同范本
- DB13-T748-2017-壩上長尾雞-河北省
- 《中國歷代服飾圖鑒》課件
- 2025深圳辦公室租賃合同
- 鎮江市通聯閥門有限公司年產70萬只塑料閥門項目環評資料環境影響
- 宜居宜業和美鄉村建設發展前景分析報告
- 《茶學概論》課件
- 2024年甘肅水投集團遴選引洮供水公司招聘筆試參考題庫含答案解析
- 腸癌篩查早發現早治療
- 醫療器械經營安全培訓必備知識
- 網格員宣傳防詐騙知識講座
- (完整文本版)新概念英語第一冊單詞表默寫版1-144
- 《醫院勞動合同書》電子版
- 機車直流電機的電力拖動-直流電機的基本方程
- 2022-2023學年四川省巴中市巴州區川教版(三起)四年級下學期4月期中英語試卷(解析版)
- 互聯網信息審核員考試題庫大全-上(單選題匯總)
- 湖南省長沙市實驗小學小學語文五年級下冊期末試卷(含答案)
評論
0/150
提交評論