



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、生物信息學(xué)導(dǎo)論算法和分析研究題目“生物學(xué)中有著至少500年也解決不完的有趣問題。”Donnald E. Knuth經(jīng)過近一個學(xué)期的共同學(xué)習(xí),我們對幾種基本的生物信息學(xué)算法已經(jīng)有所了解。透過一扇小小的窗戶,遙望了這個生機蓬勃、充滿魅力的新型交叉學(xué)科領(lǐng)域。“問渠哪得清如許?為有源頭活水來。”生物信息學(xué)/系統(tǒng)生物學(xué)之所以成為當(dāng)今廣泛應(yīng)用的“時髦”學(xué)科,主要來源于現(xiàn)代生命科學(xué)在過去半個世紀(jì)的迅速發(fā)展和偉大成就,以及由此產(chǎn)生的呈爆炸性增長的生物分子數(shù)據(jù)。更重要的是,探索生命奧秘的動力使得越來越多的科學(xué)家和未來的科學(xué)家深刻地認(rèn)識到:我們今天取得的科學(xué)成就在神圣的生命和燦爛的星空面前,仍然顯得那么渺小和微不
2、足道。今后的生命科學(xué)研究,應(yīng)該摒棄門戶的偏見,以博大的胸懷接納每一個有創(chuàng)新思想、有關(guān)懷意識的青年天才,不管他是來自生物學(xué)背景還是物理、數(shù)學(xué)或計算機等學(xué)科背景;唯一的評判標(biāo)準(zhǔn)就是這種多學(xué)科的交叉、滲透和參與,能否推動生命科學(xué)的發(fā)展,能否使得我們對生命奧秘的認(rèn)識更進一步。生物序列分析作為計算生物學(xué)的源頭性問題之一,也同樣包含了許多經(jīng)典的生物信息學(xué)算法及其應(yīng)用。古人云:“紙上得來終覺淺,絕知此事要躬行。”為了以管窺豹,我們選取了兩類序列數(shù)據(jù),作為本課程的算法實踐對象。一類是大腸桿菌(Escherichia coli K-12 MG1655的全基因組序列,作為DNA序列的一個典型例子;一類是經(jīng)過篩選的
3、900多個蛋白質(zhì)序列(主要來自高等真核生物的結(jié)構(gòu)基因數(shù)據(jù),作為氨基酸序列的一個典型例子。同學(xué)們可以二者選其一,作為自己研究的對象,并完成一份研究實踐報告。數(shù)據(jù)1:DNA序列(從本課程網(wǎng)頁下載首先請閱讀該文件夾中的ReadMe.txt文件,以了解所提供的數(shù)據(jù)和數(shù)據(jù)格式。本問題的研究對象是大腸桿菌(Escherichia coli K-12 MG1655的全基因組序列(共長4,639,221bp,以及GenBank提供的所有編碼區(qū)位點信息。我們定義在DNA序列上一個(三聯(lián)碼密碼子序列“XTGSTP”為ORF(Open reading frame,開放閱讀框,這里XTG代表原核生物中常用的基因起始密
4、碼子ATG、CTG、GTG和TTG,STP代表常用的基因終止密碼子TAA、TGA和TAG,且序列內(nèi)部不存在任何與XTG同相位的STP密碼子。假如一個ORF中的XTG是距離與它同相位的5端前一個STP最近的XTG,我們定義它為LORF(Longest ORF,最長ORF。我們還定義:當(dāng)某個LORF的STP位點與GenBank注釋的任意一個基因的終止位點STP 吻合時,我們認(rèn)為該LORF是編碼的;反之,是非編碼的LORF。這里只考慮長度大于或等于90bp的LORF。請根據(jù)上述約定完成下列研究工作:(1、分析大腸桿菌全基因組序列的A、C、G、T堿基的含量(頻率,以及G+C的堿基含量;(2、找出所有編
5、碼LORF和非編碼LORF,并分析這兩類LORF的堿基含量,分析它們與全基因組堿基含量的區(qū)別;(3、考察兩類LORF(編碼、非編碼的長度分布特征,并根據(jù)長度這一屬性變量設(shè)計一個判別方案,用以識別編碼與非編碼的LORF,并分析識別精度;在完成上述規(guī)定任務(wù)的基礎(chǔ)上,你可以進一步考慮以下的研究任務(wù)(選擇部分完成:(4、綜合堿基含量、長度以及其它你可以構(gòu)造的屬性(比如二核苷酸、密碼子、氨基酸、六聯(lián)碼等的頻率,設(shè)計多元的判別方案,并考察你的識別方案的精度;(5、考察兩類LORF的1階Matkov鏈(可以是核苷酸序列、密碼子序列或氨基酸序列,請算出它們的轉(zhuǎn)移概率矩陣,并據(jù)此設(shè)計一個判別方案,同時分析識別精
6、度;你還可以結(jié)合長度這一屬性,設(shè)計你的基因識別方案;(6、你還可以運用HMM、人工神經(jīng)網(wǎng)絡(luò)、支持向量機等更復(fù)雜的算法完成你構(gòu)造的上述任意一個基因識別問題。數(shù)據(jù)2:氨基酸序列(從本課程網(wǎng)頁下載首先請閱讀該文件夾中的ReadMe.txt文件,以了解所提供的數(shù)據(jù)和數(shù)據(jù)格式。本問題的研究對象是PDB數(shù)據(jù)庫提供的947個結(jié)構(gòu)基因的氨基酸序列,它們的長度不等。同時還有根據(jù)DSSP等注釋的這些序列的二級結(jié)構(gòu)位點信息,即序列上某一位點的氨基酸是屬于H區(qū)域(alpha-螺旋、E區(qū)域(beta-折疊還是C區(qū)域(其它。請根據(jù)上述約定完成下列研究工作:(1、統(tǒng)計所有蛋白質(zhì)序列中20種氨基酸的含量(頻率;統(tǒng)計所有蛋白質(zhì)
7、序列中H 區(qū)域、E區(qū)域和C區(qū)域三種區(qū)域的20種氨基酸含量,以及這三種區(qū)域的長度分布特征;(2、假如將氨基酸序列變換成二級結(jié)構(gòu)序列(即等長度的H、E、C符號序列,請考察所有二級結(jié)構(gòu)序列的H、E、C的含量(亦即長度分布特征;(3、請根據(jù)氨基酸含量、長度等屬性變量,設(shè)計一種三類總體的判別方案,并分析識別精度;在完成上述規(guī)定任務(wù)的基礎(chǔ)上,你可以進一步考慮以下的研究任務(wù)(選擇部分完成:(4、構(gòu)造這三種區(qū)域氨基酸序列的1階Markov過程模型,并計算它們各自的轉(zhuǎn)移概率矩陣;然后構(gòu)造一種判別方案,并分析判別精度;(5、考慮長度、氨基酸含量以及1階Markov鏈等多種屬性,構(gòu)造一種判別方案,并分析判別精度;(
8、6、考察二級結(jié)構(gòu)序列(即等長度的H、E、C符號序列的1階Markov過程模型,計算其概率轉(zhuǎn)移矩陣。以此為基礎(chǔ),結(jié)合問題(5,構(gòu)造HMM方法,設(shè)計二級結(jié)構(gòu)的預(yù)測方案,分析預(yù)測精度。具體要求1、你可以從上述兩個問題中選擇其一進行你的研究。每個問題的前3個任務(wù)是規(guī)定完成的,之后的任務(wù)視你的能力和精力而為,你還可以根據(jù)你所掌握的其它知識和工具進行提示任務(wù)之外的研究,鼓勵創(chuàng)新、立異;2、你可以單獨完成研究工作,也可以與選修本課程的同學(xué)組合成小組共同研究一個問題,但一個小組最多2名同學(xué);3、研究結(jié)果必須以報告的形式提交,打印成冊,格式如下:(1封面標(biāo)題:生物信息學(xué)導(dǎo)論研究實踐報告同時注明你的院系、學(xué)號、姓名(若2人合作,同時署名,交1份報告即
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 項目共建合同協(xié)議
- 嚴(yán)琦的離婚賠償合同
- 智能辦公設(shè)備采購合同書
- 建筑設(shè)計委托合同范本
- 建筑設(shè)計服務(wù)合同條款
- 【安永】2025靈活應(yīng)對變局重新平衡風(fēng)險管理優(yōu)先事項研究報告
- Brand KPIs for pet supply online shop Time for Paws in the United Kingdom-外文版培訓(xùn)課件(2025.2)
- 幼兒表演性舞蹈《邊走邊唱》
- 人教版數(shù)學(xué)一年級下冊-05認(rèn)識人民幣-01簡單的計算-教學(xué)反思03(4篇)教案
- 2025年深圳地鐵某區(qū)間土建工程勞務(wù)分包總價承包合同
- 無機保溫砂漿外墻外保溫系統(tǒng)施工工藝課件
- 產(chǎn)品追溯記錄表
- 高三二輪復(fù)習(xí):產(chǎn)業(yè)轉(zhuǎn)移以富士康的企業(yè)轉(zhuǎn)移為例課件
- 政府信息資源管理
- 中小微企業(yè)劃型證明
- 西南交大區(qū)段站工作組織課程設(shè)計2018
- 《監(jiān)察機關(guān)監(jiān)督執(zhí)法工作規(guī)定》測試題試題含答案
- Q∕GDW 12154-2021 電力安全工器具試驗檢測中心建設(shè)規(guī)范
- 初中文言文專項訓(xùn)練十篇(含答案)
- 煤礦頂板事故防治(1)
- 漏電保護器試跳記錄表
評論
0/150
提交評論