細(xì)菌的基因預(yù)測(cè)以及注釋_第1頁(yè)
細(xì)菌的基因預(yù)測(cè)以及注釋_第2頁(yè)
細(xì)菌的基因預(yù)測(cè)以及注釋_第3頁(yè)
細(xì)菌的基因預(yù)測(cè)以及注釋_第4頁(yè)
細(xì)菌的基因預(yù)測(cè)以及注釋_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Whole-genome Annotation of an A.baumannii strain A.baumannii ACICU 摘 要 隨著新一代測(cè)序技術(shù)的進(jìn)展,微生物全基因組測(cè)序的成本大大削減,DNA序列的生成速度已遠(yuǎn)遠(yuǎn)超過其基因的注釋速度。功能基因組學(xué)的爭(zhēng)辯已經(jīng)成為當(dāng)今爭(zhēng)辯的主流。然而如此多的數(shù)據(jù)對(duì)現(xiàn)有的基因注釋工具提出了巨大的挑戰(zhàn)。本爭(zhēng)辯通過對(duì)A.baumanii ACICU染色體序列使用GeneMarks進(jìn)行基因猜測(cè),猜測(cè)到了3718個(gè)基因,然后使用RAST進(jìn)行基因注釋,共注釋到了3683個(gè)功能基因,將得到的結(jié)果與原文獻(xiàn)中所注釋到的基因進(jìn)行對(duì)比。最終得到結(jié)論,基因的猜測(cè)與注釋都需

2、要綜合不同軟件的結(jié)果進(jìn)行分析,才能得到較為精確的結(jié)果。本爭(zhēng)辯為原核生物全基因組的注釋提方法供了參考。關(guān)鍵字:基因注釋 全基因組 鮑曼不動(dòng)桿菌 GeneMarks RAST名目1.引言(Introduction)31.1.背景介紹31.2.全基因組注釋軟件31.3.A.baumannii ACICU相關(guān)42.材料與方法(Methods and Materials)52.1.使用GeneMarks進(jìn)行ORF猜測(cè)52.2.使用RAST進(jìn)行功能基因注釋63.結(jié)果與爭(zhēng)辯(Results and Discussion)83.1.使用GeneMarks猜測(cè)ORF的結(jié)果以及分析83.2.使用RAST進(jìn)行功能基

3、因注釋結(jié)果以及分析93.3.綜合分析10參考文獻(xiàn)101. 引言(Introduction)1.1. 背景介紹 一個(gè)完整的基因組是指組成一個(gè)生物體全部DNA的集合。想要完全了解一個(gè)生命體,首先需要知道它的全基因組序列,由于生命體本身的遺傳信息是不會(huì)輕易轉(zhuǎn)變的。基因組爭(zhēng)辯包括兩方面內(nèi)容:(1)以全基因組測(cè)序?yàn)槟繕?biāo)的結(jié)構(gòu)基因組學(xué)(2)以基因功能鑒定為目標(biāo)的功能基因組學(xué),也叫后基因組(postgenome)爭(zhēng)辯。其中結(jié)構(gòu)基因組學(xué)的重點(diǎn)就是利用高通量測(cè)序儀進(jìn)行全基因組測(cè)序。隨著測(cè)序的完成,功能基因組學(xué)爭(zhēng)辯成為爭(zhēng)辯的主流。功能基因組學(xué)的爭(zhēng)辯內(nèi)容很多,主要包括:基因組表達(dá)調(diào)控的爭(zhēng)辯、基因信息的識(shí)別和鑒定、基

4、因功能信息的提取和鑒定、基因多樣性分析、比較基因組學(xué)等。隨著新一代測(cè)序技術(shù)的進(jìn)展,微生物全基因組測(cè)序的成本大大削減,DNA序列的生成速度已遠(yuǎn)遠(yuǎn)超過其基因的注釋速度。現(xiàn)階段超過300個(gè)細(xì)菌基因組序列已可以在公開數(shù)據(jù)庫(kù)中查詢,同時(shí)有更多的微生物基因組序列測(cè)序工作即將完成并在近期發(fā)布。如何利用這些原始序列信息來更好的了解微生物中諸如基因的識(shí)別和注釋、蛋白質(zhì)的結(jié)構(gòu)和功能等生物學(xué)學(xué)問,這是我們現(xiàn)階段要做的重要工作。 傳統(tǒng)上,人們用試驗(yàn)方法驗(yàn)證基因組中的蛋白質(zhì)編碼基因,但這種方法費(fèi)時(shí)費(fèi)勁,且?guī)в休^大的盲目性。因此,基因組注釋不行避開要依靠自動(dòng)化注釋軟件,接受自動(dòng)化注釋對(duì)生物序列特殊是大規(guī)模的基因組序列進(jìn)行

5、分析和注釋,從而對(duì)傳統(tǒng)生物學(xué)試驗(yàn)產(chǎn)生有益的方向性指引是當(dāng)前爭(zhēng)辯的熱點(diǎn)。然而,自動(dòng)化注釋必定會(huì)引進(jìn)和傳播一些錯(cuò)誤的注釋信息,其結(jié)果往往需要人工修正,數(shù)據(jù)庫(kù)中收錄的已測(cè)序和注釋的基因序列數(shù)量巨大,手工修正全部的注釋序列也是不行行的1。基因組注釋的精確性已變得越來越為重要,新的注釋方法不斷研發(fā),如依據(jù)序列組成特征或核苷酸消滅頻率模式等多種參數(shù)對(duì)蛋白質(zhì)編碼基因起始位點(diǎn)、假蛋白基因和RBS位點(diǎn)的的識(shí)別方法。這些爭(zhēng)辯加上不斷完善的數(shù)據(jù)庫(kù)信息和新的試驗(yàn)驗(yàn)證學(xué)問,在不久的將來無疑會(huì)對(duì)基因組注釋的精確度起到更好的作用。1.2. 全基因組注釋軟件目前,針對(duì)基因組學(xué)爭(zhēng)辯的各個(gè)方向都有很多現(xiàn)成的軟件。這些軟件都是爭(zhēng)辯

6、者或商業(yè)公司針對(duì)某些分析方法開發(fā)的,為后來爭(zhēng)辯者供應(yīng)了巨大的便捷。基因組注釋是在得到全基因組序列后首先要做的。它是利用生物信息學(xué)方法,對(duì)基因組全部基因的生物學(xué)功能進(jìn)行功能注釋,包括基因猜測(cè)和基因功能注釋兩個(gè)方面。目前已經(jīng)有很多的基因猜測(cè)工具或者在線注釋網(wǎng)站。基因猜測(cè)的方法主要有 3 種:(1)分析mRNA和EST數(shù)據(jù)直接得到結(jié)果;(2)通過相像性比對(duì)從已知基因和蛋白質(zhì)序列得到間接證據(jù);(3)基于各種統(tǒng)計(jì)模型和算法從頭猜測(cè),比如隱馬可夫模型。其中通過相像性比對(duì)得到猜測(cè)基因的方法最常見。例如,現(xiàn)在流行的做法是先通過 Glimmer、GeneMarks等軟件猜測(cè)出基因組的ORF。然后通過 Blast

7、方法將ORF同其他物種的基因進(jìn)行比對(duì)。有同源基因的ORF被注釋為同樣功能的基因,沒有同源性的ORF被舍去或注釋為假說蛋白(hypothetical protein)。由于注釋需要大量的數(shù)據(jù)庫(kù),為了使注釋變得簡(jiǎn)潔,一些爭(zhēng)辯機(jī)構(gòu)將不同功能的注釋軟件整合在一起,供應(yīng)在線的注釋服務(wù)。如 RAST2、Xbase等,NCBI的PGAAP能供應(yīng)人工的注釋服務(wù)。這些網(wǎng)站只需要用戶將序列和序列的所屬物種分類信息提交即可。注釋好的結(jié)果為 gbk 格式文件(包含序列和注釋信息)3。GeneMarks4 軟件的原理都是使用統(tǒng)計(jì)學(xué)模型的從頭猜測(cè)(ab initio)方法,不依靠任何先驗(yàn)學(xué)問和閱歷參數(shù),通過描述DNA序列

8、中核苷酸的離散模型,利用編碼區(qū)和非編碼區(qū)的核苷酸分布概率不同來進(jìn)行基因猜測(cè)。GeneMarks是不需要人為干預(yù)和相關(guān)DNA或rRNA基因的資料即可對(duì)新的細(xì)菌基因組進(jìn)行猜測(cè),測(cè)試表明GeneMarks對(duì)GeneBank數(shù)據(jù)庫(kù)中已注釋的枯草芽孢桿菌的猜測(cè)精確度達(dá)到82.9%,而對(duì)已通過試驗(yàn)方法證明注釋功能的大腸桿菌的猜測(cè)高達(dá)93.8%,其對(duì)新測(cè)序基因組的猜測(cè)與Glimmer存在同樣問題,即相當(dāng)一部分基因在數(shù)據(jù)庫(kù)并不能發(fā)覺同源,只能作為假蛋白基因存在。如何在沒有明確試驗(yàn)證據(jù)的前提下鑒定此類基因猜測(cè)的精確性,切實(shí)可行的方法就是綜合利用多個(gè)猜測(cè)軟件對(duì)猜測(cè)結(jié)果進(jìn)行比較,分析其中的異同點(diǎn)1。1.3. A.b

9、aumannii ACICU相關(guān)本爭(zhēng)辯所接受的菌株A.baumannii ACICU是鮑曼不動(dòng)桿菌比較有代表性的菌株,關(guān)于這株菌的具體信息可查看Iacono M et.al5。近年來由于鮑曼不動(dòng)桿菌的耐藥性的不斷增加,關(guān)于鮑曼不動(dòng)桿菌耐藥機(jī)制進(jìn)行了大量爭(zhēng)辯,已經(jīng)有35株鮑曼不動(dòng)桿菌完成了全基因組基因測(cè)序與注釋。序列大小/bp編碼區(qū)比例/%GC%猜測(cè)基因數(shù)(ORF)編碼蛋白基因數(shù)(CDS)染色體序列390411684.8739.0337583670上表格顯示了A.baumannii ACICU 菌株的全基因組的注釋狀況其由整個(gè)染色體以及兩個(gè)質(zhì)粒組成。其中染色體大小為3904116bp,編碼區(qū)占整

10、個(gè)基因組的84.78%,含有猜測(cè)基因數(shù)(ORF)為3758個(gè),其中編碼蛋白質(zhì)的基因數(shù)為3670個(gè)5。上圖為NCBI上所顯示的A.baumannii ACICU的相關(guān)狀況,其中編碼蛋白質(zhì)基因數(shù)為3613,與原文獻(xiàn)中所載有較大差別,可能是隨著時(shí)間的推移,基因注釋方法有所改進(jìn),有所變化所致。本爭(zhēng)辯主要以A.baumannii ACICU染色體序列為例對(duì)基因猜測(cè)與注釋的方法進(jìn)行分析,以找到合適的基因猜測(cè)與注釋的方法。2. 材料與方法(Methods and Materials)下面我們利用從NCBI上下載的A.baumannii ACICU全基因組染色體序列(不包含質(zhì)粒序列)(.fasta格式)為例,

11、分別使用GeneMarks(/GeneMark/genemarks.cgi)進(jìn)行ORF(開放閱讀框)基因猜測(cè), RAST(/)進(jìn)行功能基因(CDS)注釋,對(duì)比原結(jié)果進(jìn)行分析。2.1. 使用GeneMarks進(jìn)行ORF猜測(cè)(1)第一步是上傳A.baumanii ACICU染色體序列,并設(shè)置合適的參數(shù),填加自己的郵箱。全部設(shè)置好之后,點(diǎn)擊Start GeneMarks開頭注釋。如下圖所示:(2)第一步上傳結(jié)束序列之后,會(huì)消滅如下界面,提示序列已成功提交,注釋好的文件會(huì)發(fā)到所填郵箱。2.2. 使用RAST進(jìn)行功能基因

12、注釋(1)上傳A.baumanii ACICU(.fasta格式)序列,上傳結(jié)束后點(diǎn)擊Use this data and go to step 2進(jìn)行下一步。如下圖所示:(2)其次步填加必需的的參數(shù),Domain選擇Bacteria,Genetic Code選擇11,然后點(diǎn)擊Use this data and go to step 3進(jìn)行下一步操作。如下圖所示:(3)如下圖所示,選擇好合適的參數(shù)后點(diǎn)擊Finish the upload,即可等待結(jié)果,注釋結(jié)束后,其會(huì)發(fā)郵件告知3. 結(jié)果與爭(zhēng)辯(Results and Discussion)3.1. 使用GeneMarks猜測(cè)ORF的結(jié)果以及分析

13、使用GeneMarks進(jìn)行猜測(cè)后,生成了gms.out gms.out.faa gms.out.fnn gms.out.ps四個(gè)文件:其中g(shù)ms.out文件如下顯示(其中一部分,使用linux系統(tǒng)cat或者h(yuǎn)ead命令查看): Gene Strand LeftEnd RightEnd Gene Class # Length 1 - 76 468 393 1 2 - 506 2974 2469 1 3 - 3027 4109 1083 1 4 - 4124 5272 1149 1 5 - 5370 6767 1398 1 6 + 7438 7572 135 1 7 + 7602 7994 393

14、 1 8 + 8005 8325 321 1 9 + 8331 10091 1761 1 10 + 10182 11537 1356 1 3711 + 3894879 3896006 1128 1 3712 + 3896134 3896979 846 1 3713 - 3897035 3897370 336 1 3714 - 3897495 3898499 1005 1 3715 - 3898842 3899849 1008 1 3716 - 3900105 3901109 1005 1 3717 + 3901366 3903297 1932 1 3718 + 3903549 3904106

15、558 1其中g(shù)ms.out.faa氨基酸序列文件顯示如下(其中之一):>gene_3718|GeneMark.hmm|185_aa|+|3903549|3904106>gi|184156320|ref|NC_010611.1| Acinetobacter baumannii ACICU, complete genomeMNFIDFITNFEQFLPILIQEYGAWVYAILFLIIFSETAFVFMFFLPGDSLLLTVGALCSVVELMHLGYMITLLTVAATLGYIVNYSIGRHFGNRIFEAKSRFIKKEYLNKTNRYFLQHGGKTILLARFIPFAR

16、SFAPLAAGSSNMSYGKFLIYNVAGAILWICILLTAGYLFGHALIQVTDFVEN其中g(shù)ms.out.fnn核苷酸序列如下所示,起始密碼子為ATG,終止密碼子為TAA TGA和TAG(其中之一):>gene_3718|GeneMark.hmm|558_nt|+|3903549|3904106>gi|184156320|ref|NC_010611.1| Acinetobacter baumannii ACICU, complete genomeATGAATTTTATTGATTTTATTACTAATTTTGAACAATTTTTACCTATTTTGATTCAGGAG

17、TATGGTGCATGGGTTTATGCCATACTCTTTTTGATTATTTTTTCTGAAACTGCTTTTGTGTTTATGTTCTTTTTACCTGGAGATAGCTTACTTTTAACTGTAGGTGCACTGTGCTCGGTGGTTGAACTGATGCATCTTGGTTATATGATTACTCTGCTCACCGTTGCAGCAACATTAGGCTATATCGTCAATTATTCTATTGGCCGCCATTTTGGAAACCGTATTTTTGAAGCAAAATCACGTTTTATTAAAAAAGAATATTTGAATAAAACGAACCGCTATTTCTTGCAACATGGCGGT

18、AAAACTATTCTTTTAGCACGTTTTATTCCTTTCGCACGTTCTTTTGCACCCCTCGCTGCCGGCTCAAGCAATATGAGCTATGGAAAATTTTTGATTTACAATGTGGCAGGAGCTATTTTGTGGATCTGCATCCTTTTAACGGCTGGCTACCTATTTGGCCATGCACTCATTCAAGTTACAGATTTTGTTGAAAATTAA由此可知A.baumannii ACICU全基因組經(jīng)GeneMarks猜測(cè)到了3718個(gè)基因。3.2. 使用RAST進(jìn)行功能基因注釋結(jié)果以及分析 以上兩圖是使用RAST對(duì)A.baumannii ACICU

19、染色體序列進(jìn)行注釋的結(jié)果菌株A.baumannii ACICU染色體基因組經(jīng)RAST功能基因注釋,共注釋到3683個(gè)功能基因。其中分布于不同功能子系統(tǒng)(457)的有1831個(gè),確定的基因(non-hypothetical)有1736個(gè),不確定(hypothrtical)的有95個(gè);其余的編碼基因不分布于這些不同功能的子系統(tǒng)中,共有1852個(gè),其中確定的有908個(gè),不確定的有944個(gè)。3.3. 綜合分析對(duì)于A.baumaniiACICU染色體序列,由GeneMarks猜測(cè)到3718個(gè)基因,由RAST注釋到3683個(gè)編碼蛋白基因,與原文獻(xiàn)結(jié)果含有猜測(cè)基因數(shù)(ORF)為3758個(gè),其中編碼蛋白質(zhì)的基

20、因數(shù)為3670個(gè)相比有所不同。其中猜測(cè)基因數(shù)比原文獻(xiàn)少了有40個(gè),差別較大,原文獻(xiàn)聯(lián)合使用GeneMarks與Glimmer對(duì)比猜測(cè),效果較好;注釋基因數(shù)相差比原文獻(xiàn)多13個(gè),差別不大,原文獻(xiàn)中綜合使用COG與KEGG數(shù)據(jù)庫(kù)對(duì)猜測(cè)到的蛋白序列進(jìn)行注釋,說明RAST注釋結(jié)果還是比較牢靠的。整個(gè)過程只是基因注釋的初始工作,要想得到完整精確的基因注釋結(jié)果,需要使用多個(gè)軟件進(jìn)行注釋,對(duì)于不能精確注釋的基因還需要單獨(dú)進(jìn)行注釋,最終綜合分析得到結(jié)果。參考文獻(xiàn):1.黃勇: 基于高通量測(cè)序的微生物基因組學(xué)爭(zhēng)辯. 中國(guó)人民解放軍軍事醫(yī)學(xué)科學(xué)院, 2013.2.Aziz RK, Bartels D, Best AA, Dejongh M, Disz T, Edwards RA, Formsma K, Gerdes S, Glass EM, Kubal M: The RAST Server: Rapid Ann

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論