




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
生物信息學的數據庫§2.1數據庫簡介基因和基因組數據庫
近年來大量生物學實驗的數據積累,形成了當前數以百計的生物信息數據庫。它們各自按一定的目標收集和整理生物學實驗數據,并提供相關的數據查詢、數據處理的服務。隨著因特網的普及,這些數據庫大多可以通過網絡來訪問,或者通過網絡下載。一般而言,這些生物信息數據庫可以分為一級數據庫和二級數據庫。一級數據庫的數據都直接來源于實驗獲得的原始數據,只經過簡單的歸類整理和注釋;二級數據庫是在一級數據庫、實驗數據和理論分析的基礎上針對特定目標衍生而來,是對生物學知識和信息的進一步整理。國際上著名的一級核酸數據庫有Genbank數據庫、EMBL核酸庫和DDBJ庫等;蛋白質序列數據庫有SWISS-PROT、PIR等;蛋白質結構庫有PDB等。國際上二級生物學數據庫非常多,它們因針對不同的研究內容和需要而各具特色,如人類基因組圖譜庫GDB、轉錄因子和結合位點庫TRANSFAC、蛋白質結構家族分類庫SCOP等等建立分子生物信息數據庫的流程圖1.GenBank(美國國家生物技術信息中心,NCBI)1980sNIH(NationalInstituteofHealth)LosAlamosNationalLabNCBI(NationalCenterforBiotechnologyInformation)NLM(NationalLibraryofMedicine)
Genbank庫包含了所有已知的核酸序列和蛋白質序列,以及與它們相關的文獻著作和生物學注釋。它是由美國國立生物技術信息中心(NCBI)建立和維護的。它的數據直接來源于測序工作者提交的序列;由測序中心提交的大量EST序列和其它測序數據;以及與其它數據機構協作交換數據而來。Genbank每天都會與歐洲分子生物學實驗室(EMBL)的數據庫,和日本的DNA數據庫(DDBJ)交換數據,使這三個數據庫的數據同步。到1999年8月,Genbank中收集的序列數量達到460萬條,34億個堿基,到2005年,超過100gigabase。而且數據增長的速度還在不斷加快。Genbank的數據可以從NCBI的FTP服務器上免費下載完整的庫,或下載積累的新數據。NCBI還提供廣泛的數據查詢、序列相似性搜索以及其它分析服務,用戶可以從NCBI的主頁上找到這些服務。Genbank庫里的數據按來源于約55,000個物種,其中56%是人類的基因組序列(所有序列中的34%是人類的EST序列)。每條Genbank數據記錄包含了對序列的簡要描述,它的科學命名,物種分類名稱,參考文獻,序列特征表,以及序列本身。序列特征表里包含對序列生物學特征注釋如:編碼區、轉錄單元、重復區域、突變位點或修飾位點等。所有數據記錄被劃分在若干個文件里,如細菌類、病毒類、靈長類、嚙齒類,以及EST數據、基因組測序數據、大規模基因組序列數據等16類,其中EST數據等又被各自分成若干個文件。
向Genbank提交序列數據測序工作者可以把自己工作中獲得的新序列提交給NCBI,添加到Genbank數據庫。這個任務可以由基于Web界面的BankIt或獨立程序Sequin來完成。BankIt是一系列表單,包括聯絡信息、發布要求、引用參考信息、序列來源信息、以及序列本身的信息等。用戶提交序列后,會從電子郵件收到自動生成的數據條目,Genbank的新序列編號,以及完成注釋后的完整的數據記錄。用戶還可以在BankIt頁面下修改已經發布序列的信息。BankIt適合于獨立測序工作者提交少量序列,而不適合大量序列的提交,也不適合提交很長的序列,EST序列和GSS序列也不應用BankIt提交。BankIt使用說明和對序列的要求可詳見其主頁面。大量的序列提交可以由Sequin程序完成。Sequin程序能方便的編輯和處理復雜注釋,并包含一系列內建的檢查函數來提高序列的質量保證。它還被設計用于提交來自系統進化、種群和突變研究的序列,可以加入比對的數據。Sequin除了用于編輯和修改序列數據記錄,還可以用于序列的分析,任何以FASTA或ASN.1格式序列為輸入數據的序列分析程序都可以整合到Sequin程序下。在不同操作系統下運行的Sequin程序都可以在/sequin/下找到,Sequin的使用說明可詳見其網頁。NCBI的網址是:。BankIt的網址是:/BankIt。Sequin的相關網址是:/Sequin/2.EMBL核酸序列數據庫EMBL核酸序列數據庫由歐洲生物信息學研究所(EBI)維護的核酸序列數據構成,由于與Genbank和DDBJ的數據合作交換,它也是一個全面的核酸序列數據庫。該數據庫由Oracal數據庫系統管理維護,查詢檢索可以通過通過因特網上的序列提取系統(SRS)服務完成。向EMBL核酸序列數據庫提交序列可以通過基于Web的WEBIN工具,也可以用Sequin軟件來完成。數據庫網址是:http://www.ebi.ac.uk。SRS的網址是:http://srs.ebi.ac.uk/。WEBIN的網址是:http://www.ebi.ac.uk/ena。
EMBL(歐洲分子生物學實驗室,EMBL)
1982EuropeanMolecularBiologyLaboratoryEBI(EuropeanBioinformaticsInstitute)
EMBL網址http://www.ebi.ac.uk3.DDBJ數據庫日本DNA數據庫(DDBJ)也是一個全面的核酸序列數據庫,與Genbank和EMBL核酸庫合作交換數據。可以使用其主頁上提供的SRS工具進行數據檢索和序列分析??梢杂肧equin軟件向該數據庫提交序列。DDBJ的網址是:http://www.ddbj.nig.ac.jp/。
DDBJ(日本國家遺傳學研究所,NIG)
1986DatabankofJapanNIG(NationalInstituteofGenetics)
DDBJ網址http://www.ddbj.nig.ac.jp蛋白質數據庫1.PIR和PSDPIR國際蛋白質序列數據庫(PSD)是由蛋白質信息資源(PIR)、慕尼黑蛋白質序列信息中心(MIPS)和日本國際蛋白質序列數據庫(JIPID)共同維護的國際上最大的公共蛋白質序列數據庫。這是一個全面的、經過注釋的、非冗余的蛋白質序列數據庫,包含超過142,000條蛋白質序列(至99年9月),其中包括來自幾十個完整基因組的蛋白質序列。所有序列數據都經過整理,超過99%的序列已按蛋白質家族分類,一半以上還按蛋白質超家族進行了分類。PSD的注釋中還包括對許多序列、結構、基因組和文獻數據庫的交叉索引,以及數據庫內部條目之間的索引,這些內部索引幫助用戶在包括復合物、酶-底物相互作用、活化和調控級聯和具有共同特征的條目之間方便的檢索。每季度都發行一次完整的數據庫,每周可以得到更新部分。PSD數據庫有幾個輔助數據庫,如基于超家族的非冗余庫等。PIR提供三類序列搜索服務:基于文本的交互式檢索;標準的序列相似性搜索,包括BLAST、FASTA等;結合序列相似性、注釋信息和蛋白質家族信息的高級搜索,包括按注釋分類的相似性搜索、結構域搜索GeneFIND等。PIR和PSD的網址是:/。2.UniProt(SWISS-PROT)UniProt是經過注釋的蛋白質序列數據庫,由歐洲生物信息學研究所(EBI)維護。數據庫由蛋白質序列條目構成,每個條目包含蛋白質序列、引用文獻信息、分類學信息、注釋等,注釋中包括蛋白質的功能、轉錄后修飾、特殊位點和區域、二級結構、四級結構、與其它序列的相似性、序列殘缺與疾病的關系、序列變異體和沖突等信息。UniProt中盡可能減少了冗余序列,并與其它30多個數據建立了交叉引用,其中包括核酸序列庫、蛋白質序列庫和蛋白質結構庫等。利用序列提取系統(SRS)可以方便地檢索UniProt和其它EBI的數據庫。UniProt只接受直接測序獲得的蛋白質序列,序列提交可以在其Web頁面上完成。UniProt的網址是:http://www.ebi.ac.uk/swissprot/。3.PROSITEPROSITE數據庫收集了生物學有顯著意義的蛋白質位點和序列模式,并能根據這些位點和模式快速和可靠地鑒別一個未知功能的蛋白質序列應該屬于哪一個蛋白質家族。有的情況下,某個蛋白質與已知功能蛋白質的整體序列相似性很低,但由于功能的需要保留了與功能密切相關的序列模式,這樣就可能通過PROSITE的搜索找到隱含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位點、配體結合位點、與金屬離子結合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質結合的區域等;除了序列模式之外,PROSITE還包括由多序列比對構建的profile,能更敏感地發現序列與profile的相似性。PROSITE的主頁上提供各種相關檢索服務。PROSITE的網址是:/4.PDB蛋白質數據倉庫(PDB)是國際上唯一的生物大分子結構數據檔案庫,由美國Brookhaven國家實驗室建立。PDB收集的數據來源于X光晶體衍射和核磁共振(NMR)的數據,經過整理和確認后存檔而成。目前PDB數據庫的維護由結構生物信息學研究合作組織(RCSB)負責。RCSB的主服務器和世界各地的鏡像服務器提供數據庫的檢索和下載服務,以及關于PDB數據文件格式和其它文檔的說明,PDB數據還可以從發行的光盤獲得。使用Rasmol等軟件可以在計算機上按PDB文件顯示生物大分子的三維結構。RCSB的PDB數據庫網址是:/pdb/。DavidGoodsell5.SCOP蛋白質結構分類(SCOP)數據庫詳細描述了已知的蛋白質結構之間的關系。分類基于若干層次:家族,描述相近的進化關系;超家族,描述遠源的進化關系;折疊子(fold),描述空間幾何結構的關系;折疊類,所有折疊子被歸于全α、全β、α/β、α+β和多結構域等幾個大類。SCOP還提供一個非冗余的ASTRAIL序列庫,這個庫通常被用來評估各種序列比對算法。此外,SCOP還提供一個PDB-ISL中介序列庫,通過與這個庫中序列的兩兩比對,可以找到與未知結構序列遠緣的已知結構序列。SCOP的網址是:http://scop2.mrc-lmb.cam.ac.uk/6.COG蛋白質直系同源簇(COGs)數據庫是對細菌、藻類和真核生物的21個完整基因組的編碼蛋白,根據系統進化關系分類構建而成。COG庫對于預測單個蛋白質的功能和整個新基因組中蛋白質的功能都很有用。利用COGNITOR程序,可以把某個蛋白質與所有COGs中的蛋白質進行比對,并把它歸入適當的COG簇。COG庫提供了對COG分類數據的檢索和查詢,基于Web的COGNITOR服務,系統進化模式的查詢服務等。COG庫的網址是:/COG。下載COG庫和COGNITOR程序在:/pub/COG7.CATH蛋白質結構分類網站。依據蛋白質的區域結構信息將蛋白質分為不同的亞家族。網址是:/。功能數據庫1.KEGG京都基因和基因組百科全書(KEGG)是系統分析基因功能,聯系基因組信息和功能信息的知識庫。基因組信息存儲在GENES數據庫里,包括完整和部分測序的基因組序列;更高級的功能信息存儲在PATHWAY數據庫里,包括圖解的細胞生化過程如代謝、膜轉運、信號傳遞、細胞周期,還包括同系保守的子通路等信息;KEGG的另一個數據庫是LIGAND,包含關于化學物質、酶分子、酶反應等信息。KEGG提供了Java的圖形工具來訪問基因組圖譜,比較基因組圖譜和操作表達圖譜,以及其它序列比較、圖形比較和通路計算的工具,可以免費獲取。KEGG的網址是:http://www.genome.ad.jp/kegg/。2.DIP相互作用的蛋白質數據庫(DIP)收集了由實驗驗證的蛋白質-蛋白質相互作用。數據庫包括蛋白質的信息、相互作用的信息和檢測相互作用的實驗技術三個部分。用戶可以根據蛋白質、生物物種、蛋白質超家族、關鍵詞、實驗技術或引用文獻來查詢DIP數據庫。DIP的網址是:/。3.ASDB可變剪接數據庫(ASDB)包括蛋白質庫和核酸庫兩部分。ASDB(蛋白質)部分來源于SWISS-PROT蛋白質序列庫,通過選取有可變剪接注釋的序列,搜索相關可變剪接的序列,經過序列比對、篩選和分類構建而成。ASDB(核酸)部分來自Genbank中提及和注釋的可變剪接的完整基因構成。數據庫提供了方便的搜索服務。ASDB的網址是:/asdb。(/fastdb2/frame.html)4.TRRD轉錄調控區數據庫(TRRD)是在不斷積累的真核生物基因調控區結構-功能特性信息基礎上構建的。每一個TRRD的條目里包含特定基因各種結構-功能特性:轉錄因子結合位點、啟動子、增強子、靜默子、以及基因表達調控模式等。TRRD包括五個相關的數據表:TRRDGENES(包含所有TRRD庫基因的基本信息和調控單元信息);TRRDSITES(包括調控因子結合位點的具體信息);TRRDFACTORS(包括TRRD中與各個位點結合的調控因子的具體信息);TRRDEXP(包括對基因表達模式的具體描述);TRRDBIB(包括所有注釋涉及的參考文獻)。TRRD主頁提供了對這幾個數據表的檢索服務。TRRD的網址是:http://wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/。5.TRANSFACTRANSFAC數據庫是關于轉錄因子、它們在基因組上的結合位點和與DNA結合的profiles的數據庫。由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等數據表構成。此外,還有幾個與TRANSFAC密切相關的擴展庫:PATHODB庫收集了可能導致病態的突變的轉錄因子和結合位點;SMARTDB收集了與染色體結構變化相關的蛋白因子和位點的信息;TRANSPATH庫用于描述與轉錄因子調控相關的信號傳遞的網絡;CYTOMER庫表現了人類轉錄因子在各個器官、細胞類型、生理系統和發育時期的表達狀況。TRANSFAC及其相關數據庫可以免費下載,也可以通過Web進行檢索和查詢。TRANSFAC的網址是:/index2其它數據庫資源PubMedPubMed是NCBI維護的文獻引用數據庫,提供對MEDLINE、Pre-MEDLINE等文獻數據庫的引用查詢和對大量網絡科學類電子期刊的鏈接。利用Entrez系統可以對PubMed進行方便的查詢檢索。PubMed的網址是:/。除了以上提及的數據之外,還有許許多多的專門生物信息數據庫,涉及了目前生物學研究的各個層面和領域,由于篇幅所限無法一一詳述。國內也有一些大數據庫的鏡像站點和自己開發的有特色的數據庫,如歐洲分子生物學網絡組織EMBNet中國節點北京大學分子生物信息鏡像系統,上海博容基因公司與上海嘉瑞軟件公司合作開發的國產漢化基因數據庫及分析管理系統,同時國家級的生物信息學中心也在籌建之中。我們期待國內能有更多高質量和使用便利的數據庫資源,推動我國生物信息學和整個生命科學的發展。清華大學生物信息學研究所網址:北京大學生物信息鏡像系統網址:§2.2數據庫格式簡介歷史原因:沒有完全統一的數據庫格式;了解所用數據庫格式的重要性一般由兩部分組成:文字注釋內容(序列,……)
EMBL和GenBank數據庫的主要內容和格式
序列名稱、長度、日期序列說明、編號、版本號物種來源、學名、分類學位置相關文獻作者、題目、刊物、日期序列特征表堿基組成序列(每行60個堿基)
實例:
E.colik-12全基因組序列文件例子:EMBL和GenBank數據庫的格式LOCUSU000964639221bpDNAcircularBCT18-NOV-1998DEFINITIONEscherichiacoliK-12MG1655completegenome.ACCESSIONU00096KEYWORDS.SOURCEEscherichiacoli.ORGANISMEscherichiacoliBacteria;Proteobacteria;gammasubdivision;Enterobacteriaceae;Escherichia.REFERENCE1(bases1to4639221)AUTHORSBlattner,F.R.,Plunkett,G.III,Bloch,C.A.,Perna,N.T.,Burland,V.,…TITLEThecompletegenomesequenceofEscherichiacoliK-12JOURNALScience277(5331),1453-1474(1997)MEDLINE97426617…COMMENTThissequencewasdeterminedbytheE.coliGenomeProjectattheUniversityofWisconsin-Madison(FrederickR.Blattner,director).SupportedbyNIHgrantsHG00301andHG01428(fromHumanGenomeProjectandNCHGR).TheentiresequencewasindependentlydeterminedfromE.coliK-12strainMG1655.PredictedopenreadingframesweredeterminedusingGeneMarksoftware,kindlysuppliedby…FEATURESLocation/Qualifierssource1..4639221/organism="Escherichiacoli"/strain="K-12“/sub_strain="MG1655"/db_xref="taxon:562"promoter71..99/note="factorSigma70;predicted+1startat106"promoter104..132/note="factorSigma70;predicted+1startat139"promoter188..212/note="factorSigma32;predicted+1startat219"gene190..255/note="b0001"/gene="thrL"CDS190..255/gene="thrL"/function="leader;Aminoacidbiosynthesis:Threonine"/note="o21;100pctidenticaltoLPT_ECOLISW:P03059"/codon_start=1/transl_table=11/product="throperonleaderpeptide"/db_xref="PID:g1786182"/translation="MKRISTTITTTITITTGNGAG“…BASECOUNT1142136a1179433c1176775g1140877tORIGIN1agcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtc61tgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgacttagg121tcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtac181acaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattaccacaggt241aacggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcggg301ctttttttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggcggt361acatcagtggcaaatgcagaacgttttctgcgtgttgccgatattctggaaagcaatgcc421aggcaggggcaggtggccaccgtcctctctgcccccgccaaaatcaccaaccacctggtg……4639021caacatcaactgcaagctttacgcgaacgagccatgacattgctgacgactctggcagtg4639081gcagatgacataaaactggtcgactggttacaacaacgcctggggcttttagagcaacga4639141gacacggcaatgttgcaccgtttgctgcatgatattgaaaaaaatatcaccaaataaaaa4639201acgccttagtaagtatttttc//IDU00096standard;circulargenomicDNA;CON;4639221BP.ACU00096;SVU00096.1DT24-JUL-2003(Rel.76,Lastupdated,Version3)DEEscherichiacoliK-12MG1655completegenome.KW.OSEscherichiacoliK12OCBacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;OCEnterobacteriaceae;Escherichia;Escherichiacoli.RN[1]RP1-4639221RXMEDLINE;97426617.RXPUBMED;9278503.RABlattnerF.R.,PlunkettG.III,BlochC.A.,PernaN.T.,BurlandV.,…RT"ThecompletegenomesequenceofEscherichiacoliK-12";RLScience277(5331):1453-1474(1997).DRGOA;O32528.DRREMTREMBL;AAC74436;AAC74436.DRSPTREMBL;O32530;O32530.DRSWISS-PROT;O32528;YPDI_ECOLI.…CCThissequencewasdeterminedbytheE.coliGenomeProjectattheCCUniversityofWisconsin-Madison(FrederickR.Blattner,director).CCSupportedbyNIHgrantsHG00301andHG01428(fromtheHumanGenomeCCProjectandNCHGR).TheentiresequencewasindependentlyCCdeterminedfromE.coliK-12strainMG1655.PredictedopenreadingCCframesweredeterminedusingGeneMarksoftware,kindlysuppliedby…FHKeyLocation/QualifiersFTsource1..4639221FT/db_xref="taxon:83333"FT/mol_type="genomicDNA"FT/organism="EscherichiacoliK12"FT/strain="K12"FT/sub_strain="MG1655"FTpromoter71..99FT/note="factorSigma70;predicted+1startat106"…FTCDS190..255FT/codon_start=1FT/db_xref="GOA:P03059"FT/db_xref="SWISS-PROT:P03059"FT/note="o21;100pctidenticaltoLPT_ECOLISW:P03059"FT/transl_table=11FT/gene="thrL"FT/function="leader;Aminoacidbiosynthesis:Threonine"FT/product="throperonleaderpeptide"FT/protein_id="AAC73112.1"FT/translation="MKRISTTITTTITITTGNGAG“…SQSequence4639221BP;1142136A;1179433C;1176775G;1140877T;0other;agcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtc60tgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgacttagg120tcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtac180acaacatccatgaaac
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 吉林省長春市名校調研系列卷(市命題)2024-2025學年初三總復習質量檢測試題(一)生物試題含解析
- 山西機電職業技術學院《代數學》2023-2024學年第一學期期末試卷
- 西藏林芝地區第一中學2025屆高三全真模擬試卷生物試題含解析
- 西藏藏醫藥大學《播音主持語音與發聲》2023-2024學年第二學期期末試卷
- 九江職業大學《刑法分論專題》2023-2024學年第二學期期末試卷
- 江蘇省蘇州市高新區達標名校2025屆初三第二次質量監測英語試題含答案
- 上海市嘉定區封浜高中2025屆高考原創信息試卷物理試題(四)含解析
- 山東省濱州鄒平市2024-2025學年六年級下學期調研數學試卷含解析
- 浙江省嘉興市嘉善高級中學2025屆高三3月月考化學試題(A卷)試卷含解析
- 濰坊市昌樂縣2025屆五下數學期末質量跟蹤監視試題含答案
- 公路工程施工現場環境保護措施方案
- 湖北省武漢市江夏區2023-2024學年七年級下學期月3月月考數學試卷(含答案)
- 授權他人使用車輛委托書
- 強制執行申請書(勞動仲裁)
- 高中語文中職語文《廉頗藺相如列傳》課件-完美版
- FZT 74005-2016 針織瑜伽服行業標準
- 2024年湖北省武漢市高考數學一調試卷
- 13區域分析與區域規劃(第三版)電子教案(第十三章)
- JJG 4-2015鋼卷尺行業標準
- 《公路橋涵養護規范》(JTG5120-2021)
- 晉升羽毛球一級裁判員考試試題
評論
0/150
提交評論