




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1第三章
生物信息學數據庫2內容提要主要的生物信息中心生物信息數據庫常見序列格式數據庫信息檢索系統向數據庫提交數據3主要的生物信息中心4主要生物信息中心NCBI美國國家生物技術信息中心,NationalCenterforBiotechnologyInformationNCBI管理著GenBank、UniGene、dbSNP等數據庫,提供Entrez、BLAST等數據庫檢索工具EBI,歐洲生物信息學研究所,EuropeanBioinformaticsInstitute1994年成立于英國劍橋,其前身為位于德國海德堡的歐洲分子生物學實驗室的信息部門。EBI接受了原來EMBL數據庫的管理和維護,并且是歐洲分子生物學網(EMBnet)的一個特別節點。http://www.ebi.ac.uk/EMBnet,歐洲分子生物學信息網建立于1988年,在荷蘭注冊。中國在1996年加入其成員國,EMBnet的中國節點設在北京大學生物信息中心PKUCBI。/5主要生物信息中心EMBL,歐洲分子生物學實驗室,EuropeanMolecularBiologyLaboratory主要實驗室設在德國海德堡http://www.embl-heidelberg.deNIG日本國立遺傳學研究所,NationalInstituteofGenetics維護和管理日本DNA數據庫DDBJ。該數據庫首先反映日本產生的數據,同EMBL、GenBank有合作關系。http://www.ddbj.nig.ac.jp6生物信息數據庫2023/2/57生物分子數據高速增長分子生物學及相關領域研究人員迅速獲得最新實驗數據建立生物分子數據庫2023/2/5生物信息學概論講義8生物信息數據庫生物信息數據庫的特點數據庫的更新速度不斷加快,數據量呈指數增長趨勢數據庫種類的多樣性。生物信息學各類數據庫幾乎覆蓋了生命科學的各個領域核酸序列數據庫蛋白質序列數據庫蛋白質、核酸、多糖三維結構數據庫基因組數據庫……..
9生物信息數據庫生物信息數據庫的特點數據庫的復雜性增加、層次加深數據庫之間相互引用,如PDB與文獻庫、蛋白質二級數據庫、蛋白質結構分類數據庫、蛋白折疊庫等十幾種數據庫直接關聯數據庫使用高度計算機化和網絡化幾乎所有的數據庫都可以在國際互聯網上訪問有的系統則將多個生物信息數據庫整合在一起,形成集成的生物信息數據庫系統
2023/2/5生物信息學概論講義10生物信息數據庫生物信息數據庫的特點面向應用各個數據庫服務器除了提供數據,還提供許多分析工具核酸數據庫提供的序列搜索基因識別程序蛋白質結構數據庫提供的結構比較程序結構模擬程序………
2023/2/5生物信息學概論講義11生物信息數據庫生物信息數據庫分類一次數據庫(primarydatabase)直接來源于實驗獲得的原始數據,只經過簡單的歸類整理和注釋
基本數據庫或初始數據庫三類一次數據庫基因組數據庫
核酸和蛋白質一級結構序列數據庫生物大分子(主要是蛋白質)三維空間結構數據庫
2023/2/5生物信息學概論講義12生物信息數據庫生物信息數據庫分類二次數據庫(secondarydatabase)
對原始生物信息數據進行分析、整理、歸納而形成的數據庫二次數據庫種類繁多以核酸數據庫為基礎構建的二次數據庫以蛋白質序列數據庫為基礎構建的二次數據庫以具有特殊功能的蛋白質為基礎構建的二次數據庫以三維結構原子坐標為基礎構建的數據庫……2023/2/513生物信息學數據庫工具生物信息數據庫染色體核酸蛋白質基因組圖譜DNA序列蛋白質序列蛋白質結構基因組數據庫核酸序列數據庫蛋白質序列數據庫蛋白質結構數據庫二級數據庫復合數據庫基因組作圖序列測定結構測定14從1994年開始,牛津大學出版的“核酸研究(NucleicAcidsResearch)”每年第一期是生物數據庫專輯,對每一個數據庫的性質、內容和更新狀況進行綜合描述。http://www.oup.co.uk/nar/15NAR對數據庫的分類(2006)DNA序列庫/NucleotideSequenceDatabasesRNA序列庫/RNAsequencedatabases蛋白質序列庫/Proteinsequencedatabases結構數據庫/StructureDatabases基因組數據庫/GenomicsDatabases(non-vertebrate)代謝與信號轉導/MetabolicandSignalingPathways人類及其它脊椎動物基因組/HumanandotherVertebrateGenomes人類基因與疾病/HumanGenesandDiseases芯片數據及表達數據/MicroarrayDataandotherGeneExpressionDatabases蛋白質組資源/ProteomicsResources其它分子生物學庫/OtherMolecularBiologyDatabases細胞器數據/Organelledatabases植物數據庫/Plantdatabases免疫學數據庫/Immunologicaldatabases16GenBank美國國家生物技術信息中心的數據庫提供Entrez檢索工具、BLAST序列搜索等服務17EMBL/EBIEMBLDatabase歐洲分子生物學實驗室(EuropeanMolecularBiologyLaboratory)核酸序列數據庫,為歐洲最主要的核酸序列數據庫,世界兩大核酸數據庫之一。目前此數據庫由其分支機構—EBI(theEuropeanBioinformaticsInstitute,歐洲生物情報研究所)維護。北京大學已建立了EMBL中國鏡像數據庫,將該數據庫移植到中國本地,并提供部分的檢索服務http://www.I/mirror/mirror.html18EMBL/EBI19蛋白質序列數據庫UniProtKB/Swiss-Prot蛋白序列數據庫,由日內瓦大學醫學生物化學系(theDepartmentofMedicalBiochemistryoftheUniversityofGeneva)與EMBL(EuropeanMolecularBiologyLaboratory,歐洲分子生物學實驗室)共同維護UniProtKB/Swiss-Prot是對數據人工審讀很嚴格的數據庫,只有實際存在的蛋白質才被收入,每一條數據都有詳細的注釋,包括功能、結構域、翻譯后的修飾等,以及齊全的引文和相關鏈接。http://www.expasy.ch/sprot(北京大學生物信息中心也有鏡像)20蛋白質序列數據庫PIR(ProteinIdentificationResource)維護者為美國華盛頓的全國生物醫學研究基金(NBRF)、德國馬普學會的慕尼黑蛋白質序列信息中心(MIPS)和日本國際蛋白質序列數據庫(JIPID)。包含所有序列已知的自然界中野生型蛋白質的信息,該數據庫的主要目的是提供按同源性和分類學組織的綜合的、非冗余的數據庫。每周更新,每季度發行新版。內容分為四級,即:PIR1(完全分類清楚);PIR2(已檢查和分類);PIR3(未檢查);PIR4(未解碼翻譯)。/
21蛋白質序列數據庫22結構數據庫PDB:/
23文獻數據庫文獻數據庫包含已發表的科技論文的題錄和摘要,有時也提供全文及圖表等信息。可通過標題、文摘、關鍵字或正文、作者、作者單位等字段對文獻數據庫進行檢索。MEDLINE/PubMedISIWebofScienceScienceDirect24文獻數據庫MEDLINE/PubMed文獻數據庫PubMed是NCBI提供的對MEDLINE數據庫的在線訪問服務。PubMed包含了世界上70多個國家出版的4600多種生物醫學期刊的文獻引用和作者信息,總共超過1200萬條文獻引用信息,早期的數據可至20世紀60年代中期。OLDMEDLINE包含150多萬條從1953到1965年間的國際生物醫學期刊文獻引用和原文/PubMed/
25文獻數據庫26文獻數據庫ISIWebofScience通常所說的SCI是其中的一部分我校圖書館有訂閱/
ScienceDirectElsevierScience出版公司的ScienceDirect系統,收錄1,200多種全文電子期刊,學科涵蓋數學、物理、化學、天文學、醫學、生命科學、商業及經濟管理、計算機科學、工程技術、能源科學、環境科學、材料科學、社會科學等。
2728常見序列格式29A-->adenosine/腺嘌呤
M-->AC(amino,氨基)C-->cytidine/胞嘧啶
S-->GC(strong,強鍵)G-->guanine/鳥嘌呤
W-->AT(weak,弱鍵)T-->thymidine/胸腺嘧啶
B-->GTCU-->uridine/尿嘧啶
D-->GATR-->GA(purine,嘌呤) H-->ACTY-->TC(pyrimidine,嘧啶) V-->GCAK-->GT(keto,酮基) N-->AGCT(任意堿基)-gapofindeterminatelength核苷酸IUB/IUPAC代碼NomenclatureandSymbolismforAminoAcidsandPeptideshttp://www.chem.qmul.ac.uk/iupac/AminoAcid/
30Aalanine PprolineBaspartateorasparagines QglutamineCcystine RarginineDaspartate SserineEglutamate TthreonineFphenylalanine UselenocysteineGglycine VvalineHhistidine WtryptophanIisoleucine YtyrosineKlysine ZglutamateorglutamineLleucine XanyMmethionine *translationstopNasparagine -gapofindeterminatelength氨基酸IUB/IUPAC代碼311.RAW序列格式原始序列數據,序列可以是一行也可以是多行,行的長度沒有限制。TTTGATGAAAATCGCTTAGGCCTTGCTCTTCAAACAATCCAGCTTCTTTCACTCTCAAGTTGCAAGAAGCAAGTGTAGCAATGTGCACGCGACAGCCGGGTGTGTGACGCTGGCCAATCAGAGCGCAGAGCTCCGAAAGTTTACCTTTTATGGCTAGAGCCGGCATCTGCCATATAAAAGAGCGCGCCCAGCGTCTCAGCCTCACTTTGAGCACACGCAGCTAGTGCGGAATATCATCTGCCTGTAACCCATTCTCTAAAGTCGACAAACCCCCCCAAACCTAAGGTGAGTTGATCT322.FASTA格式FASTA序列的第一行為描述行描述行的第一個字符必須是大于號“>”,后面可以是任何一個字符串,可以只是序列的名字或者訪問號,也可以包含很多的信息例如GenBank中檢索出的FASTA格式序列通常會把序列的LOCUS、訪問號、以及GenBank格式中的DEFINITION行都寫進去從第二行開始是序列數據序列數據中間可以用回車符分割,序列數據中間不可以有空行。序列中可以使用標準IUB/IUPAC代碼來表示簡并性堿基和氨基酸殘基。通常核苷酸符號大小寫均可,而氨基酸一般用大寫字母,有些程序對大小寫有明確要求。一個FASTA文件里面可以包含多個序列。33FASTA格式示例單個序列核酸序列氨基酸序列34FASTA格式示例多個序列>gi|114736|sp|P22063|AXO1_RATContactin2precursor(Axonin-1)(AxonalglycoproteinTAG-1)(Transientaxonalglycoprotein1)(TAX-1)MGTHARKKASLLLLVLATVALVSSPGWSFAQGTPATFGPIFEEQPIGLLFPEESAEDQVTLACRARASPP……KPPPRRPPGNISWTFSSSSLSLKWDPVVPLRNESTVTGYKMLYQNDLHPTPTLHLTSKNWIEIPVPEDIGHALVQIRTTGPGGDGIPAEVHIVRNGGTSMMVESAAARPAHPGPAFSCMVILMLAGYQKL>gi|127857|sp|P13592|NCA2_HUMANNeuralcelladhesionmolecule1,120kDaisoformprecursor(N-CAM120)(NCAM-120)(CD56antigen)MLQTKDLIWTLFFLGTAVSLQVDIVPSQGEISVGESKFFLCQVAGDAKDKDISWFSPNGEKLTPNQQRISVVWNDDSSSTLTIYNANIDDAGIYKCVVTGEDGSESEATVNVKIFQKLMFKNAPTPQEFREGEDAVIVCD……EPAKGEPSAPKLEGQMGEDGNSIKVNLIKQDDGGSPIRHYLVRYRALSSEWKPEIRLPSGSDHVMLKSLDWNAEYEVYVVAENQQGKSKAAHFVFRTSAQPTAIPATLGGNSASYTFVSLLFSAVTLLLLC>gi|14286138|sp|P20241|NRG_DROMENeuroglianprecursorMWRQSTILAALLVALLCAGSAESKGNRPPRITKQPAPGELLFKVAQQNKESDNPFIIECEADGQPEPEYSWIKNGKKFDWQAYDNRMLRQPGRGTLVITIPKDEDRGHYQCFASNEFGTATSNSVYVRKAELNAFKDEAAKTLEAVEGEPFMLKCAAPDGFPSPTVNWMIQESIDGSIKSINNSRMTLDPEGNLWFSNVTREDASSDFYY……NKSAGRQSVSSANKPGVESDTDSMAEYGDGDTGQFTEDGSFIGQYVPGKLQPPVSPQPLNNSAAAHQAAPTAGGSGAAGSAAAAGASGGASSAGGAAASNGGAAAGAVATYV353.GenBank文件格式GenBank序列文件以純文本方式描述GenBank序列文件由單個的序列條目組成。序列條目由字段組成,以雙斜杠“//”作結束標記。每個字段由關鍵字起始,后面為該字段的具體說明。有些字段又分若干個次子字段,以次關鍵字或特性表說明符開始。序列條目的格式關鍵字從第一列開始,次關鍵字從第三列開始,特性表說明符從第五列開始。每個字段可以占一行,也可以占若干行。若一行中寫不下時,繼續行以空格開始。36GenBank文件格式序列條目的關鍵字包括LOCUS(代碼)DEFINITION(說明)ACCESSION(編號)NID符(核酸標識)KEYWORDS(關鍵詞)SOURCE(數據來源)REFERENCE(文獻)FEATURES(特性表)BASECOUNT(堿基組成)ORIGIN(堿基排列順序)近版的核酸序列數據庫引入新的關鍵詞SV(序列版本號),用“編號.版本號”表示,并取代關鍵詞NID。37GenBank文件格式LOCUSHSU762541230bpDNAPRI05-JAN-1999DEFINITIONHumanneuropeptideYreceptortype2gene,completecds.ACCESSIONU76254NIDg4098211VERSIONU76254.1GI:4098211KEYWORDS.SOURCEhuman.ORGANISMHomosapiensEukaryota;Metazoa;Chordata;Craniata;Vertebrata;Mammalia;Eutheria;Primates;Catarrhini;Hominidae;Homo.REFERENCE1(bases1to1230)AUTHORSZastawny,R.L.TITLEHumanneuropeptideYY2receptorgeneJOURNALUnpublishedREFERENCE2(bases1to1230)AUTHORSZastawny,R.L.TITLEDirectSubmissionJOURNALSubmitted(24-OCT-1996)AllelixBiopharmaceuticalsInc.,6850GorewayDr.,Mississauga,ONL4V1V7,Canada記錄頭部標識行唯一一個必須在所有GenBank記錄中出現的特性序列記錄的生物學意義檢索號1+5或2+6格式384.EMBL文件格式EMBL數據庫的每一個條目是一份純文本文件,每一行最前面是由兩個大寫字母組成的識別標志。識別標志包括ID(序列名稱) DE(序列簡單說明)AC(序列編號) SV(序列版本號) KW(與序列相關的關鍵詞) OS(序列來源的物種名) OC(序列來源的物種學名和分類學位置) RN(相關文獻編號或遞交序列的注冊信息) RA(相關文獻作者或遞交序列的作者) RT(相關文獻題目) RL(相關文獻雜志名或遞交序列的作者單位) RX(相關文獻Mediline引文代碼) RC(相關文獻注釋) RP(相關文獻其他注釋) CC(關于序列的注釋信息) DR(相關數據庫交叉引用號) FH(序列特征表起始) FT(序列特征表子項) SQ(堿基種類統計數)。39IDAF111847standard;RNA;HUM;2788BP.序列名稱和基本性質
XX字段分界標志
ACAF111847序列接受號
XX
SVAF111847.1序列版本
XX
DT14-MAR-2000(Rel.63,Created)序列提交、更新日期
DT09-MAY-2001(Rel.67,Lastupdated,Version3)
XX
DEHomosapiensARFGAP1protein(ARFGAP1)mRNA,completecds.序列性質簡要描述
XX
KW關鍵詞
XX
OSHomosapiens(human)來源種屬
OCEukaryota;Metazoa;Chordata;Craniata;Vertebrata;Euteleostomi;來源分類
OCMammalia;Eutheria;Primates;Catarrhini;Hominidae;Homo.
XX
40RN[1]參考文獻條目
RP1-2788文獻對應序列位置
RXMEDLINE;20171380.文獻交叉索引
RXPUBMED;10704287.
RAZhangC.,YuY.,ZhangS.,LiuM.,XingG.,WeiH.,BiJ.,LiuX.,文獻作者
RAZhouG.,DongC.,HuZ.,ZhangY.,LuoL.,WuC.,ZhaoS.,HeF.;
RT"Characterization,chromosomalassignment,andtissueexpression文獻題目
RTofanovelhumangenebelongingtotheARFGAPfamily";
RLGenomics63(3):400-408(2000).文獻出處
XX
RN[2]
RP1-2788
RAZhangC.,YuY.,ZhangS.,OuyangS.,LuoL.,WeiH.,ZhouG.,
RAZhangY.,LiuM.,HeF.;
RT
RLSubmitted(06-AUG-1999)totheEMBL/GenBank/DDBJdatabases.
RLDept.ofGenomicsandProteomics,InstituteofRadiationMedicine,
RLBeijingTaipingRoad27,Beijing,Beijing100850,P.R.China
XX
DRENSEMBL;ENSG00000100262;ENST00000263245.庫間交叉索引
DRGOA;Q9NP61.
DRSWISS-PROT;Q9NP61;ARG3_HUMAN.
XX41FHKeyLocation/Qualifiers序列性質表頭
FH
FTsource1..2788序列性質數據
FT/chromosome="22“
FT/db_xref="taxon:9606"
FT/mol_type="mRNA“
FT/organism="Homosapiens“
FT/map="22q13.2“
FT/clone="FLB2127“
FT5'UTR1..57
FT/gene="ARFGAP1“
FTCDS58..1608
FT/codon_start=1
FT/db_xref="GOA:Q9NP61“
FT/db_xref="SWISS-PROT:Q9NP61“
FT/evidence=NOT_EXPERIMENTAL
FT/gene="ARFGAP1“
FT/product="ARFGAP1protein“
FT/protein_id="AAF40310.1"
FT/translation="MGDPSKQDILTIFKRLRSVPTNKVCFDCGAKNPSWASITYGVFLC
FTIDCSGSHRSLGVHLSFIRSTELDSNWSWFQLRCMQVGGNASASSFFHQHGCSTNDTNAK
FTYNSRAAQLYREKIKSLASQATRKHGTDLWLDSCVVPPLSPPPKEEDFFASHVSPEVSDT
FTAWASAIAEPSSLTSRPVETTLENNEGGQEQGPSVEGLNVPTKATLEVSSIIKKKPNQAK
FTKGLGAKKGSLGAQKLANTCFNEIEKQAQAADKMKEQEDLAKVVSKEESIVSSLRLAYKD
FTLEIQMKKDEKMNISGKKNVDSDRLGMGFGNCRSVISHSVTSDMQTIEQESPIMAKPRKK
FTYNDDSDDSYFTSSSSYFDEPVELRSSSFSSWDDSSDSYWKKETSKDTETVLKTTGYSDR
FTPTARRKPDYEPVENTDEAQKKFGNVKAISSDMYFGRQSQADYETRARLERLSASSSISS
FTADLFEEPRKQPAGNYSLSSVLPNAPDMAQFKQGVRSVAGKLSVFANGVVTSIQDRYGS"
FT3'UTR1609..2788
FT/gene="ARFGAP1"
XX42SQSequence2788BP;914A;531C;602G;74
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 辦公室轉租憑合同范本
- 打孔施工合同責任協議書
- 公司聘用電工合同范本
- 煤炭購銷合同保密協議書
- 個人店面出租合同范本
- 小吃合作伙伴合同范本
- 交通事故協商理賠協議書
- 智慧水務系統合同范本
- 培訓機構合同入股協議書
- 店鋪轉讓分期合同范本
- 中職電子類面試題及答案
- 作風建設學習教育讀書班交流發言提綱
- 2025年社會工作者職業水平考試中級實務模擬試卷:社會工作專業能力與團隊協作能力試題
- 2025年《AI人工智能知識競賽》題庫及答案解析
- 全國公開課一等獎人教版小學數學五年級下冊《數學廣角-找次品》課件
- 2022年高中物理同步講義(選修性必修3)第11講-熱力學第一定律(原卷版)
- 電工電焊工安全培訓
- 2025年中鹽京津冀鹽業限責任公司校園招聘管理單位筆試遴選500模擬題附帶答案詳解
- 2024年浙江省中考社會(開卷)真題卷及答案解析
- 建筑施工企業安全管理組織機構及主要職責
- Java面試寶典2024版資料
評論
0/150
提交評論