生物信息學資源與數據挖掘工具_第1頁
生物信息學資源與數據挖掘工具_第2頁
生物信息學資源與數據挖掘工具_第3頁
生物信息學資源與數據挖掘工具_第4頁
生物信息學資源與數據挖掘工具_第5頁
已閱讀5頁,還剩110頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

生物信息學資源與數據挖掘工具第一頁,共一百一十五頁,2022年,8月28日一、國外重要生物信息中心第二頁,共一百一十五頁,2022年,8月28日NCBI美國國家生物技術信息中心(NationalCenterforBiotechnologyInformation)前身是NIH所屬的一個研究所的計算生物學研究室,1988年獨立為NCBI,形式上屬于國家醫學圖書館(NationalLibraryofMedicine/NLM)管理著許多著名數據庫,如GenBank、Medline、dbSNP、COG、OMIM等提供Entrez、BLAST等服務

第三頁,共一百一十五頁,2022年,8月28日EBI歐洲生物信息學研究所(EuropeanBioinformaticsInstitute)1994年建于英國劍橋,前身是德國海德堡的歐洲分子生物學實驗室的信息服務部門EBI接收了原來EMBL數據庫的管理和維護是歐洲分子生物學網(EMBnet)的一個特別節點(主頁)(工具)(服務)第四頁,共一百一十五頁,2022年,8月28日NIG日本國立遺傳學研究所(NationalInstituteofGenetics)創立于1949年7月1日,屬文部省管轄信息服務始于1984年維護管理著DDBJ1987年1月發行DDBJ第一版第五頁,共一百一十五頁,2022年,8月28日其他重要中心HHMI(HowardHughesMedicalInstitute)[美]MIPS(MunichInformationCenterforProteinSequences)[德]SIB(SwissInstituteofBioinformatics)[瑞士]SWISS-PROT,ExPASy,ENZYME,…NCGR[美],JIPID[日],HGMP[英],BioBase[丹],…第六頁,共一百一十五頁,2022年,8月28日二、數據庫目錄第七頁,共一百一十五頁,2022年,8月28日NAR數據庫專輯從1994年開始,《核酸研究》雜志(NeucleicAcidsResearch)每年第一期是生物數據庫專輯每個專輯大約介紹100多種庫從2000年起,該雜志的出版社(牛津大學出版社)設立了一個數據庫目錄網頁第八頁,共一百一十五頁,2022年,8月28日其他數據庫列表NIH全球數據庫列表CBI的生物數據庫鏡像列表第九頁,共一百一十五頁,2022年,8月28日三、常用序列格式第十頁,共一百一十五頁,2022年,8月28日FASTA序列格式也叫Pearson格式簡單使用最多例子(單序列)>NameofthesequencectgcgagNcgcgcgatgatagMMM-NNNnnnnatgancgcggcgagcatgtagcatgctagctgtcgcgagcactUUUURRRrrrrrrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVvvvcgtaggcagccgcc“-”表示間隔第十一頁,共一百一十五頁,2022年,8月28日多序列FASTA>sequence1,E.colictgcgagNcgcgcgatgatagMMM-NNNngnnatgancgcggcgagcatgtagcatgctagctgtcgcgagcactUgaURRRrrrtrrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVagvcgtaggcagccgcc>sequence2,B.subtilisctgcgagNcgcgcgatgatagctgactNntnatganncgcggcgagcatgtagcatgctagctgtcgcgagcactUctURRRrrrcrrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVcgvcgtaggcagccgcc>sequence3,B.nattoctgcgagNcgcgcgatgatagMcgatcccnatgannncgcggcgagcatgtagcatgctagctgtcgcgagcactUggURRRrrrggrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVaavcgtaggcagccgcc第十二頁,共一百一十五頁,2022年,8月28日FASTA序列格式中的核苷酸表示法A腺嘌呤(adenosine)MA或C(amino)C胞嘧啶(cytidine)SG或C(strong)G鳥嘌呤(guanine)WA或T(weak)T胸腺嘧啶(thymidine)BG或T或CU尿嘧啶(uridine)DG或A或TRG或A(purine)HA或C或TYT或C(pyrimidine)VG或C或AKG或T(keto)NA或G或C或T(any)–不確定長度間隔第十三頁,共一百一十五頁,2022年,8月28日FASTA序列格式中的氨基酸表示法A丙(alanine)P脯(proline)BD或NQ谷氨酰胺(glutamine)C半胱(cystine)R精(arginine)D天冬(asparticacid)S絲(serine)E谷(glutamicacid)T蘇(threonine)F苯丙(phenylalanine)U硒代半胱(selenocysteine)G甘(glycine)V纈(valine)H組(histidine)W色(tryptophan)I異亮(isoleucine)Y酪(tyrosine)K賴(lysine)ZE或QL亮(leucine)X任何氨基(any)M甲硫(methionine)*翻譯終止(translationstop)N天冬酰胺(asparagine)–不確定長度間隔第十四頁,共一百一十五頁,2022年,8月28日PHYLIP序列格式例子515Sequence1agctggcttaaggccSequence2tcggactagagaatcSequence3gggacattacga--tSequence4gaataactag-gactSequence5ag--gata---gaag第一行:序列數和序列長度(包括間隔)每一條序列長度相等第十五頁,共一百一十五頁,2022年,8月28日四、核酸數據庫第十六頁,共一百一十五頁,2022年,8月28日國際核苷酸序列數據庫聯盟InternationalNucleotideSequenceDatabaseCollaboration(INSDC)包括GenBank [美]EMBL [歐]DDBJ [日]每天這三個數據庫作數據同步操作在任何一個數據庫操作(查找、投遞數據等)是等效的第十七頁,共一百一十五頁,2022年,8月28日GenBank

主頁第十八頁,共一百一十五頁,2022年,8月28日GenBank結構GenBank包括三個子數據庫CoreNucleotidedbESTdbGSS其中CoreNucleotide還分為更小的BLAST數據庫nrhtgswgsenv_nt第十九頁,共一百一十五頁,2022年,8月28日GenBank查詢(1)已知收錄號(accessionnumber)的情況選數據庫輸入收錄號查詢結果摘要點擊查看詳細結果第二十頁,共一百一十五頁,2022年,8月28日GenBank查詢查看詳細結果DNA第二十一頁,共一百一十五頁,2022年,8月28日第二十二頁,共一百一十五頁,2022年,8月28日GenBank查詢:Protein第二十三頁,共一百一十五頁,2022年,8月28日GenBank序列格式注釋部分序列部分LOCUSAY513897470bpDNAlinearPLN14-JUN-2004DEFINITIONZeamayssubsp.parviglumisvoucherPI331789RFLPmarkercsu1171.ACCESSIONAY513897VERSIONAY513897.1GI:42405706KEYWORDS.SOURCEZeamayssubsp.parviglumis

ORGANISMZeamayssubsp.parviglumisEukaryota;Viridiplantae;Streptophyta;Embryophyta;Tracheophyta;Spermatophyta;Magnoliophyta;Liliopsida;Poales;Poaceae;PACCADclade;Panicoideae;Andropogoneae;Zea.REFERENCE1(bases1to470)

AUTHORSTenaillon,M.I.,U'Ren,J.,Tenaillon,O.andGaut,B.S.

TITLESelectionVersusDemography:AMultilocusInvestigationoftheDomesticationProcessinMaize

JOURNALMol.Biol.Evol.21(7),1214-1225(2004)

PUBMED15014173REFERENCE2(bases1to470)

AUTHORSTenaillon,M.I.,U'Ren,J.,Tenaillon,O.andGaut,B.S.

TITLEDirectSubmission

JOURNALSubmitted(23-DEC-2003)EcologyandEvolutionaryBiology,UCIrvine,321SteinhausHall,Irvine,CA92697,USAFEATURESLocation/Qualifierssource1..470/organism="Zeamayssubsp.parviglumis"/mol_type="genomicDNA"/cultivar="BenitoJuarez"/sub_species="parviglumis"/specimen_voucher="PI331789(USDA/NCRPIS)"/db_xref="taxon:76912"/chromosome="1"/country="Mexico"misc_feature1..470/note="RFLPmarkercsu1171"ORIGIN

1cagactacgctgaaggcatggtttcttctcagtgtcattcatgctctaaatttgaaattc61aatataggttgtcagcgactacgaaagtttttattgacgatcctcttgcgattctgcagc121tatcaaaggaataaagaccagccaaagacctctagctgtagccgcataaggagctggacg181tgtaatcatttactctgtgcaagtttaccagtgatgcgatctgtatagatgtgtgtcttg241tccagccatacgtataccggagatgaaaggagatggaggcagtgaagaaatatccttttt301tttttcttctcatttttcacgaggatgcggtgcactgctcccagaatgctgtgtccaatt361tacaaacgcacaggtggcatatgaactagcagagtagctttatcttgaaaggaaactgta421tttggggtcgatgaaccctctggtgttattcttcagactggtaaacgatg//第二十四頁,共一百一十五頁,2022年,8月28日GenBank查詢利用Entrezbrowser來查詢各種數據(集成搜索工具)Entrez是美國國家生物技術信息中心所提供的在線資源檢索器。該資源將GenBank序列與其原始文獻出處鏈接在一起。Entrez是由NCBI主持的一個數據庫檢索系統。第二十五頁,共一百一十五頁,2022年,8月28日第二十六頁,共一百一十五頁,2022年,8月28日向GenBank投遞序列GenBank提供多種工具投遞序列,如BankIt(網上投遞)

適于少量的、注釋簡單的序列投遞Sequin(本地投遞;軟件)

適于大量的、復雜的序列投遞 可投遞變異、種系發生、群體數據集 圖形界面操作 選項多、功能強 可向GenBank,EMBL,DDBJ中的任一數據庫投遞第二十七頁,共一百一十五頁,2022年,8月28日BankIt第二十八頁,共一百一十五頁,2022年,8月28日Sequin第二十九頁,共一百一十五頁,2022年,8月28日EMBL

主頁第三十頁,共一百一十五頁,2022年,8月28日DDBJ主頁第三十一頁,共一百一十五頁,2022年,8月28日BioSino是中國自主開發的核酸序列公共數據庫發表我國學者提供的核酸序列,并接受注冊登記有CDNAP和DDIB兩個產品第三十二頁,共一百一十五頁,2022年,8月28日DNA結構數據庫CUTG(CodonUsageTabulatedfromGenBank,密碼子使用頻度表)[日]EPD(EukaryoticPromotorDatabase,真核生物啟動子數據庫)[歐]TRANSFAC(真核生物基因表達調控因子的數據庫)[德]RepBase(重復序列),MicroSatellite(微衛星),COMPEL(復合元件),MPDB(分子探針),dbSTS,dbEST,NDB(晶體),VectorDB(載體),EID(外顯內含子),ASDB(剪接),…第三十三頁,共一百一十五頁,2022年,8月28日RNA序列和核糖體數據庫TheRNASocietysnoRNAsmallRNARNAsePtmRNAgRNA(guideRNA)TransTerm(mRNA)ncRNA(non-coding)RNAmods(modification)tRNA,uRNADB,RDP,SSUrRNA,…第三十四頁,共一百一十五頁,2022年,8月28日基因圖譜數據庫RHdb(輻射雜交;人、鼠)MouseRHGDB(人類)GeneMap(人類;NCBI)第三十五頁,共一百一十五頁,2022年,8月28日GDB(人類基因組)GDB代謝數據庫HGVbase[瑞典](變異,雙等位序列)HGMD[英](變異)hum-molgen(分子遺傳)OMIM(遺傳,變異)HUGE[日](未經證實的編碼基因)CEPHGenotype[法](SNP)、p53[法]HIB[德](來自UniGene)人類基因組相關數據庫第三十六頁,共一百一十五頁,2022年,8月28日其他模式生物的基因組數據庫DOGSDatabaseofGenomeSizes[丹麥]綜合線蟲ACeDB,Sanger果蠅FlyBase,Berkeley小鼠MGD,Japan酵母Stanford,MIPS狗Berkeley大腸桿菌WISC第三十七頁,共一百一十五頁,2022年,8月28日五、蛋白數據庫第三十八頁,共一百一十五頁,2022年,8月28日一級結構二級結構三級結構第三十九頁,共一百一十五頁,2022年,8月28日多級蛋白序列數據庫結構一級(次)序列數據庫PIR(全面,注釋少),MIPS,SWISS-PROT(注釋多),TrEMBL,NRL-3D(三維)序列復合數據庫:NRDB(NCBI,全,更新快),OWL(注釋多,冗余低),MIPSX,SWISS-PROT+TrEMBL(冗余更低)二級(次)序列數據庫PROSITE(motif,MSA),PRINTS(motifs,MSA),BLOCKS(非正則表達式),Profile(全序列),Pfam(HMM)三級(次)序列數據庫:INDENTIFY第四十頁,共一百一十五頁,2022年,8月28日SWISS-PROT蛋白數據庫最重要的是瑞士的SWISS-PROT和美、德、日合建的PIRSWISS-PROT對數據人工審核非常嚴格只有實際存在的蛋白質才被收入每一條數據都有詳細注釋包括功能、結構域、翻譯后的修飾等還有齊全的引文、到許多其他數據庫的鏈接冗余度很低

第四十一頁,共一百一十五頁,2022年,8月28日TrEMBLTrEMBL是由EMBL庫中的核酸序列翻譯出來的氨基酸序列已完成計算機注釋但尚未完成人工審核是SWISS-PROT的補充第四十二頁,共一百一十五頁,2022年,8月28日PIR(1)蛋白質信息資源(proteininformationresource)是一個國際蛋白質序列數據庫包含所有序列已知的自然界中野生型蛋白質的信息提供按同源性和分類學組織的、綜合的、非冗余的數據庫由NBRF(美)、MIPS(德)、JIPID(日)共同維護第四十三頁,共一百一十五頁,2022年,8月28日PIR(2)1984年建立,每周更新內容分四級PIR1完全分類清楚PIR2已檢查和分類PIR3未檢查PIR4未解碼翻譯第四十四頁,共一百一十五頁,2022年,8月28日PROSITE數據來源于SWISS-PROT經生物專家審編,是蛋白質家族和結構域數據庫包含有生物學意義的位點(site)、模式(pattern)、輪廓(profile)可幫助判斷新發現的序列是否屬于已有的蛋白家族第四十五頁,共一百一十五頁,2022年,8月28日由EBI和瑞士創辦有詳細注釋的序列,數據來源于實驗與44個數據庫相互參照(cross-reference)數據庫主頁點擊Access在DatabaseAccess網頁選擇數據庫、輸入關鍵詞檢索到的條目第四十六頁,共一百一十五頁,2022年,8月28日酶數據庫酶的EC號已經清楚的酶被賦予一個有4個數字的號碼如,腺三磷酶(ATPase)的EC號是ENZYME資源:EC號,分類,學名,俗名,所催化的反應,來源,功能,輔助因子,文獻,代謝圖BRENDA(內容廣泛的酶數據庫)第四十七頁,共一百一十五頁,2022年,8月28日PDB(proteindatabank)(1)是重要的蛋白質結構數據庫包含實驗(X射線晶體衍射,核磁共振NMR,電子顯微鏡等)測定的生物大分子的三維結構大分子包括蛋白質,核酸,蛋白復合體等1971年始建于美國布魯克海文國家實驗室1998年起管理交給了RCSBRCSB是結構生物學合作研究組織第四十八頁,共一百一十五頁,2022年,8月28日PDB(2)PDBID一個四位的含有數字和字母的代號如,”9ins”代表insulin檢索可按多種方法檢索:PDBID,名稱等等高級檢索第四十九頁,共一百一十五頁,2022年,8月28日PDB(3)檢索結果第五十頁,共一百一十五頁,2022年,8月28日PDB(4)數據格式

(簡化)HEADERHORMONE23-OCT-919INS9INS2TITLEMONOVALENTCATIONBINDINGINCUBICINSULINCRYSTALS9INSA2COMPNDINSULIN9INS3SOURCEPIG(SUS$SCROFA)9INS4KEYWDSHORMONE9INSA4EXPDTAX-RAYDIFFRACTION9INSB4AUTHORJ.BADGER,G.G.DODSON9INS5REVDAT204-MAY-049INS1TITLEKEYWDSEXPDTAREVDAT9INSA5REVDAT107-NOV-919INS09INS6REMARK19INS7REMARK1REFERENCE19INS8REMARK1AUTHO.GURSKY,Y.LI,J.BADGER,D.L.D.CASPAR9INS9REMARK1REFTOBEPUBLISHED9INS12REMARK1REFN3539INS13REMARK29INS32REMARK2RESOLUTION.1.7ANGSTROMS.9INS33REMARK39INS34REMARK3CHIIIANGLES26.8(20.0)9INS57REMARK49INS58REMARK4SOLVENTVOLUMEIS64PERCENTOFTHECRYSTALVOLUME.9INS63REMARK59INS64REMARK5ENTRYSUPERSEDE5INS.9INS76SEQRES1A21GLYILEVALGLUGLNCYSCYSTHRSERILECYSSERLEU9INS77SEQRES2A21TYRGLNLEUGLUASNTYRCYSASN9INS78SEQRES1B30PHEVALASNGLNHISLEUCYSGLYSERHISLEUVALGLU9INS79SEQRES2B30ALALEUTYRLEUVALCYSGLYGLUARGGLYPHEPHETYR9INS80SEQRES3B30THRPROLYSALA9INS81FTNOTE19INS82FTNOTE29INS86FTNOTE2SEEREMARK5.9INS87FORMUL3HOH*81(H2O1)9INS88HELIX1A11GLYA1ILEA1019INS89HELIX2A12SERA12GLUA1759INS90HELIX3B11SERB9GLYB2019INS91TURN11B1CYSB19ARGB229INS92TURN21B2GLYB20GLYB239INS93SSBOND1CYSA6CYSA119INS94SSBOND2CYSA7CYSB79INS95SSBOND3CYSA20CYSB199INS96CRYST178.90078.90078.90090.0090.0090.00I213249INS97ORIGX11.0000000.0000000.0000000.000009INS98ORIGX20.0000001.0000000.0000000.000009INS99ORIGX30.0000000.0000001.0000000.000009INS100SCALE10.0126740.0000000.0000000.000009INS101SCALE20.0000000.0126740.0000000.000009INS102SCALE30.0000000.0000000.0126740.000009INS103ATOM1NGLYA113.74947.13332.1721.0029.449INS104ATOM2CAGLYA113.95046.14531.0921.0027.619INS105ATOM3CGLYA115.30645.45731.2621.0038.429INS106TER453ALAB309INS556HETATM454OHOH122.10433.47337.9831.0016.569INS557HETATM455OHOH218.60942.63638.4140.506.399INS558HETATM456OHOH320.80332.20720.5331.0028.109INS559CONECT4342769INS638CONECT49482419INS639MASTER7060302065322659INS644END9INS645第五十一頁,共一百一十五頁,2022年,8月28日Pfam蛋白域數據庫五個官方鏡像(US,UK,Swe,Fr,Ko)基于HMMER(SeanEddy)pfam數據庫是一個蛋白質家族大集合,依賴于由多序列比對和隱馬爾可夫模型(HMMs的)。蛋白質中,一般由一個或多個功能區構成,這些區通常被稱為域。結構域的不同組合方式產生的蛋白質在自然界中各種不同。蛋白結構域的鑒別對分析蛋白質的功能來說尤其重要。

第五十二頁,共一百一十五頁,2022年,8月28日Pfam主頁[美]第五十三頁,共一百一十五頁,2022年,8月28日Pfam搜索蛋白域第五十四頁,共一百一十五頁,2022年,8月28日Pfam搜索結果可進一步點擊查看蛋白家族第五十五頁,共一百一十五頁,2022年,8月28日蛋白質組學數據庫COG蛋白質直系同源聚類數據庫BIOBASE的蛋白質組數據庫群HumanPSD(人)YPD,PombePD(酵母)WormPD(線蟲)第五十六頁,共一百一十五頁,2022年,8月28日七、其他數據庫第五十七頁,共一百一十五頁,2022年,8月28日TIGR基因組研究所(TheInstituteforGenomicResearch)是重要的測序中心1992年建立1995年參與完成首次全基因組測序(流感嗜血桿菌)擁有世界最大的cDNA數據庫之一第五十八頁,共一百一十五頁,2022年,8月28日比較基因組學數據庫Genecensus耶魯大學基因組比較數據庫著重于折疊單元的結構對比第五十九頁,共一百一十五頁,2022年,8月28日基因表達數據庫Flyview[德]果蠅NEXTDB[日]線蟲MAGEST[日]海鞘BodyMap[日]人,小鼠AxelDB[法]非洲爪蟾TRIPLES[Yale]酵母EpoDB[美]脊椎動物紅細胞toothexp[芬]牙齒第六十頁,共一百一十五頁,2022年,8月28日HGMD人類基因突變Collagen人類膠原ALFRED人口多樣性、DNA多態性KMDB人類疾病有關的基因突變日本慶應大學醫學院KMearDB,KMeyeDB,KMheartDB,KMbrainDB,KMcancerDB,…OMIA動物Atlas[法]腫瘤,血液,細胞基因突變、病理和免疫數據庫第六十一頁,共一百一十五頁,2022年,8月28日代謝途徑和細胞調控數據庫WIT

EMP

MPW[美]代謝Boehringer

Mannheim

[瑞士]著名代謝掛圖BioCyc

EcoCyc

大腸桿菌MetaCyc

微生物,…KEGG[日]核酸,蛋白,表達,基因組,代謝LIGAND[日]酶反應第六十二頁,共一百一十五頁,2022年,8月28日農牧林相關數據庫AgDB[美]農業資源總清單UKCropNet[英]農作物INE[日]水稻TreeGenesChickG

BASEPiGBASEDogMap第六十三頁,共一百一十五頁,2022年,8月28日生物醫學文獻數據庫MEDLINE3800多種生物醫學期刊(通過PubMed查詢)SCIISI提供的文獻引用檢索(收費)第六十四頁,共一百一十五頁,2022年,8月28日其他數據庫Taxonomy分類學ETI生物多樣性TAED脊索動物,植物的適應性進化RegTransBase原核生物轉錄調節第六十五頁,共一百一十五頁,2022年,8月28日Taxonomy主頁可編程或者點擊這里第六十六頁,共一百一十五頁,2022年,8月28日Taxonomy搜索結果第六十七頁,共一百一十五頁,2022年,8月28日Taxonomy搜索結果(單個物種)第六十八頁,共一百一十五頁,2022年,8月28日序列相似性查詢軟件---BLAST第六十九頁,共一百一十五頁,2022年,8月28日生物序列的相似性相似性(similarity):

是指一種很直接的數量關系,比如部分相同或相似的百分比或其它一些合適的度量。比如說,A序列和B序列的相似性是80%,或者4/5。這是個量化的關系。當然可進行自身局部比較。第七十頁,共一百一十五頁,2022年,8月28日同源性(homology):

指從一些數據中推斷出的兩個基因或蛋白質序列具而共同祖先的結論,屬于質的判斷。就是說A和B的關系上,只有是同源序列,或者非同源序列兩種關系。而說A和B的同源性為80%都是不科學的。生物序列的同源性第七十一頁,共一百一十五頁,2022年,8月28日相似性和同源性關系序列的相似性和序列的同源性有一定的關系,一般來說序列間的相似性越高的話,它們是同源序列的可能性就更高,所以經常可以通過序列的相似性來推測序列是否同源。正因為存在這樣的關系,很多時候對序列的相似性和同源性就沒有做很明顯的區分,造成經常等價混用兩個名詞。所以有出現A序列和B序列的同源性為80%一說。第七十二頁,共一百一十五頁,2022年,8月28日序列相似性比較和序列同源性分析序列相似性比較:就是將待研究序列與DNA或蛋白質序列庫進行比較,用于確定該序列的生物屬性,也就是找出與此序列相似的已知序列是什么。完成這一工作只需要使用兩兩序列比較算法。常用的程序包有BLAST、FASTA等;序列同源性分析:是將待研究序列加入到一組與之同源,但來自不同物種的序列中進行多序列同時比較,以確定該序列與其它序列間的同源性大小。這是理論分析方法中最關鍵的一步。完成這一工作必須使用多序列比較算法。常用的程序包有CLUSTAL等;第七十三頁,共一百一十五頁,2022年,8月28日BLAST簡介BLAST是由美國國立生物技術信息中心(NCBI)開發的一個基于序列相似性的數據庫搜索程序。BLAST是“局部相似性基本查詢工具”(BasicLocalAlignmentSearchTool)的縮寫。第七十四頁,共一百一十五頁,2022年,8月28日Blast是一個序列相似性搜索的程序包,其中包含了很多個獨立的程序,這些程序是根據查詢的對象和數據庫的不同來定義的。如果查詢的序列為核酸,查詢數據庫亦為核酸序列數據庫,那么就應該選擇blastn程序。如果查詢的序列為蛋白質,查詢數據庫亦為蛋白質序列數據庫,那么就應該選擇blastp程序。程序名p查詢序列i數據庫d搜索方法Blastn核酸核酸核酸序列搜索逐一核酸數據庫中的序列Blastp蛋白質蛋白質蛋白質序列搜索逐一蛋白質數據庫中的序列Blastx核酸蛋白質核酸序列6框翻譯成蛋白質序列后和蛋白質數據庫中的序列逐一搜索。TBlastn蛋白質核酸蛋白質序列和核酸數據庫中的核酸序列6框翻譯后的蛋白質序列逐一比對。TBlastx核酸核酸核酸序列6框翻譯成蛋白質序列,與核酸數據庫中核酸序列6框翻譯成的蛋白質序列逐一進行比對。第七十五頁,共一百一十五頁,2022年,8月28日Blast資源1.NCBI主站點:

(網絡版)

(單機版)2.其他站點:

(果蠅)第七十六頁,共一百一十五頁,2022年,8月28日Blast結果給出的信息Blast結果會列出跟查詢序列相似性比較高,符合限定要求的序列結果,根據這些結果可以獲取以下一些信息:查詢序列可能具有某種功能查詢序列可能是來源于某個物種查詢序列可能是某種功能基因的同源基因這些信息都可以應用到后續分析中。第七十七頁,共一百一十五頁,2022年,8月28日兩種版本的Blast比較網絡版本包括NCBI在內的很多網站都提供了在線的blast服務,這也是我們最經常用到的blast服務。網絡版本的blast服務就有方便,容易操作,數據庫同步更新等優點。但是缺點是不利于操作大批量的數據,同時也不能自己定義搜索的數據庫。單機版 單機版的blast可以通過NCBI的ftp站點獲得,有適合不同平臺的版本(包括linux,dos等)。獲得程序的同時必須獲取相應的數據庫才能在本地進行blast分析。單機版的優點是可以處理大批的數據,可以自己定義數據庫,但是需要耗費本地機的大量資源,此外操作也沒有網絡版直觀、方便,需要一定的計算機操作水平。第七十八頁,共一百一十五頁,2022年,8月28日本地WEB版的BLAST

在NCBI的FTP上,在blast程序的目錄下,還提供了一種供用戶在自己的服務器上建立Blast網頁服務的軟件包(wwwblast)。使用該軟件包,用戶可以建立一個簡易的進行Blast運算的網站供實驗室人員使用。用于搜索的數據庫同樣可以靈活的定義。第七十九頁,共一百一十五頁,2022年,8月28日Blast程序評價序列相似性的兩個數據Score:使用打分矩陣對匹配的片段進行打分,這是對各對氨基酸殘基(或堿基)打分求和的結果,一般來說,匹配片段越長、相似性越高則Score值越大。Evalue:在相同長度的情況下,兩個氨基酸殘基(或堿基)隨機排列的序列進行打分,得到上述Score值的概率的大小。E值越小表示隨機情況下得到該Score值的可能性越低。第八十頁,共一百一十五頁,2022年,8月28日網絡BLAST使用流程第八十一頁,共一百一十五頁,2022年,8月28日基因組根據需要選擇程序第八十二頁,共一百一十五頁,2022年,8月28日序列范圍(默認全部)填入查詢(query)的序列選擇搜索數據庫如果接受其他參數默認設置,點擊開始搜索第八十三頁,共一百一十五頁,2022年,8月28日一些過濾選項,包括簡單重復序列,人類基因組中的重復序列等E值上限窗口大小一次顯示的結果數目打分選項第八十四頁,共一百一十五頁,2022年,8月28日遞交序列長度第八十五頁,共一百一十五頁,2022年,8月28日比對結果提交序列信息其他形式結果第八十六頁,共一百一十五頁,2022年,8月28日第八十七頁,共一百一十五頁,2022年,8月28日比對得分提交序列的覆蓋率期望值e匹配序列編號匹配序列描述第八十八頁,共一百一十五頁,2022年,8月28日相似程度最高的序列第八十九頁,共一百一十五頁,2022年,8月28日BLAST流程1.登陸blast主頁2.根據數據類型,選擇合適的程序3.填寫表單信息4.提交任務5.查看和分析結果第九十頁,共一百一十五頁,2022年,8月28日單機版BLAST軟件包使用說明第九十一頁,共一百一十五頁,2022年,8月28日為什么使用單機版BLAST? 特殊的數據庫要求。 涉及序列的隱私與價值。 批量處理 ·························第九十二頁,共一百一十五頁,2022年,8月28日BLAST程序的下載:根據系統選擇程序版本第九十三頁,共一百一十五頁,2022年,8月28日BLAST程序的安裝:解壓后自動生成3個文件夾:bin,data,doc幾個重要程序:formatdb.exeblastall.exe第九十四頁,共一百一十五頁,2022年,8月28日BLAST的使用:

1.打開MS-DOS窗口

2.進入BLAST軟件包目錄第九十五頁,共一百一十五頁,2022年,8月28日BLAST的使用:把將要比對的序列(query)文件和數據庫文件copy到/bin文件夾中序列文件可以是單個序列也可以是多個序列;序列格式使用fasta格式序列文件說明:

prothe.txt:Clostridiumthermocellum基因組蛋白質序列

genthe.txt:Clostridiumthermocellum基因組核酸序列

p825.txt:未知基因的蛋白質序列

n825.txt:位置基因的核酸序列

GHpro.txt:多個糖苷水解酶的蛋白質序列第九十六頁,共一百一十五頁,2022年,8月28日BLAST的使用:1.格式化數據庫文件 formatdb.exe

第九十七頁,共一百一十五頁,2022年,8月28日BLAST的使用:2.程序blastall.exe參數

第九十八頁,共一百一十五頁,2022

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論