第三章核酸數據庫的應用_第1頁
第三章核酸數據庫的應用_第2頁
第三章核酸數據庫的應用_第3頁
第三章核酸數據庫的應用_第4頁
第三章核酸數據庫的應用_第5頁
已閱讀5頁,還剩72頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第三章第三章 核酸數據庫的應用核酸數據庫的應用 數據庫涉及到的內容主要包括兩大部分:數據庫涉及到的內容主要包括兩大部分:數據庫組織和數據庫開發工具。數據庫組織和數據庫開發工具。就核酸數據就核酸數據庫而言,前者有庫而言,前者有NCBINCBI、EBIEBI以及日本生物信息以及日本生物信息學服務器學服務器等;后者包括等;后者包括序列相似性搜索基本序列相似性搜索基本工具工具EntrezEntrez,BLASTBLAST和和FASTAFASTA。 核酸數據庫的應用包括兩個主要方面,即核酸數據庫的應用包括兩個主要方面,即數據庫查詢(數據庫查詢(database querydatabase query)和

2、數據庫搜)和數據庫搜索(索(database searchdatabase search)。)。 數據庫查詢和數據庫搜索數據庫查詢和數據庫搜索是分子生物信息是分子生物信息學中兩個常用序語。學中兩個常用序語。 數據庫查詢是指數據庫查詢是指對序列、結構以及各種二對序列、結構以及各種二級數據庫中的注釋信息進行關鍵詞匹配查找。級數據庫中的注釋信息進行關鍵詞匹配查找。 數據庫搜索是指數據庫搜索是指通過特定的序列相似性比通過特定的序列相似性比對算法,找出核酸或蛋白質序列數據庫中與檢對算法,找出核酸或蛋白質序列數據庫中與檢測序列具有一定程度相似性的序列。測序列具有一定程度相似性的序列。第一節第一節 常用的核

3、酸數據庫常用的核酸數據庫 一、一、GenBankGenBankNCBINCBI核酸序列數據庫核酸序列數據庫1 1、 GenBankGenBank核酸序列數據庫的檢索核酸序列數據庫的檢索GenBank數據庫的數據庫的簡單查詢簡單查詢是是在在NCBI首頁上的首頁上的Search中中直接查詢直接查詢檢索窗口利用著者進行查詢時,輸入格式應為作者利用著者進行查詢時,輸入格式應為作者的姓加上名的縮寫。如:的姓加上名的縮寫。如: ThomasThomas點擊點擊點擊點擊也可以用序列登記號(也可以用序列登記號(accession numberaccession number)進)進行一般查詢,如:行一般查詢,

4、如:AF477385AF477385點擊點擊 高級檢索是通過高級檢索是通過NCBINCBI的的EntrezEntrez檢索系統檢索系統實實現。現。EntrezEntrez是是NCBINCBI的數據庫檢索查詢系統的的數據庫檢索查詢系統的核心。核心。 利用利用EntrezEntrez系統,可以檢索系統,可以檢索GenBankGenBank和其和其他數據庫的蛋白質序列數據、基因組圖譜數據、他數據庫的蛋白質序列數據、基因組圖譜數據、來自分子模型數據庫(來自分子模型數據庫(MMDBMMDB)的蛋白質三維)的蛋白質三維結構數據、種群序列數據集,以及有結構數據、種群序列數據集,以及有PubmedPubmed

5、獲得獲得MedlineMedline的生物醫學文獻數據。的生物醫學文獻數據。EntrezEntrez提供方便實用的檢索服務,所有操提供方便實用的檢索服務,所有操作都可以在網絡瀏覽器上完成。利用作都可以在網絡瀏覽器上完成。利用EntrezEntrez界面提供的限制條件(界面提供的限制條件(Limit鍵)、鍵)、索引(索引(Index鍵)、檢索歷史(鍵)、檢索歷史(History鍵)鍵)和剪貼板(和剪貼板(Clipboard鍵)等功能實現復雜鍵)等功能實現復雜的檢索查詢工作。的檢索查詢工作。 進入進入NCBINCBI的的EntrezEntrez主頁,用戶可以選擇組主頁,用戶可以選擇組成成Entre

6、zEntrez系統的系統的五個數據庫五個數據庫之一作為查詢起之一作為查詢起點。如以點。如以NucleotideNucleotide開始。選擇開始。選擇NucleotideNucleotide即進入即進入Entrez Nucleotide searchEntrez Nucleotide search界面,點界面,點擊擊LimitsLimits進入限定檢索界面。如上圖。完成進入限定檢索界面。如上圖。完成各各限制條件限制條件后,點擊后,點擊GoGo即進行檢索。即進行檢索。2、NCBI中的中的GenBank數據的格式數據的格式LOCUS DEFINITION 序列名稱序列名稱 基因定義基因定義ACCE

7、SSION 序列編號序列編號 序列接受號或登記號序列接受號或登記號VERSION 序列版本號序列版本號DATE 序列提交、創建和更新日期序列提交、創建和更新日期DISCRIPTION 序列簡要描述序列簡要描述KEYWORDS 與序列相關的關鍵詞與序列相關的關鍵詞SOURCE 序列的來源種屬序列的來源種屬ORGANISM 序列的來源分類序列的來源分類REFERENCE 參考文獻編號或遞交序列信息參考文獻編號或遞交序列信息REMARK 參考文獻評述參考文獻評述MEDLINE 參考文獻交叉索引或遞交序列在參考文獻交叉索引或遞交序列在Medline 中的存取號中的存取號TITLEAUTHER 參考文獻

8、作者或遞交序列作者參考文獻作者或遞交序列作者TITLE 參考文獻題目參考文獻題目JOURNAL 參考文獻出處參考文獻出處FEATURES 序列特征表起始序列特征表起始 COMMENT 序列注釋信息序列注釋信息BASE COUNT 序列起始標序列起始標志ORIGEN 序列數據序列數據 LOCUS TG29 EDGP 839bp DNA linear INV18-APR-1998DEFINITIONToxoplasma gondii DNA encodinga29kD GRA.ACCESSION Y13863VERSION Y13863.1GI:2231107KEYWORDS 29kDa prot

9、ein;dense granule protein;p29gene.SOURCE Toxoplasma gondiiORGANISM ToxoplasmagondiiEukaryota;Alveolata;Apicomplexa;Coccidia;Eimeriida;Sarcocystidae;Toxoplasma.REFERENCE1(bases1to839)AUTHORSFischer,H.G.,Stachelhaus,S.,Sahm,M.,et al.TITLEGRA7,JOURNAL Mol.Biochem.Parasitol.91(2),251-262(1998)PUBMED 956

10、6518 1:Y13863.ReportsToxoplasmagondii.gi:2231107REFERENCE2(bases1to839)AUTHORSFischer,H.G.TITLEDirectSubmissionJOURNALSubmitted(16-JUN-997)FischerH.G.,InstituteforMedicalMicrobiology and Virology,Heinrich-Heine-UniversitaetDuesseldorf,Universitaetsstr.1,D-40225Duesseldorf40225GERMANYFEATURES Locatio

11、n/QualifiersCDSCDS 79.78979.789EntrezEntrez生命科學搜索引擎生命科學搜索引擎檢索字段限制分子類型選擇基因位置限定序列片段限定數據更新日期限定功能欄核酸序列檢索核酸序列檢索序列存取號基因定義數據庫標識符代碼物種來源參考文獻特性專業評論堿基數原序列復制后,可到BLAST中進行相似性對比二、二、EMBL歐洲核酸數據庫歐洲核酸數據庫EMBL數據庫共有數據庫共有Genomes、Simple sequence retrieval 和和SRS(序列提取系統)(序列提取系統)三種檢索方式。三種檢索方式。1、Genomes 提供已完成測序的基因組數據,提供已完成測序的基

12、因組數據,用戶可以通過生物分類名稱以分層點擊瀏覽用戶可以通過生物分類名稱以分層點擊瀏覽的方式獲取相關信息,通過相關鏈接,用戶的方式獲取相關信息,通過相關鏈接,用戶可獲得大量已完成測序的基因組數據。可獲得大量已完成測序的基因組數據。網址為:網址為:http:/www.ebi.ac.uk/genomes2、Simple sequence retrieval:直接輸入序直接輸入序列接受號檢索核酸序列。列接受號檢索核酸序列。網址網址:http:/www.ebi.ac.uk/cgi-bin/emblfetch3、SRS(序列提取系統)(序列提取系統):是目前生物信是目前生物信息界應用最為廣泛的數據庫系統

13、。息界應用最為廣泛的數據庫系統。網址:網址:http:/srs.ebi.ac.uk/檢索序列時只需用鼠標點擊檢索序列時只需用鼠標點擊“Search”,在輸入框中輸入擬檢索的信息即可。在輸入框中輸入擬檢索的信息即可。SRS的的 詳細信息參見:詳細信息參見:http:/www.sanger.ac.uk/srs/srsman.html三、三、DDBJ日本日本DNA數據庫數據庫包括包括GetentryGetentry、SRSSRS、AfgateAfgateTAISTAIS、HomologyHomology等幾種方法。前四種用于檢索等幾種方法。前四種用于檢索DDBJDDBJ數據庫中原數據庫中原始數據,始

14、數據, HomologyHomology采用采用FASTA/BLASTFASTA/BLAST檢索對用檢索對用戶提供的序列或片段做同源性分析。戶提供的序列或片段做同源性分析。1 1、GetentryGetentry:通過登錄號檢索:通過登錄號檢索DDBJDDBJ核酸數據核酸數據庫,最多可同時輸入庫,最多可同時輸入1010個號碼進行檢索,各號個號碼進行檢索,各號碼之間用空格或碼之間用空格或“,”分隔,連續號碼可用分隔,連續號碼可用“- -”表示。還可用表示。還可用Locus nameLocus name、Gene nameGene name、Product nameProduct name、P-I

15、DP-ID、Clone numberClone number和和PatentPatent號等檢索。號等檢索。2 2、SRSSRS:有快速檢索和高級檢索兩種途徑。快:有快速檢索和高級檢索兩種途徑。快速檢索可同時選擇多個數據庫進行檢索,并且速檢索可同時選擇多個數據庫進行檢索,并且它只對來自它只對來自“IDID”、“MoleculeMolecule”、“DiscriptionDiscription”、“AccNumberAccNumber”、“KeywordsKeywords”、“SourceSource”“OrganismOrganism”、“AuthorsAuthors”、“TitleTitle

16、”及及“CommentComment”等等1010個默認字段的信息進行檢索。個默認字段的信息進行檢索。3 3、AfgateAfgateTAISTAIS:比較簡單的關鍵詞檢索途徑,:比較簡單的關鍵詞檢索途徑,在檢索框內輸入檢索策略,點擊在檢索框內輸入檢索策略,點擊start searchstart search按鈕即可完成。按鈕即可完成。第二節第二節 常用的常用的RNA數據庫及軟件數據庫及軟件一、一、Transterm-mRNA序列和翻譯調控元件數據庫序列和翻譯調控元件數據庫1、Transterm數據庫簡介數據庫簡介 Transterm數據庫由新西蘭數據庫由新西蘭Otago大學生物化學系大學生物

17、化學系構建并維護,是一個構建并維護,是一個mRNA序列和翻譯調控元件序列和翻譯調控元件數數據庫。據庫。 Transterm設計的目的是研究設計的目的是研究mRNA的構成以及翻的構成以及翻譯過程中的調控信號。譯過程中的調控信號。 Transterm中收錄的中收錄的mRNA序序列包括多種功能成分,既可以對一種物種進行分析,列包括多種功能成分,既可以對一種物種進行分析,也可以借此進行信息查詢。也可以借此進行信息查詢。每一個從每一個從GenBank內提取的內提取的mRNA被分成以下部被分成以下部分:分:功能成分,起始編碼區,終止編碼區,即功能成分,起始編碼區,終止編碼區,即5-UTR、3-UTR和翻譯

18、信號的側翼序列和翻譯信號的側翼序列。網址:網址:http:/www.uther.otago.ac.nz/Transterm.html2、 Transterm數據檢索數據檢索Transterm提供每一物種密碼子使用表格,還提供描提供每一物種密碼子使用表格,還提供描述述mRNA中已知的基序或特征的模式的總結。通過中已知的基序或特征的模式的總結。通過Transterm來源于來源于GenBank的編碼區可被分割為的編碼區可被分割為5側側翼、起始區、全編碼區、終止區、翼、起始區、全編碼區、終止區、3側翼。在側翼。在Transterm的的WWW界面使用與數據庫文件和有關數界面使用與數據庫文件和有關數據庫相

19、關聯的圖表,可以搜索所有或部分數據庫內據庫相關聯的圖表,可以搜索所有或部分數據庫內容,找尋任一條符合條件的模式或用戶自定義的模容,找尋任一條符合條件的模式或用戶自定義的模式。式。二、RDP-11-核糖體數據庫核糖體數據庫由由Maidak等人創建,提供一切與核糖體有等人創建,提供一切與核糖體有關的數據、程序及相關服務計算機程序,包關的數據、程序及相關服務計算機程序,包括括rRNA在線數據分析、進化分類系統樹、在線數據分析、進化分類系統樹、rRNA相似序列的排列、序列注釋、相似序列的排列、序列注釋、rRNA二級結構圖以及各種相似序列比較分析和顯二級結構圖以及各種相似序列比較分析和顯示軟件示軟件。網

20、址:網址:http:/www. 1、簡介、簡介2、 RDP-數據庫提供的分析工具數據庫提供的分析工具(1)Probe Match:分析特異探針在數據庫中出現的頻率分析特異探針在數據庫中出現的頻率(2)Sequence Match:通過通過nearest neighbors算法確定與算法確定與 用戶序列最相近的用戶序列最相近的RDP-序列。序列。(3)Sequence Align:對使用者的數據進行排列,找到與對使用者的數據進行排列,找到與 使用者序列最相近的使用者序列最相近的RDP-序列。序列。(4)Similarity Matrix:計算計算RDP-和和/或使用

21、者序列的或使用者序列的 相似性相似性/不相似性矩陣。不相似性矩陣。(5)Chimera Check:檢查用戶序列是否為嵌合型。檢查用戶序列是否為嵌合型。(6)Alignment Slices:從從RDP-全排列數據庫中抽取興全排列數據庫中抽取興 趣部分,與相鄰序列精簡壓縮為趣部分,與相鄰序列精簡壓縮為 一個序列,突出鄰近序列的差異性一個序列,突出鄰近序列的差異性.(7)Sequence Selection:從動態展示的等級分類中選取從動態展示的等級分類中選取 序列,選出的序列可被下載并序列,選出的序列可被下載并 進行進行RDP-其他軟件分析。其他軟件分析。(8)T-RFLP:以以ABI測序系統

22、格式使用數據,建立一個測序系統格式使用數據,建立一個相似性矩陣。相似性矩陣。(9)TAPT-RFLP:在在RDP數據庫中進行數據庫中進行“T-RFLP實實驗驗”,利于設計與分析。,利于設計與分析。(10)(Sub)Trees:一種一種Java applet,可以用來展示、,可以用來展示、操縱種屬進化系統樹,產生新分支,或選取序列進操縱種屬進化系統樹,產生新分支,或選取序列進行其他的行其他的RDP-分析。分析。(11)PCA(principal Component analysis):對那):對那些較大的序列系統進行圖象化處理,些較大的序列系統進行圖象化處理,PCA可通過網可通過網頁上的頁上的“

23、Sopplementary Material links”找到。找到。三、三、RNARNA二級結構預測二級結構預測 借助計算機生物學可以很好地利用已知的借助計算機生物學可以很好地利用已知的RNARNA序列進行二級結構預測乃至三級結構建模。目序列進行二級結構預測乃至三級結構建模。目前較成熟并實現自動化的軟件主要在前較成熟并實現自動化的軟件主要在二級結構二級結構預測的水平上。預測的水平上。1 1、ViennaRNAViennaRNA軟件包軟件包 綜合了兩種算法來預測綜合了兩種算法來預測RNARNA二級二級結構:一種是最小自由能的動態規劃算法,另一種是結構:一種是最小自由能的動態規劃算法,另一種是M

24、cCaskillMcCaskill的分割函數算法。除的分割函數算法。除RNARNA折疊外,還可計算折疊外,還可計算給定二級結構的給定二級結構的RNARNA能量、能量、RNARNA比熱及采用字符串聯配比熱及采用字符串聯配或編輯計算二級結構間距離,還為反折疊提供一種算或編輯計算二級結構間距離,還為反折疊提供一種算法,搜索給定二級結構的法,搜索給定二級結構的RNARNA序列。序列。2 2、MFOLDMFOLD Zuker Zuker的主頁含眾多的主頁含眾多RNARNA結構站點的超鏈結構站點的超鏈接,作為接,作為RNARNA相關網站的導航站點相關網站的導航站點。該站點可以下載該站點可以下載最新最新mf

25、oldmfold軟件,也可以將序列提交給軟件,也可以將序列提交給ZukerZuker的的mfoldmfold服務器完成。其中服務器完成。其中RNA structure RNA structure 是是ZukerZuker預測預測RNARNA二二級結構的級結構的Windows9X/WindowsNTWindows9X/WindowsNT版本,可以免費下載。版本,可以免費下載。3 3、RNA drawRNA draw 其主頁詳細介紹了程序的安裝、原理、其主頁詳細介紹了程序的安裝、原理、使用和前景。大多數使用和前景。大多數RNARNA二級結構預測均可在大型計二級結構預測均可在大型計算機上完成,一般實

26、驗室不具備這些條件。算機上完成,一般實驗室不具備這些條件。4 4、RNARNA世界世界 可能是最全面的可能是最全面的RNARNA站點,其超鏈接包站點,其超鏈接包括各種數據庫站點、網絡工具、序列、二級結構以及括各種數據庫站點、網絡工具、序列、二級結構以及相關軟件。可以很方便地根據相關軟件。可以很方便地根據PDBPDB(protein data protein data bankbank)代碼或者)代碼或者NDBNDB(nucleic acid data basenucleic acid data base)代)代碼來查找所需要碼來查找所需要RNARNA的結構信息,同時提供包括研究的結構信息,同時

27、提供包括研究方法、參考文獻、可視化圖象軟件及相關數據庫等信方法、參考文獻、可視化圖象軟件及相關數據庫等信息。息。5 5、其他核酸數據庫、其他核酸數據庫 HIV Database HIVHIV Database HIV序列數據庫、序列數據庫、IMGT ImMunoGeneTicsIMGT ImMunoGeneTics數據庫;數據庫;dbESTdbEST表達序列標簽數表達序列標簽數據庫、據庫、BERLIN 5S rRNA BERLIN 5S rRNA 數據庫;數據庫;EPDEPD真核啟動子數據真核啟動子數據庫。庫。二、二、BLAST簡介簡介 BLAST和和FASTA是當前應用最廣泛的程序,最新是當

28、前應用最廣泛的程序,最新版的版的BLAST和和FASTA中已消除原有各自局限性。綜合中已消除原有各自局限性。綜合程序速度和敏感性,本節介紹程序速度和敏感性,本節介紹NCBI中的中的BLAST程序。程序。 BLAST (basic local alignment search tool,局部序列相似,局部序列相似性對比工具性對比工具)集速度、敏感性、彈性與統計處理的最佳)集速度、敏感性、彈性與統計處理的最佳組合于一身,能迅速找到非空位的相似片段。在報告相組合于一身,能迅速找到非空位的相似片段。在報告相似性的同時,也報告這個相似性片段出現的可能性。似性的同時,也報告這個相似性片段出現的可能性。 B

29、LAST集成了一系列程序進行核酸和氨基酸序列不集成了一系列程序進行核酸和氨基酸序列不同類型的搜索,采用卡林氏統計描述結果的顯著性。同類型的搜索,采用卡林氏統計描述結果的顯著性。 BLAST是是NCBI提供的用于核酸或蛋白質序列相似提供的用于核酸或蛋白質序列相似性對比分析的一個軟件,已發展到包括性對比分析的一個軟件,已發展到包括BLASTP, BLASTN,BLASTX, TBLASTN, TBLASTX, MEGABLAST, PSI-BLAST, PHI-BLAST, RPS-BLAST等多個軟件和應用工具的多功能序列分析程序。等多個軟件和應用工具的多功能序列分析程序。1、BLASTN:最早

30、的最早的BLAST程序,用于鑒定測序所程序,用于鑒定測序所得序列和查找與之相似的序列。系最常用得序列和查找與之相似的序列。系最常用BLAST軟件。軟件。程序程序 數據庫數據庫 查查 詢詢 簡簡 述述 blastpblastnblastxtblastntblastx 蛋白質蛋白質核酸核酸蛋白質蛋白質核苷酸核苷酸(翻譯翻譯)核酸核酸(翻譯翻譯) 蛋白質蛋白質核苷酸核苷酸核酸核酸(翻譯翻譯)蛋白質蛋白質核酸核酸(翻譯翻譯) 可能找到具有遠可能找到具有遠源進化關系的匹源進化關系的匹配序列配序列適合尋找分值較適合尋找分值較高的匹配,不適高的匹配,不適合遠源關系合遠源關系適合新適合新DNA序列序列和和ES

31、T序列的分序列的分析析適合尋找數據庫適合尋找數據庫中尚未標注的編中尚未標注的編碼區碼區適合分析適合分析EST序序列列 2、MEGABLAST:用于鑒定一個未知的核酸序列。用于鑒定一個未知的核酸序列。若要了解測得一個未知核酸序列是否已發表在公開若要了解測得一個未知核酸序列是否已發表在公開的核酸數據庫中,以及其相關的生物研究文獻時,的核酸數據庫中,以及其相關的生物研究文獻時,這是一個最好的工具。它可有效地找到與序列相近這是一個最好的工具。它可有效地找到與序列相近的其他序列。的其他序列。3、 Discontiguous MEGABLAST:與與MEGABLAST相似,主要用于相近的序列段比較短、并且

32、相鄰的相似,主要用于相近的序列段比較短、并且相鄰的序列段不連續的搜索。相近序列不易查找時,該工序列段不連續的搜索。相近序列不易查找時,該工具可以提高查詢靈敏度和查詢效果。具可以提高查詢靈敏度和查詢效果。4、 BLASTP:為查詢蛋白質序列設計的軟件,主要為查詢蛋白質序列設計的軟件,主要用于鑒定蛋白質的氨基酸序列和在數據庫中查找相似用于鑒定蛋白質的氨基酸序列和在數據庫中查找相似的序列。既可通過找到相似的已知蛋白質的功能來鑒的序列。既可通過找到相似的已知蛋白質的功能來鑒定一個未知的蛋白質序列的功能,也可用于兩個或多定一個未知的蛋白質序列的功能,也可用于兩個或多個蛋白質序列的比較。個蛋白質序列的比較

33、。5、 PSI-BLAST ( 點位重心點位重心BLAST):):最靈敏的最靈敏的BLAST程序,通過它可以找到一個蛋白質的遠親序程序,通過它可以找到一個蛋白質的遠親序列。列。6、 PHI-BLAST ( 特異片段重心特異片段重心BLAST):):可以指可以指定某一個蛋白質序列片段,并以這個片段為重心查詢定某一個蛋白質序列片段,并以這個片段為重心查詢相關蛋白質序列。相關蛋白質序列。7、 BLASTX:把所需查詢的核酸序列翻譯成氨基酸把所需查詢的核酸序列翻譯成氨基酸序列序列,再在蛋白質數據庫中查找。再在蛋白質數據庫中查找。LBASTX可以將核可以將核酸序列翻譯成有酸序列翻譯成有6種可能的氨基酸序

34、列后在進行查尋,種可能的氨基酸序列后在進行查尋,對編碼區所有三聯密碼的組合所翻譯的氨基酸序列都對編碼區所有三聯密碼的組合所翻譯的氨基酸序列都查尋,提高了查尋靈敏度。查尋,提高了查尋靈敏度。8、TBLASTN:與與BLASTX相反,相反,TBLASTN蛋白質序蛋白質序列翻譯成可能的列翻譯成可能的6種三聯密碼核酸序列,對尋找相似功能種三聯密碼核酸序列,對尋找相似功能的核酸序列特別有用。多用于的核酸序列特別有用。多用于EST和大規模測序所做的和大規模測序所做的序列分析,對三聯密碼的錯位有很高的容錯度。序列分析,對三聯密碼的錯位有很高的容錯度。9、TBLASTX:把要查尋的核酸序列和進行比較的核酸把要

35、查尋的核酸序列和進行比較的核酸序列都翻譯成序列都翻譯成6種可能的氨基酸序列后進行比較。種可能的氨基酸序列后進行比較。10、RPS-BLAST:用于鑒定某些進化上比較穩定的蛋白用于鑒定某些進化上比較穩定的蛋白質功能片段。數據來源于質功能片段。數據來源于NCBI的的CDD數據庫。數據庫。11、CDART(conserved domain architeture retrieval tool):):用于篩選特定蛋白質數據庫中所有的蛋白質功用于篩選特定蛋白質數據庫中所有的蛋白質功能片段和功能片段結構,并得到含有某一個或多個功能能片段和功能片段結構,并得到含有某一個或多個功能片段結構的所有蛋白質序列。片

36、段結構的所有蛋白質序列。三、三、BLAST應用舉例應用舉例順序:順序:建立建立BLAST搜索,確定查詢序列;搜索,確定查詢序列; 選擇適當的搜索程序和相應的數據選擇適當的搜索程序和相應的數據 庫,以及參數;庫,以及參數; 發送查詢序列;發送查詢序列; 讀取讀取BLAST結果。結果。1、具體步驟、具體步驟(1)確定查詢序列;)確定查詢序列;(2)選擇數據庫和搜索程序:數據庫為核酸數據庫,)選擇數據庫和搜索程序:數據庫為核酸數據庫,程序為程序為BLASTN;(3)選擇默認的允許非空位的搜索;)選擇默認的允許非空位的搜索;( 4)E值限制,默認為值限制,默認為10;(5)用默認矩陣)用默認矩陣BLO

37、SUM62;(6)最后確認結果輸出格式。)最后確認結果輸出格式。 確認以上參數無誤后,點擊確認以上參數無誤后,點擊“BLAST”按鈕,同時按鈕,同時也可以選擇也可以選擇E-mail回復結果。回復結果。2、結果分析、結果分析BLAST結果分兩部分,即圖形化結果和文字結果,結果分兩部分,即圖形化結果和文字結果,后者又分為有意義的序列排列、兩兩對比結果、統計后者又分為有意義的序列排列、兩兩對比結果、統計結果三部分。結果三部分。選擇對比程序基因組對比特殊對比將序列數據庫中的復制序列在此粘貼點擊點擊(1)圖形結果)圖形結果得分高低以不同顏色表示:得分高低以不同顏色表示:200200紅色,紅色,80-20

38、080-200分紅分紅色,色,50-8050-80綠色,綠色,40-5040-50藍色,藍色,4040黑色,也表示同源黑色,也表示同源性由高到低。性由高到低。2、文字結果、文字結果搜索的分值高低排列,即同源性從高到低。排搜索的分值高低排列,即同源性從高到低。排列第一的是查詢序列本身。右側分別為隨機分列第一的是查詢序列本身。右側分別為隨機分值(值(scorescore,S S值)和期望值(值)和期望值(expectexpect,E E值)。值)。E E值是特定匹配中基本的隨機噪聲。值是特定匹配中基本的隨機噪聲。S S值增加,值增加,E E值呈指數性減少,即隨機噪聲降低,表明序列值呈指數性減少,即隨機噪聲降低,表明序列同源性較高。同源性較高。經驗提示,經驗提示,DNADNA序列具有序列具有75%75%以上的同源性才

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論