研究生序列對比和數據庫搜索

上傳人：5*** IP屬地：湖北上傳時間：2022-02-02 格式：PPT 頁數：136 大小：7.96MB 積分：30 舉報 版權申訴

已閱讀5頁，還剩131頁未讀，繼續免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1、ll第一節第一節概述概述 l在生物學的研究中,有一個最常用和最經典的研究手段,就是通過比較分析獲取有用的信息和知識。通過將研究對象相互比較來尋找對象可能具備的特性。我們從核酸以及氨基酸的一級結構層次分析序列的相同點和不同點，以期能夠推測它們的結構、功能以及進化上的聯系。最常用的比較方法是序列對比，它為兩個或更多個序列的殘基之間的相互關系提供了一個非常明確的圖譜。通過比較兩個序列之間的相似區域和保守性位點，尋找二者可能的分子進化關系。 l進一步的對比是將多個蛋白質或核酸同時進行比較，尋找這些有進化關系的序列之間共同的保守區域、位點和圖譜，分析產生共同功能的序列模式。此外，還可以把蛋白質序列與核酸

2、序列相比來探索核酸序列可能的表達框架；把蛋白質序列與具有三維結構信息的蛋白質相比，從而獲得蛋白質空間結構的信息。第二節第二節序列對比和數據庫搜索序列對比和數據庫搜索ll我們都很清楚，生物物種之間存在進化關系，我們對基因和蛋白質序列進行比較，從本質上來講是同達爾文一樣，進行同樣的比較分析，只不過更加精細，更加詳盡，如果兩個序列之間具有足夠的相似性，就推測二者可能有共同的進化祖先，經過序列內殘基的替換、殘基或序列片段的缺失以及序列重組等遺傳變異過程分別演化而來。值得注意的是序列相似和序列同源是不同的概念，序列之間的相似程度是可以量化的參數，而序列是否同源需要有進化事實的驗證。 gb|AAA419

3、76.1|gb|AAA41976.1| (M27883) pancreatic secretory trypsin (M27883) pancreatic secretory trypsin inhibitor type II inhibitor type II precursorprecursor Rattus norvegicus Rattus norvegicus Length = 79 Length = 79 Score = 109 bits (272), Expect = 6e-24 Score = 109 bits (272), Expect = 6e-24 Identities

4、= 53/79 (67%), Positives = 61/79 (77%) Identities = 53/79 (67%), Positives = 61/79 (77%) Query: 1 MKVTGIFLLSALALLSLSGNTGADSLGREAKCYNELNGCTKIYDPVCGTDGNTYPNECVL 60Query: 1 MKVTGIFLLSALALLSLSGNTGADSLGREAKCYNELNGCTKIYDPVCGTDGNTYPNECVL 60 MKV IFLLSALALL+L+GNT A +G+A C N L GC + YDPVCGTDG TY NEC+L MKV IFLL

5、SALALL+L+GNT A +G+A C N L GC + YDPVCGTDG TY NEC+LSbjctSbjct: 1 MKVAIIFLLSALALLNLAGNTTAKVIGKKANCPNTLIGCPRDYDPVCGTDGKTYANECIL 60: 1 MKVAIIFLLSALALLNLAGNTTAKVIGKKANCPNTLIGCPRDYDPVCGTDGKTYANECIL 60Query: 61 CFENRKRQTSILIQKSGPC 79Query: 61 CFENRKRQTSILIQKSGPC 79 CFENRK TSI IQ+ G C CFENRK TSI IQ+ G CSbjct

6、Sbjct: 61 CFENRKFGTSIRIQRRGLC 79: 61 CFENRKFGTSIRIQRRGLC 79圖3.1 對人和褐家鼠pancreatic secretory trypsin inhibitor蛋白序列作對比，能形成二硫鍵的半胱氨酸殘基極為保守。 l在殘基-殘基對比中，很明顯，某些位置的氨基酸殘基相對于其它位置的殘基具有較高的保守性，這個信息揭示了某些殘基對于一個蛋白質的結構和功能是極為重要的。如圖3.1所示，處于活性位點的殘基都是極為保守的，比如形成二硫鍵的半胱氨酸，參與電子傳遞的氨基酸殘基以及決定底物特異性的氨基酸殘基。這些保守的殘基對于保持蛋白的結構與功能非常重要，

7、另一方面，由于歷史原因，某些保守位置對蛋白功能并無太大的重要性。 l當我們處理非常相近的物種時必須十分小心，因為相似性在某些情況下更多地是歷史的反映而不是功能的反映，比如，mouse和rat的某些序列具有高度的相似性，可能僅僅是因為沒有足夠的時間進行分化而已。盡管如此，系列對比仍然是從已知獲得未知的一個十分有用的方法，比如通過比較一個新的蛋白同其它已經經過深入研究的蛋白，可以推斷這個未知蛋白的結構與功能的某些性質。 l例如它們可能是酶的活性位點殘基，形成二硫鍵的半胱氨酸殘基，與配體結合部位的殘基，與金屬離子結合的殘基，形成特定結構motif的殘基等等。但并不是所有保守的殘基都一定是結構功能重要

8、的，可能它們只是由于歷史的原因被保留下來，而不是由于進化壓力而保留下來。因此，如果兩個序列有顯著的保守性，要確定二者具有共同的進化歷史，進而認為二者有近似的結構和功能還需要更多實驗和信息的支持。 l通過大量實驗和序列對比的分析，一般認為蛋白質的結構和功能比序列具有更大的保守性，因此粗略的說，如果序列之間的相似性超過30%，它們就很可能是同源的。必須指出的是，理論分析只提供了序列進化的可能性，不能夠僅僅是通過比較分析這一判據來斷定結論是否正確，結論還必須經過實驗驗證。 l早期的序列對比是全局的序列比較，但早期的序列對比是全局的序列比較，但由于蛋白質具有的模塊性質，可能由于由于蛋白質具有的模塊性質

9、，可能由于外顯子的交換而產生新蛋白質，因此局外顯子的交換而產生新蛋白質，因此局部對比會更加合理。通常用打分矩陣描部對比會更加合理。通常用打分矩陣描述序列兩兩對比，兩條序列分別作為矩述序列兩兩對比，兩條序列分別作為矩陣的兩維，矩陣點是兩維上對應兩個殘陣的兩維，矩陣點是兩維上對應兩個殘基的相似性分數，分數越高則說明兩個基的相似性分數，分數越高則說明兩個殘基越相似。殘基越相似。l序列對比問題變成在矩陣里尋找最佳對比路徑，目前最有效的方法是Needleman-Wunsch動態規劃算法，在此基礎上又改良產生了Smith-Waterman算法和SIM算法。在FASTA程序包中可以找到用動態規劃算法進行序列

10、對比的工具LALIGN，它能給出多個不相互交叉的最佳對比結果。 l在進行序列兩兩對比時，有兩方面問題直接影響相似性分值：取代矩陣和空位罰分。粗糙的對比方法僅僅用相同/不同來描述兩個殘基的關系，顯然這種方法無法描述殘基取代對結構和功能的不同影響效果，纈氨酸對異亮氨酸的取代與谷氨酸對異亮氨酸的取代應該給予不同的打分。 l因此如果用一個取代矩陣來描述氨基酸殘基兩兩取代的分值會大大提高對比的敏感性和生物學意義。雖然針對不同的研究目標和對象應該構建適宜的取代矩陣，但國際上常用的取代矩陣有PAM和BLOSUM等，它們來源于不同的構建方法和不同的參數選擇，包括PAM250、BLOSUM62、BLOSUM90

11、、BLOSUM30等。對于不同的對象可以采用不同的取代矩陣以獲得更多信息，例如對同源性較高的序列可以采用BLOSUM90矩陣，而對同源性較低的序列可采用BLOSUM30矩陣。 l空位罰分是為了補償插入和缺失對序列相似性的影響，由于沒有什么合適的理論模型能很好地描述空位問題，因此空位罰分缺乏理論依據而更多的帶有主觀特色。一般的處理方法是用兩個罰分值，一個對插入的第一個空位罰分，如1015；另一個對空位的延伸罰分，如12。對于具體的對比問題，采用不同的罰分方法會取得不同的效果。 l對于對比計算產生的分值，到底多大才能說明兩個序列是同源的，對此有統計學方法加以說明，主要的思想是把具有相同長度的隨機序

12、列進行對比，把分值與最初的對比分值相比，看看對比結果是否具有顯著性。相關的參數E代表隨機對比分值不低于實際對比分值的概率。對于嚴格的對比，E值必須低于一定閾值才能說明對比的結果具有足夠的統計學顯著性，這樣就排除了由于偶然的因素產生高對比得分的可能。 lGenbank、SWISS-PROT等序列數據庫提供的序列搜索服務都是以序列兩兩對比為基礎的。不同之處在于為了提高搜索的速度和效率，通常的序列搜索算法都進行了一定程度的優化，如最常見的FASTA工具和BLAST工具。 lFASTA是第一個被廣泛應用的序列對比和搜索工具包，包含若干個獨立的程序。FASTA為了提高序列搜索的速度，會先建立序列片段的“

13、字典”，查詢序列先會在字典里搜索可能的匹配序列，字典中的序列長度由ktup參數控制，缺省的ktup=2。FASTA的結果報告中會給出每個搜索到的序列與查詢序列的最佳對比結果，以及這個對比的統計學顯著性評估E值。FASTA工具包可以在大多提供下載服務的生物信息學站點上找到。 lBLAST是現在應用最廣泛的序列相似性搜索工具，相比FASTA有更多改進，速度更快，并建立在嚴格的統計學基礎之上。用戶輸入網址：/blast就可以進入BLAST網頁。 l一、BLAST搜索主界面l如圖3.2;3.3,最新版本為BLAST 2.2.18 ，其子集BLASTP

14、可達2.2.1。今年作了較大的更新，具體功能包括： l組合基因組檢索；l分為標準的核酸與核酸數據庫搜索；lMEGABLAST提供大量長序列的比較；l完全匹配的短序列搜索；l特殊搜索。 l分為標準的蛋白與蛋白數據庫搜索；PSI-and PHI-BLAST，其中PSI用于搜索證實遠源進化關系的存在與否和進一步獲取這個蛋白家族中的功能信息，而PHI用于搜索蛋白基序；同樣包括蛋白的完全匹配的短序列搜索。 l包括blastx,tblastn,tblastx 程序程序數據庫數據庫查查詢詢簡簡述述blastp蛋白質蛋白質氨基酸序列氨基酸序列可能找到具有遠源進化關系的匹配序可能找到具有遠源進化關系的匹配序列列

15、blastn核苷酸核苷酸核苷酸序列核苷酸序列適合尋找分值較高的匹配，不適合遠適合尋找分值較高的匹配，不適合遠源關系源關系blastx蛋白質蛋白質核苷酸序列所有核苷酸序列所有閱讀框架的翻譯閱讀框架的翻譯產物產物適合新適合新DNA序列和序列和EST序列的分析，序列的分析，能夠發現未知核酸序列潛在的翻譯產能夠發現未知核酸序列潛在的翻譯產物物tblastn所有閱讀框架所有閱讀框架動態翻譯的核動態翻譯的核苷酸序列苷酸序列蛋白質序列蛋白質序列適合尋找數據庫中尚未標注的編碼區適合尋找數據庫中尚未標注的編碼區tblastx核苷酸序列核苷酸序列6個閱讀框架的個閱讀框架的翻譯產物翻譯產物核苷酸序列核苷酸序列6個個

16、閱讀框架的翻譯閱讀框架的翻譯產物產物適合分析適合分析EST序列，序列，l4、保守區域的搜索：主要使用RPS-BLAST程序完成。l5、配對序列的兩兩比較：用于核酸和蛋白的兩兩比較分析。l6、針對特定數據庫的搜索：比如人類基因組、微生物基因組等。Table 3.1 Program Selection for Nucleotide QueriesLength DatabasePurposeProgramExplanation20 bp or longer28 bp or above for megablastNucleotideIdentify the query sequencedisconti

17、guous megablast,megablast, orblastnLearn more .Find sequences similar to query sequencediscontiguous megablast or blastnLearn more .Find similar sequence from the Trace archiveTrace megablast, or Trace discontiguous megablastLearn more .Find similar proteins to translated query in a translated datab

18、aseTranslated BLAST (tblastx)Learn more .PeptideFind similar proteins to translated query in a protein databaseTranslated BLAST (blastx)Learn more .7 - 20 bpNucleotideFind primer binding sites or map short contiguous motifsSearch for short, nearly exact matchesLearn more .Table 2.1 Content of Protei

19、n Sequence DatabasesDatabaseContent DescriptionnrNon-redundant GenBank CDS translations + PDB + SwissProt + PIR + PRF, excluding those in env_nr. Protein sequences from NCBI reference sequence project.swissprotLast major release of the SWISS-PROT protein sequence database (no incremental updates).pa

20、tProteins from the Patent division of GenBank.monthAll new or revised GenBank CDS translations + PDB + SwissProt + PIR + PRF released in the last 30 days.pdbSequences derived from the 3-dimensional structure records from the Protein Data Bank. Non-redundant CDS translations from env_nt entries.Table

21、 2.2 Nucleotide Databases for BLASTDatabaseContent DescriptionnrAll GenBank + EMBL + DDBJ + PDB sequences (but no EST, STS, GSS, or phase 0, 1 or 2 HTGS sequences). No longer non-redundant due to computational cost.refseq_mrna mRNA sequences from NCBI Reference Sequence Project.refseq_genomic Genomi

22、c sequences from NCBI Reference Sequence Project.estDatabase of GenBank + EMBL + DDBJ sequences from EST division.est_humanHuman subset of est.est_mouseMouse subset of est.est_othersSubset of est other than human or mouse.gssGenome Survey Sequence, includes single-pass genomic data, exon-trapped seq

23、uences, and Alu PCR sequences.htgsUnfinished High Throughput Genomic Sequences: phases 0, 1 and 2. Finished, phase 3 HTG sequences are in nr.patNucleotides from the Patent division of GenBank.pdbSequences derived from the 3-dimensional structure records from Protein Data Bank. They are NOT the codin

24、g sequences for the coresponding proteins found in the same PDB record.monthAll new or revised GenBank+EMBL+DDBJ+PDB sequences released in the last 30 days.alu_repeatsSelect Alu repeats from REPBASE, suitable for masking Alu repeats from query sequences. See Alu alert by Claverie and Makalowski, Nat

25、ure 371: 752 (1994).dbstsDatabase of Sequence Tag Site entries from the STS division of GenBank + EMBL + DDBJ.chromosomeComplete genomes and complete chromosomes from the NCBI Reference Sequence project. It overlaps with refseq_genomic.wgsAssemblies of Whole Genome Shotgun sequences.env_nt Sequences

26、 from environmental samples, such as uncultured bacterial samples isolated from soil or marine samples. The largest single source is Sagarsso Sea project. This does overlap with nucleotide nr.l三、 BLAST搜索格式：lBLAST搜索框中允許三種輸入格式l（一）FASTA格式： FASTA格式第一行是描述行，第一個字符必須是”字符；隨后的行是序列本身，一般每行序列不要超過80個字符，各行之間不允許有空行

27、，回車符不會影響程序對序列連續性的看法。序列由標準的IUB/IUPAC氨基酸和核酸代碼代表；小寫字符會全部轉換成大寫，序列可由基因庫中調出，亦可自行輸入。 lgi|129295|sp|P01013|OVAX_CHICK GENE X PROTEIN (OVALBUMIN-RELATED) QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAEKMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS VLMALGMTDLFIPS

28、ANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPES l1核酸輸入代碼如下: lA - adenosine（腺嘌呤） M - A C (amino) 氨基的lC - cytidine （胞嘧啶） S - G C (strong) 強的lG - guanine （鳥嘌呤） W - A T (weak) 弱的 lT - thymidine（胸腺嘧啶） B - G T C lU - uridine （尿嘧啶） D - G A TlR - G A (purine)嘌呤 H - A C TlY - T C (pyrimidine)嘧啶 V - G C Al K

29、 - G T (keto) 酮基的 N - A G C T (any)其中任何一個gap of indeterminate length 不明長度的空位 l2氨基酸輸入代碼如下（BLASTP、TBLASTN接受的）：lA alanine （丙氨酸） P proline（脯氨酸）lB aspartate or asparagine （天門冬氨酸） Q glutamine （谷氨酰胺）lC cystine （胱氨酸） R arginine（精氨酸）lD aspartate（天冬氨酸） S serine（絲氨酸）lE glutamate（谷氨酸鹽） T threonine（蘇氨酸）lF pheny

30、lalanine（苯丙氨酸） U selenocysteine（硒代半胱氨酸）lG glycine（甘氨酸） V valine（纈氨酸）lH histidine（組氨酸） W tryptophan（色氨酸）lI isoleucine（異亮氨酸） Y tyrosine（酪氨酸）lK lysine （賴氨酸） Z glutamate or glutaminelL leucine （亮氨酸） X any（任何一種氨基酸）lM methionine（蛋氨酸） * translation stop（翻譯終止符）lN asparagine（天冬酰胺） - gap of indeterminate len

31、gthl（二）單純序列數據輸入格式：該格式無FASTA描述定義行亦可，是GenBank/GenPept中的單純文本格式。如下： QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAEKMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTSVLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHP 1 qikdllvsss tdldttlvlv n

32、aiyfkgmwk tafnaedtre mpfhvtkqes kpvqmmcmnn 61 sfnvatlpae kmkilelpfa sgdlsmlvll pdevsdleri ektinfeklt ewtnpntmek121 rrvkvylpqm kieekynlts vlmalgmtdl fipsanltgi ssaeslkisq avhgafmels 181 edgiemagst gviedikhsp eseqfradhp flflikhnpt ntivyfgryw spl（三）標識符格式：（三）標識符格式：l通常只輸入NCBI存取號、存取號版號或基因庫中的標識符號，如p01013,

33、AAA68881.1, 129295。亦可有NCBI中帶有分隔豎線的序列標識符， l注意注意：l用以上三種輸入格式輸入信息時，蛋白質必須對應搜索蛋白質的程序，核酸必須對應搜索核酸的程序，否則提交不能成功。 l第三節第三節同源性分析同源性分析待檢核酸序列與整個核酸序列庫中的序列進行類比以檢索E-cadherin部分序列為例。 l在“search”框中可輸入基因的標識符或單純序列格式或FASTA格式，并可限制序列的起點和終點，根據需要選擇數據類型（本例選nr），在高級選項中可進一步限定條件，設定好后點擊BLAST按紐提交。 l圖3.6 BLAST兩兩比較提交界面l在BLAST主頁中選Pairwi

34、se BLAST中的BLAST 2 Sequences，進入兩兩比較界面如圖3.6，在程序中選blastn，分別輸入兩個基因的標識符或FASTA格式的序列，堿基數不要超過150Kb，可進一步限定條件，然后點擊Align按紐即可提交，等待結果。l三、蛋白質與蛋白質數據庫或蛋白質兩兩比較l1蛋白質與蛋白質數據庫比較：l選Protein BLAST中的Standard Protein-Protein BLASTblastp與蛋白質數據庫比較，輸入方法基本與核酸比較相同，存取號或序列內容必須是蛋白質庫中的。 l2蛋白質的兩兩比較：在Pairwise BLAST中的BLAST 2 Sequences程序

35、中進行，在程序中選blastp，序列輸入格式同上。其輸出搜索結果見圖3.7，進一步點擊Format button可看詳細結果。圖圖3.7蛋白質的兩兩比較輸出搜索結果蛋白質的兩兩比較輸出搜索結果l1結果總覽圖：通用于蛋白質和核酸的結果表示。圖中列了紅、粉、綠、藍、黑五種顏色，紅色同源性最高，排在最上面，其它各種顏色同源性逐漸降低； l各種顏色同源性逐漸降低；每條圖代表搜索蛋白質匹配的序列；如果出現陰影區，其對應的是二個或多個搜索數據庫相似序列中的非相似區；鼠標指在哪條圖上，圖上面的框中會顯示匹配蛋白質或核酸的名字；同一條圖內的分離部分對應于無關的采樣數。 l2顯著性序列列表：如圖3.10所示，最

36、有顯著性（同源性最高）的行排在最上面，其E值最低，排列行按E值增加排序；每行四部分描述內容：數據序列標識符，對該序列的簡單描述，在每個數據庫中搜索得到的分數E值；點擊序列標識符可以連接到GenBank；點擊分數可連接到對應的相互比較的序列行。 l3行列比較：因申請者提交的要求行列可有不同的輸出形式，系統默認的是配對行列輸出格式，即查詢序列與數據庫中匹配的序列垂直對應。針對蛋白質查詢而言，相同的殘基排在二序列之間，用“+”表示保守性殘基；針對DNA而言，垂直線連接相同的堿基。空位部分代表查詢序列與檢索匹配序列不一致。由于過濾作用，在低復雜區氨基酸查詢序列可以包含Xs（核苷酸包含Ns）。HPSs中

37、可列出每個檢索數據庫中的多個行列。 l相關的參數E值代表隨機比較分值不低于實際比較分值的概率。對于嚴格的比較，必須E值低于一定閾值才能說明比較的結果具有足夠的統計學顯著性，這樣就排除了由于偶然的因素產生高比較得分的可能。具體界定值在搜索設置中界定，系統默認為10，搜索的嚴謹度越高，E值越小。若要比較短序列，獲得更多的信息，則可增加E值到1000或更高；或降低字符大小（W），經驗之法是查詢序列至少是W的二倍；或禁止過濾功能的使用；或改變矩陣以優化搜索序列。 l l第四節第四節PSI-BLAST程序簡介程序簡介llBLAST的當前版本是2.2.10，它的新發展是位點特異性反復BLAST(PSI-B

38、LAST)。PSI-BLAST的特色是每次用profile搜索數據庫后再利用搜索的結果重新構建profile，然后用新的profile再次搜索數據庫，如此反復直至沒有新的結果產生為止。PSI-BLAST先用帶空位的BLAST搜索數據庫，將獲得的序列通過多序列比較來構建第一個profile。PSI-BLAST自然地拓展了BLAST方法，能尋找蛋白質序列中的隱含模式，有研究表明這種方法可以有效的找到很多序列差異較大而結構功能相似的相關蛋白，甚至可以與一些結構比較方法，如threading相媲美。PSI-BLAST服務可以在NCBI的BLAST主頁上找到，還可以從NCBI的FTP服務器上下載PSI-

39、BLAST的獨立程序。 PSI-BLAST程序程序第五節第五節多序列比較多序列比較ll顧名思義，多序列比較就是把兩條以上可能有系統進化關系的序列進行比較的方法。目前對多序列比較的研究還在不斷前進中，現有的大多數算法都基于漸進的比較的思想，在序列兩兩比較的基礎上逐步優化多序列比較的結果。進行多序列比較后可以對比較結果進行進一步處理，例如構建序列模式的profile，將序列聚類構建分子進化樹等等。 l目前使用最廣泛的多序列比較程序是CLUSTALW(它的PC版本是CLUSTALX)。CLUSTALW是一種漸進的比較方法，先將多個序列兩兩比較構建距離矩陣，反映序列之間兩兩關系；然后根據距離矩陣計算產

40、生系統進化指導樹，對關系密切的序列進行加權；然后從最緊密的兩條序列開始，逐步引入臨近的序列并不斷重新構建比較，直到所有序列都被加入為止。 lCLUSTALW的程序可以自由使用，在NCBI的FTP服務器上可以找到下載的軟件包。CLUSTALW程序用選項單逐步指導用戶進行操作，用戶可根據需要選擇打分矩陣、設置空位罰分等。EBI的主頁還提供了基于Web的CLUSTALW服務，用戶可以把序列和各種要求通過表單提交到服務器上，服務器把計算的結果用Email返回用戶。 lCLUSTALW對輸入序列的格式比較靈活，可以是前面介紹過的FASTA格式，還可以是PIR、SWISS-PROT、GDE、Clustal

41、、GCG/MSF、RSF等格式。輸出格式也可以選擇，有ALN、GCG、PHYLIP和GDE等，用戶可以根據自己的需要選擇合適的輸出格式。 l在CLUSTALW得到的多序列比較結果中，所有序列排列在一起，并以特定的符號代表各個位點上殘基的保守性，”*”號表示保守性極高的殘基位點；”.”號代表保守性略低的殘基位點。 lE B I 的 C L U S T A L W 網址是：http:/www.ebi.ac.uk/clustalw/。 l下載CLUSTALW的網址是：ftp:/ftp.ebi.ac.uk/pub/software/。 l關于序列比較，對比方法多種多樣，很有必要從中挑選出最好的一

42、個或幾個方法，這就是把一種對比描述成一個路徑。許多計算機科學的問題都可以簡化為通過圖表尋求最優路徑。為了這一目的已經確立了許多行之有效的算法，對每一種路徑都有必要對其進行某種意義上的打分，通常是對沿這一途徑的每一步的增量進行加和。假定相同殘基加正分，有插入或缺失的殘基就加負分（扣分），根據這一定義，最合適的對比方法會得到最高分，也就是我們尋找的最佳路徑。 l應該注意，尋優方法總是把最佳的對比方法表達出來，而不在意它是否具有生物學意義，另一方面，尋求局部對比時可能會發現若干個重要的對比，因此，不能僅僅注意最佳的一個。 l不管是蛋白還是核酸都包含一些特殊的區域，在進行序列數據庫搜索時這些區域可能會導致一些令人迷惑的結果。這些低復雜度區域（LCRs）在從明顯的同性聚合順串和短周期重復到更精細的情況（如其中某些或一些殘基過多表現）的范圍內變化。LCRs的進化、功能和結構性質并沒有被很好地了解。 l在DNA中，有許多種簡單的重復，其中一些已經知道是高度多態性的，并且在作基因圖譜時經常使用的。它們產生的機制可能是聚合酶滑動、偏頗核苷酸取代或者不等交換。LCRs更偏好于在結構上以非球形區域的形式存在，那些在物理化

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

研究生序列對比和數據庫搜索

文檔簡介

溫馨提示

最新文檔

評論

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

研究生序列對比和數據庫搜索

文檔簡介

溫馨提示

最新文檔

評論

相關文檔