蛋白質序列分析.PPT_第1頁
蛋白質序列分析.PPT_第2頁
蛋白質序列分析.PPT_第3頁
蛋白質序列分析.PPT_第4頁
蛋白質序列分析.PPT_第5頁
已閱讀5頁,還剩90頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第六章 蛋白質序列分析西北農林科技大學農學院遺傳組主講人:胡銀崗主講人:胡銀崗第一節第一節 蛋白質數據庫蛋白質數據庫1. 1.數據庫的分類數據庫的分類蛋白質的功能主要是由它的結構所決定的,蛋白質的結構主要分為四級,蛋白質的功能主要是由它的結構所決定的,蛋白質的結構主要分為四級,依據這種結構層次,將蛋白質數據庫分為:依據這種結構層次,將蛋白質數據庫分為: 蛋白質序列數據庫蛋白質序列數據庫以蛋白質的序列為主,并賦予相應的注釋;如以蛋白質的序列為主,并賦予相應的注釋;如PIRPIRPSDPSD、SWISS-SWISS-PROT/TrEMBL, NCBIPROT/TrEMBL, NCBI等等 蛋白質模

2、體及結構域數據庫蛋白質模體及結構域數據庫收集了蛋白質的保守結構域和功能域的特征序列;如收集了蛋白質的保守結構域和功能域的特征序列;如PROSITEPROSITE,PfamPfam,PRINTSPRINTS,BLOCKSBLOCKS等等 蛋白質結構數據庫蛋白質結構數據庫以蛋白質的結構測量數據為主;如以蛋白質的結構測量數據為主;如PDBPDB等等 蛋白質分類數據庫蛋白質分類數據庫分為以序列比較為基礎的序列分類數據庫和以結構比較為基礎的結分為以序列比較為基礎的序列分類數據庫和以結構比較為基礎的結構分類數據庫,如構分類數據庫,如SCOPSCOP,CAHTCAHT,FSSPFSSP等等2. 蛋白質序列數

3、據庫/http:/www.ebi.ac.uk/swissprot/3. 蛋白質模體及結構域數據庫PROSITEPROSITE蛋白質家族和結構域數據庫蛋白質家族和結構域數據庫(/prosite/ )PROSITEPROSITE數據庫收集了有顯著生物學意義的蛋白質位點序列、數據庫收集了有顯著生物學意義的蛋白質位點序列、蛋白質特征序列譜庫以及序列模型,蛋白質特征序列譜庫以及序列模型,能依據這些特征、屬性快速可靠地鑒定出一個未知功能蛋能依據這些特征、屬性快速可靠地鑒定出一個未知功能蛋白質序列屬于哪個蛋白質家族,白質序列屬于哪個

4、蛋白質家族,即使在蛋白質序列相似性很低的情況下,可以通過搜索隱即使在蛋白質序列相似性很低的情況下,可以通過搜索隱含的功能結構模體(含的功能結構模體(motifmotif)來鑒定)來鑒定因此,是一個有效的序列分析數據庫。因此,是一個有效的序列分析數據庫。PROSITEPROSITE中涉及的序列模式中涉及的序列模式酶的催化位點酶的催化位點配體結合位點配體結合位點金屬離子結合位點金屬離子結合位點二硫鍵、小分子或者蛋白質結合區域等二硫鍵、小分子或者蛋白質結合區域等PROSITEPROSITE還包括由多序列比對構建的序列特征譜還包括由多序列比對構建的序列特征譜(profileprofile),能更敏感地

5、發現序列中的信息。),能更敏感地發現序列中的信息。/prosite/7PfamPfam(蛋白質家族序列比對以及(蛋白質家族序列比對以及HMMHMM模式數據庫)模式數據庫)http:/pfam.sanger.ac.uk/http:/pfam.sanger.ac.uk/4. 蛋白質結構數據庫PDB (/pdb/home/home.do)PDB包括蛋白質、核酸、蛋白質-核酸復合體以及病毒等生物大分子結構數據,主要是蛋白質結構數據5. 蛋白質分類數據庫 SCOP蛋白質結構分類數據庫(Structural Classificat

6、ion of Protein database)(http:/scop.mrc-lmb.cam.ac.uk/scop/index.html) CATH蛋白質結構數據庫(CATH Protein Structure Classification)(/) FSSP 基于蛋白質結構結構比對的折疊分類(Fold classification based on Structure-Structure alignment of Proteins) (http:/ekhidna.biocenter.helsinki.fi/dali)10http:/scop.mrc-

7、lmb.cam.ac.uk/scop/index.html11/12http:/ekhidna.biocenter.helsinki.fi/dali6. 數據庫的利用 蛋白質數據庫都具備三種功能蛋白質數據庫都具備三種功能 數據的注釋(數據的注釋(annotationannotation)所有提交到數據庫的數據都要由作者或數據庫管理人員進所有提交到數據庫的數據都要由作者或數據庫管理人員進行注釋方能發布;行注釋方能發布; 數據的檢索(數據的檢索(searchsearch)數據經注釋之后,訪問者可以通過數據庫網頁上提供的搜數據經注釋之后,訪問者可以通過數據庫

8、網頁上提供的搜索引擎進行搜索,找到自己所需的蛋白質信息;索引擎進行搜索,找到自己所需的蛋白質信息; 數據的生物信息分析(數據的生物信息分析(analysisanalysis)訪問者一旦找到感興趣的蛋白質,就可以運用數據庫提供訪問者一旦找到感興趣的蛋白質,就可以運用數據庫提供的生物信息分析工具對蛋白質序列的未知數據進行預測,的生物信息分析工具對蛋白質序列的未知數據進行預測,如預測蛋白質的理化性質如預測蛋白質的理化性質, ,預測蛋白質的二級結構,多重序預測蛋白質的二級結構,多重序列比對等等。列比對等等。 14PROSITE 內容PROSITE PROSITE 主要保存兩類信息:主要保存兩類信息:模

9、式(模式(pattern)和譜()和譜(profile,權重矩陣)。,權重矩陣)。模式可以理解為保守的氨基酸排列方式,通常以氨基酸單字母方式排列模式可以理解為保守的氨基酸排列方式,通常以氨基酸單字母方式排列。例如酪氨酸激酶磷酸化位點模式例如酪氨酸激酶磷酸化位點模式RK-x(2)-DE-x(3)-Y 或或 RK-x(3)-DE-x(2)-Y其中擴號表示擴號中的各種氨基酸均可,其中擴號表示擴號中的各種氨基酸均可,X表示任意氨基酸,小擴號中的數表示任意氨基酸,小擴號中的數字表示氨基酸個數。字表示氨基酸個數。AC-x-V-x(4)-EDThis pattern is translated as: Al

10、a or Cys-any-Val-any-any-any-any-any but Glu or Asp15PROSITE- profile 示例Profile 為對保守區域每一位置氨基酸保守情況為對保守區域每一位置氨基酸保守情況進行打分構建的權重矩陣。進行打分構建的權重矩陣。第一行為該區域出現的氨基酸,每一行為蛋白序列第一行為該區域出現的氨基酸,每一行為蛋白序列中一個位置,在該位置對各種氨基酸的保守情況都給出中一個位置,在該位置對各種氨基酸的保守情況都給出一個分值,分值越高表示出現概率越大一個分值,分值越高表示出現概率越大16PROSITE 使用注意事項使用注意事項 Pattern主要可以用來

11、預測某些生物活性位主要可以用來預測某些生物活性位點,如磷酸化位點、甲基化位點。點,如磷酸化位點、甲基化位點。profile預測可靠性高,可以用來對新蛋白進行分預測可靠性高,可以用來對新蛋白進行分類和提供功能提示。類和提供功能提示。 蛋白的功能位點是與其三維結構緊密相關蛋白的功能位點是與其三維結構緊密相關的,局部區域符合某種的,局部區域符合某種patternpattern不能保證一不能保證一定會具有對應的性質,要根據實際情況,定會具有對應的性質,要根據實際情況,謹慎對待謹慎對待pattern pattern 預測結果。預測結果。17PROSITE 工具工具ScanProsite搜索蛋白序列是否含

12、搜索蛋白序列是否含PROSITE數據庫中存有的模式或是功能位點;搜數據庫中存有的模式或是功能位點;搜索索Swiss-Prot中符合某種模式的蛋白以及蛋白三維結構數據庫中符合某種模式的蛋白以及蛋白三維結構數據庫PDB中中含有該模式的蛋白,可察看其三維結構。含有該模式的蛋白,可察看其三維結構。 MotifScan 使用使用PROSITE 以及以及pfam 中的中的profile 對蛋白進行搜索。對蛋白進行搜索。PRATT 用于找出一系列序列中保守模式的程序,用戶可以提交自己的一組序用于找出一系列序列中保守模式的程序,用戶可以提交自己的一組序列,生成共有的列,生成共有的pattern。PROSITE

13、PROSITE還提供一些可以下載到本地運行的程序還提供一些可以下載到本地運行的程序如如ps_scanps_scan,但需要安裝,但需要安裝perl perl 運行環境。運行環境。Pftools Pftools 同樣是可以本地運同樣是可以本地運行的工具,可以搜索行的工具,可以搜索PROSITEPROSITE中的中的profileprofile,也可以構建用戶自己的,也可以構建用戶自己的file. 18 第二節第二節 蛋白質序列分析及結構預測策蛋白質序列分析及結構預測策略略蛋白質的結構預蛋白質的結構預測必須基于測必須基于一定一定的序列基礎的序列基礎和和實實驗證據驗證據,因此必

14、,因此必須須盡可能搜集一盡可能搜集一切有關這個蛋白切有關這個蛋白質可能的理化性質可能的理化性質和其它特性質和其它特性。1. 基本流程基本流程實驗數據實驗數據蛋白質序列蛋白質序列理化特性分析理化特性分析跨膜區、等電點、親水性、疏水性、跨膜區、等電點、親水性、疏水性、酶切特性、電荷等酶切特性、電荷等數據庫檢索數據庫檢索多序列比對、結構域搜索多序列比對、結構域搜索二級結構預測二級結構預測如有如有PDB中同源體中同源體蛋白質折疊識別蛋白質折疊識別折疊家族分析折疊家族分析序列與結構比對序列與結構比對比較建模比較建模三級結構預測三級結構預測三維蛋白模型三維蛋白模型19蛋白質序列分析及結構預測的基本流程蛋白

15、質序列分析及結構預測的基本流程201.序列特征的初步分析序列特征的初步分析 理化特性的預測理化特性的預測 修飾位點的預測修飾位點的預測 是否為跨膜蛋白或片段是否為跨膜蛋白或片段 是否包含螺旋卷曲結構是否包含螺旋卷曲結構 是否還有低復雜度序列等等是否還有低復雜度序列等等212.同源搜索同源搜索新序列最常用的分析,就是與已知的序列等數據庫進行比對,找到新序列最常用的分析,就是與已知的序列等數據庫進行比對,找到同源的蛋白質序列或相似性較高的序列。同源的蛋白質序列或相似性較高的序列。常用的工具:常用的工具:BLASTp、FASTA、BLITZ、PSIBLAST等等等等注意的問題注意的問題選擇矩陣:常見

16、的矩陣有選擇矩陣:常見的矩陣有PAM和和BLOSUM。一般先用默認的。一般先用默認的BLOSUM62分析,如果相似性序列過多,選用更嚴謹的分析,如果相似性序列過多,選用更嚴謹的BLOSUM80,如果相似性序列很少,可選用如果相似性序列很少,可選用BLOSUM42,進一步分析。,進一步分析。PAM30和和PAM70適于分析近源短序列效果較好適于分析近源短序列效果較好空位罰分:一般有兩個參數,對空位存在的扣除和對于連續空位的延伸空位罰分:一般有兩個參數,對空位存在的扣除和對于連續空位的延伸罰分??瘴涣P分大但延伸罰分少,適于空位少但長的序列;空位罰分小罰分??瘴涣P分大但延伸罰分少,適于空位少但長的序

17、列;空位罰分小但延伸罰分重,適于在進化上點突變或者突變短小的較近同源序列。但延伸罰分重,適于在進化上點突變或者突變短小的較近同源序列。223.模體搜索模體搜索 模體是通過對一個蛋白質家族進行多序列比對檢測出的模體是通過對一個蛋白質家族進行多序列比對檢測出的高度保守元件,常對應于一些結構域和功能域,模體搜高度保守元件,常對應于一些結構域和功能域,模體搜索是找到序列中一些關鍵的保守氨基酸。索是找到序列中一些關鍵的保守氨基酸。 常用工具:常用工具:SCANPROSITE、SMART、Pfam、COGS、PRINTS、BLOCKS、SBASE 注意問題注意問題如果不同源,搜索出的相似性很小如果不同源,

18、搜索出的相似性很小要將序列在三級結構數據庫的序列進行比對要將序列在三級結構數據庫的序列進行比對很可能是一些短序列,應與相似性搜索結果等配合使用很可能是一些短序列,應與相似性搜索結果等配合使用234.結構域定位結構域定位 通過數據庫搜索得到的信息,進行結構域定位,通過數據庫搜索得到的信息,進行結構域定位,對結構預測提供基礎對結構預測提供基礎 結構域定位分析結構域定位分析探測序列與其它全序列之間的同源性關系探測序列與其它全序列之間的同源性關系分析低復雜度區域(如重復序列等,時常間隔結構域)分析低復雜度區域(如重復序列等,時常間隔結構域)跨膜區域跨膜區域卷曲螺旋結構卷曲螺旋結構二級結構的不同折疊子二

19、級結構的不同折疊子對分解成的結構域重復進行數據庫搜索和獨立比對對分解成的結構域重復進行數據庫搜索和獨立比對245.多重序列比對多重序列比對 對搜索得到的數據進行多重序列比對對搜索得到的數據進行多重序列比對 多重序列比對可提供多重序列比對可提供結構域相應信息結構域相應信息功能位點的殘基功能位點的殘基蛋白質的親水面和疏水核的氨基酸殘基蛋白質的親水面和疏水核的氨基酸殘基為同源建模、二級結構預測提供模板為同源建模、二級結構預測提供模板 注意問題注意問題不要把所有搜索結果用在比對中不要把所有搜索結果用在比對中對搜索結果進行手工校正,將顯著性不高的序列,非對搜索結果進行手工校正,將顯著性不高的序列,非蛋白

20、質家族的序列剔除掉。蛋白質家族的序列剔除掉。256. 同源建模同源建模 如果蛋白質序列有顯著的同源序列(相似如果蛋白質序列有顯著的同源序列(相似性性50,尤其是與已知結構的蛋白質之間尤其是與已知結構的蛋白質之間有顯著同源性時,即可進行同源建模有顯著同源性時,即可進行同源建模以已知結構的蛋白質為模板進行精確的結構模以已知結構的蛋白質為模板進行精確的結構模型構建型構建如果相似性序列不是完整的,而是一段一段的如果相似性序列不是完整的,而是一段一段的結構域,也可通過二級結構預測和折疊識別,結構域,也可通過二級結構預測和折疊識別,找到合適的折疊子,在以這些已知結構的折疊找到合適的折疊子,在以這些已知結構

21、的折疊子為模板構建模型子為模板構建模型267.二級結構預測二級結構預測 如果沒有搜索到具有已知結構的蛋白質同源序列,如果沒有搜索到具有已知結構的蛋白質同源序列,也可采用相應的方法進行二級結構預測也可采用相應的方法進行二級結構預測 二級結構預測的方法二級結構預測的方法GOR法(法(Chou等人)和等人)和Lim法法依據單一序列分析精確度約依據單一序列分析精確度約56-60核心結構預測法核心結構預測法通過同源蛋白質家族的多重比對,發現二級結構存在二級結通過同源蛋白質家族的多重比對,發現二級結構存在二級結構核心,將序列與核心結構相結合,精確度月構核心,將序列與核心結構相結合,精確度月70 注意問題注

22、意問題適當的人為干預適當的人為干預著重于二級結構保守模式的預測著重于二級結構保守模式的預測盡可能采用多個預測方法,構建共同序列的結構圖譜盡可能采用多個預測方法,構建共同序列的結構圖譜278.折疊子分析和二級結構組分比對折疊子分析和二級結構組分比對 對推測出的折疊子,進一步確定其折疊模式,通過多次對推測出的折疊子,進一步確定其折疊模式,通過多次比對,確定蛋白質可能屬于哪一類蛋白質比對,確定蛋白質可能屬于哪一類蛋白質 分析的幾個方面分析的幾個方面存在極多相似序列時,看其是否具有相似功能存在極多相似序列時,看其是否具有相似功能弱相似時,只有結構相似,而無序列同源,預測可能的功能域,弱相似時,只有結構

23、相似,而無序列同源,預測可能的功能域,及與已知折疊子內部的核心二級結構的相似區域。及與已知折疊子內部的核心二級結構的相似區域。如果不存在以上情況,只能考慮其中是否含有與已知折疊子中核如果不存在以上情況,只能考慮其中是否含有與已知折疊子中核心結構元件以外的其它區域相似的區域心結構元件以外的其它區域相似的區域 核心二級結構元件核心二級結構元件與與二級結構的核心區域二級結構的核心區域折疊子中起關鍵作用的二級結構折疊子中起關鍵作用的二級結構二級結構中起關鍵作用的氨基酸殘基二級結構中起關鍵作用的氨基酸殘基 利用多重序列比對同時結合多個預測方法,是確定二級利用多重序列比對同時結合多個預測方法,是確定二級結

24、構核心序列常用的方法結構核心序列常用的方法289.三級結構與序列間的比對三級結構與序列間的比對 折疊識別獲得的結果并不一定準確,進行折疊識折疊識別獲得的結果并不一定準確,進行折疊識別前,最好進行獨立比對,確定可能組成折疊子別前,最好進行獨立比對,確定可能組成折疊子的二級結構元件的二級結構元件 分析的方法分析的方法確認預測的殘基中的包埋面和外露面的序列是否與已確認預測的殘基中的包埋面和外露面的序列是否與已知蛋白質的模板結構相似知蛋白質的模板結構相似確認重要的氫鍵結合模式在預測確認重要的氫鍵結合模式在預測折疊結構沒有被打折疊結構沒有被打亂亂通過對已知結構的研究,在預測的結構中盡可能保留通過對已知結

25、構的研究,在預測的結構中盡可能保留與已知結構中殘基性質相似(大小、極性、疏水性等)與已知結構中殘基性質相似(大小、極性、疏水性等)的保守氨基酸的保守氨基酸29第三節第三節 蛋白質的結構預測蛋白質的結構預測 1. 蛋白質序列的來源蛋白質序列的來源直接測序獲得的直接測序獲得的翻譯編碼的翻譯編碼的DNA或或cDNA序列序列數據庫中搜索到的數據庫中搜索到的蛋白質序列的格式蛋白質序列的格式FASTA格式格式SWISS-PROT格式格式PDB格式格式302. 理化特性分析基于一級結構的預測理化特性分析基于一級結構的預測 理化特性分析理化特性分析相對分子量、氨基酸組成、等電點、酶切特性、疏水相對分子量、氨基

26、酸組成、等電點、酶切特性、疏水性等、親水性,及消光系數等性等、親水性,及消光系數等 常用工具常用工具軟件軟件Bioedit網絡工具網絡工具ProtParam(/tools/protparam.html)Compute PI(/tools/pi_tool.html)3132333. 蛋白質的鑒定蛋白質的鑒定 蛋白質的鑒定蛋白質的鑒定確定蛋白質的基本性質確定蛋白質的基本性質 常用工具常用工具網絡工具網絡工具多個(多個(/tools/)3435364.數據庫搜索數據庫搜索 數據庫數據庫序

27、列序列模體與結構域模體與結構域結構結構分類分類 使用的程序使用的程序BlastPSI-BlastFastaScanProsite等等37385. 二級結構預測 預測蛋白質二級結構的算法大多以已知三維結構和二級結構的蛋白質為依據,用人工神經網絡、遺傳算法等技術構建預測方法。還有將多種預測方法結合起來,獲得“一致序列”。 總的來說,二級結構預測仍是未能完全解決的問題,一般對于螺旋預測精度較好,對折疊差些,而對除螺旋和折疊等之外的無規則二級結構則效果很差。39Jpred(http:/pbio.dundee.ac.uk/www-jpred/index.html)HNN(http:/npsa-pbil.

28、ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_nn.html)SOPMAhttp:/npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_sopma.html帶比對的自優化預測方法,將幾種獨立二級結構預測方法匯集成“一致預測結果”,采用的二級結構預測方法包括GOR方法、Levin同源預測方法、雙重預測方法、PHD方法和SOPMA方法。多種方法的綜合應用平均效果比單個方法更好。4041424344454647486. 幾種重要結構分析幾種重要結構分析6. 1 疏水性分析疏水性分析為二級結構預測提供

29、參考為二級結構預測提供參考為結構域及功能域的劃分提供依據為結構域及功能域的劃分提供依據常用工具常用工具Protscale(/tools/protscale.html)ProtScaleProtScale能計算超過能計算超過5050種蛋白質的特性。僅一項需要額外設種蛋白質的特性。僅一項需要額外設定的參數是輸入框的寬度,該參數將指示系統每次運行計算和定的參數是輸入框的寬度,該參數將指示系統每次運行計算和顯示的殘基數,其缺省值為顯示的殘基數,其缺省值為9 9。如果想考慮跨膜螺旋特性,該參。如果想考慮跨膜螺旋特性,該參數設置應為數設置應為2020,因為一個跨膜螺旋

30、通常有,因為一個跨膜螺旋通常有2020個氨基酸長度個氨基酸長度4950516.2 6.2 信號肽的識別信號肽的識別 信號肽的識別信號肽的識別地址標簽信號肽將蛋白質導向細胞的正確位置,并地址標簽信號肽將蛋白質導向細胞的正確位置,并使其越過細胞器膜使其越過細胞器膜是新合成的蛋白質的一部分,位于蛋白質的一端是新合成的蛋白質的一部分,位于蛋白質的一端信號肽分析有助于蛋白質功能域的劃分及蛋白質的細信號肽分析有助于蛋白質功能域的劃分及蛋白質的細胞定位胞定位 常用工具常用工具SignaIP(http:/www.cbs.dtu.dk/services/SignalP/)通過神經網絡方法的組合通過神經網絡方法的

31、組合預測信號肽的位置及相應切點預測信號肽的位置及相應切點5253546.3 6.3 跨膜結構分析跨膜結構分析n 跨膜結構分析跨膜結構分析跨膜結構在蛋白質結構中一般序列相似性不大,但結構極其相似??缒そY構在蛋白質結構中一般序列相似性不大,但結構極其相似。跨膜結構可分為跨膜結構可分為6 6種類型種類型跨膜結構預測對認識蛋白質結構及功能具有重要意義跨膜結構預測對認識蛋白質結構及功能具有重要意義n 預測工具預測工具依賴于一系列已知跨膜螺旋特性的研究結果。最簡單的方法是通過依賴于一系列已知跨膜螺旋特性的研究結果。最簡單的方法是通過查找包含有查找包含有2020個疏水殘基的區段,復雜的算法不僅可以預測跨膜螺

32、個疏水殘基的區段,復雜的算法不僅可以預測跨膜螺旋的位置,還能確定其在膜上的方向,預測準確率在旋的位置,還能確定其在膜上的方向,預測準確率在808095%95%左右。左右。Tmpred(TMpred - Prediction of Transmembrane Regions and Orientation)(/software/TMPRED_form.html )5556576.4 卷曲螺旋預測 卷曲螺旋卷曲螺旋控制蛋白質寡聚化的元件,存在于轉錄因子、控制蛋白質寡聚化的元件,存在于轉錄因子、蛋白融合多肽等蛋白融合多肽等一種很簡單的三級結構,容易預測一

33、種很簡單的三級結構,容易預測 常用工具常用工具COILS - Prediction of Coiled Coil Regions in Proteins(/software/COILS_form.html)58596.5 糖基化、磷酸化位點預測 糖基化和磷酸化位點糖基化位點磷酸化位點 常用工具CBS Prediction Servers (www.cbs.dtu.dk/services/)60616263647. 三級結構預測三級結構預測 三級結構預測三級結構預測蛋白質的高級結構決定蛋白質的功能。要了解功蛋白質的高級結構決定蛋白質的功能。要了解功能

34、,結構是基礎,三級結構預測有助于研究蛋白能,結構是基礎,三級結構預測有助于研究蛋白質的生物活性中心質的生物活性中心 三級結構預測的方法三級結構預測的方法同源建模同源建模先在蛋白質結構數據庫中尋找未知結構蛋白的同源伙先在蛋白質結構數據庫中尋找未知結構蛋白的同源伙伴,再利用一定計算方法把同源蛋白的結構優化構建伴,再利用一定計算方法把同源蛋白的結構優化構建出預測的結果。出預測的結果?;具^程:目標序列與模板序列的匹配,確定蛋白質基本過程:目標序列與模板序列的匹配,確定蛋白質結構保守區及其結構,目標結構建模,目標結構變異結構保守區及其結構,目標結構建模,目標結構變異區建模,側鏈安裝與優化,模型優化與評

35、估區建模,側鏈安裝與優化,模型優化與評估656667686970717273c1tehaC1hldaD1teha1(GRoES)D1teha2(GRoES)7475第四節第四節 蛋白質功能預測蛋白質功能預測1. 根據序列預測功能的一般過程根據序列預測功能的一般過程盡管蛋白質的許多特性可直接從序列上分析獲得,如盡管蛋白質的許多特性可直接從序列上分析獲得,如疏水性,跨膜螺旋疏水性,跨膜螺旋(transmenbrane helix)(transmenbrane helix)或前導序列或前導序列(leader sequence)(leader sequence)等??偟膩碚f,根據序列預測蛋白等??偟膩?/p>

36、說,根據序列預測蛋白質功能的唯一方法是通過數據庫搜尋,比較該蛋白是否質功能的唯一方法是通過數據庫搜尋,比較該蛋白是否與已知功能的蛋白質相似。與已知功能的蛋白質相似。比較未知蛋白序列與已知蛋白質序列的相似性;比較未知蛋白序列與已知蛋白質序列的相似性;查找未知蛋白中是否包含與特定蛋白質家族或功能查找未知蛋白中是否包含與特定蛋白質家族或功能域有關的亞序列或保守區段。域有關的亞序列或保守區段。76根據序列預測蛋白質功能的技術路線根據序列預測蛋白質功能的技術路線772. 通過比對數據庫相似序列確定功能通過比對數據庫相似序列確定功能 具有相似序列的蛋白質具有相似的功能。最可靠的確定具有相似序列的蛋白質具有

37、相似的功能。最可靠的確定蛋白質功能的方法是進行數據庫的相似性搜索。一個顯著蛋白質功能的方法是進行數據庫的相似性搜索。一個顯著的匹配應至少超過的匹配應至少超過8080個氨基酸的區段有個氨基酸的區段有25%25%的相同序列。的相同序列。 一般策略是先進行一般策略是先進行BLASTBLAST檢索,如不能提供相關結果,檢索,如不能提供相關結果,再運行再運行FASTAFASTA;如;如FASTAFASTA也不能得到有關蛋白質功能的線索,也不能得到有關蛋白質功能的線索,可選用完全根據可選用完全根據Smith-WatermanSmith-Waterman算法設計的搜索程序,例算法設計的搜索程序,例如如BLI

38、TZ(BLITZ(www.ebi.ac.uk/searches/blitz.htmlwww.ebi.ac.uk/searches/blitz.html) )。BLITZBLITZ不做近似估計不做近似估計(BLAST(BLAST和和FASTAFASTA根據根據Smith-WatermanSmith-Waterman算法做近算法做近似估計似估計) ),所以很花時,但非常靈敏。通常,所以很花時,但非常靈敏。通常BLITZBLITZ程序能夠發現超過程序能夠發現超過幾百個殘基但序列相同比率低于幾百個殘基但序列相同比率低于202025%25%的匹配,這些匹配可能達到的匹配,這些匹配可能達到顯著,但會被那些

39、應用近似估計的程序錯過。顯著,但會被那些應用近似估計的程序錯過。78798081n選用計分矩陣選用計分矩陣(scoring matrix)(scoring matrix)十分關鍵十分關鍵選用的矩陣必須與匹配水平相一致,例如,選用的矩陣必須與匹配水平相一致,例如,PAM250PAM250應用應用于遠距離匹配于遠距離匹配(25%(35%35%,并且具有很高的結構和功,并且具有很高的結構和功能相似性。能相似性。848586878889902. SCOP蛋白質結構分類n折疊子(折疊子(foldfold)主要是結構相似主要是結構相似如果蛋白質在相同的條件和相同的拓撲關系下有相同的二級結構,如果蛋白質在相同的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論