第三章DNA序列分析_第1頁
第三章DNA序列分析_第2頁
第三章DNA序列分析_第3頁
第三章DNA序列分析_第4頁
第三章DNA序列分析_第5頁
已閱讀5頁,還剩184頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第三章DNA序列分析第1頁,課件共189頁,創作于2023年2月3.1概述3.1.1序列分析的意義(1)DNA序列自身編碼特征的分析是基因組信息學研究的基礎,特別是隨著大規模測序的日益增加,它的每一個環節都與信息分析緊密相關。(2)基因組不僅是基因的簡單排列,更重要的是它有其特有的組織結構和信息結構,這種結構是在長期的演化過程中產生的,也是基因發揮其功能所必須的。第2頁,課件共189頁,創作于2023年2月(3)雖然對約占模式生物(包括人類)基因組90%的非編碼區的作用人們還不清楚,但從生物進化的觀點看來,這部分序列必定具有重要的生物功能。普遍的認識是,它們與基因在四維時空的表達調控有關。尋找這些區域的編碼特征,信息調節與表達規律是未來相當長時間內的熱點,是取得重要成果的源泉。第3頁,課件共189頁,創作于2023年2月(4)在不同物種、不同進化水平的生物的相關基因之間進行比較分析,是基因研究的重要手段。目前,模式生物全基因組序列數據越來越多,因此,基因的比較研究,也必須從基因的比較,上升到對不同進化水平的生物在全基因組水平上的比較研究。這樣的研究將更有效地揭示基因在生命系統中的地位和作用,解釋整個生命系統的組成和作用方式。第4頁,課件共189頁,創作于2023年2月3.1.2序列分析的內容(1)通過染色體定位分析、內含子/外顯子分析、ORF分析、表達譜分析等,能夠闡明基因的基本信息。(2)通過啟動子預測、CpG島分析和轉錄因子分析等,識別調控區的順式作用元件,可以為基因的調控研究提供基礎。第5頁,課件共189頁,創作于2023年2月(3)通過蛋白質基本性質分析,疏水性分析,跨膜區預測,信號肽預測,亞細胞定位預測,抗原性位點預測,可以對基因編碼蛋白的性質作出初步判斷和預測。尤其通過疏水性分析和跨膜區預測可以預測基因是否為膜蛋白,這對確定實驗研究方向有重要的參考意義。(4)通過相似性搜索、功能位點分析、結構分析、查詢基因表達譜聚簇數據庫、基因敲除數據庫、基因組上下游鄰居等,盡量挖掘網絡數據庫中的信息,可以對基因功能作出推論。第6頁,課件共189頁,創作于2023年2月3.1.3DNA序列分析的目標任務對于呈指數式增長的序列數據,通過序列分析,可以獲得如下幾個方面的信息:(1)序列及所代表的類群間的系統發育關系;(2)限制性酶切(位點)圖譜;(3)籍內含子/外顯子(intron/exon)預測所確定的遺傳結構;(4)籍開放閱讀框(ORF)分析所推導的蛋白質編碼序列(codingsequence,CDS)。第7頁,課件共189頁,創作于2023年2月基因與基因組分析技術路線

可讀框預測和基因標注序列拼接與組裝結果上傳到數據庫堿基讀取載體標識與去除測序儀中原始數據的采樣與分析大規模基因序列測定生物信息學的內容第8頁,課件共189頁,創作于2023年2月基因預測DNA序列中編碼區的鑒定預測方法的依據:

編碼統計學:編碼區序列同非編碼區序列相比,有不同的特點,存在一些非隨機的特點

GC含量密碼子偏倚性(CODONFREQUENCY)

第三個堿基組成

基因結構/統計學方法

比較/同源性生物信息學的內容第9頁,課件共189頁,創作于2023年2月蛋白質結構新蛋白的完整、精確和動態的三維結構計算機輔助結構模擬理解蛋白質的氨基酸序列和三維結構之間的關系蛋白質序列及特性分析蛋白質組學蛋白質與蛋白質組分析生物信息學的內容第10頁,課件共189頁,創作于2023年2月研究主要集中在核苷酸序列的存儲、分類、檢索和分析等方面新基因的發現非蛋白編碼區生物學意義的分析基因組整體功能及其調節網絡的系統把握基因組演化與物種演化基因組分析第11頁,課件共189頁,創作于2023年2月3.2基因的結構什么是基因?基因是有遺傳效應的DNA片斷,是決定生物性狀的基本單位。每個DNA分子上有很多個基因,每個基因可以含有成百上千個脫氧核苷酸。不同基因中脫氧核苷酸的排列順序不同,因此不同的基因含有不同的遺傳信息。第12頁,課件共189頁,創作于2023年2月基因的功能:基因能夠儲存、傳遞和表達遺傳信息,也都可能發生突變,從而決定生物體的性狀。基因如何決定生物性狀?

通過轉錄、翻譯,控制合成具有一定氨基酸順序的蛋白質,從而控制生物的性狀。第13頁,課件共189頁,創作于2023年2月DNA→RNARNA→蛋白質基因的表達第14頁,課件共189頁,創作于2023年2月原核細胞的基因結構編碼區非編碼區非編碼區編碼區上游編碼區下游不能編碼蛋白質可調控遺傳信息的表達(調控序列)編碼蛋白質(編碼序列)第15頁,課件共189頁,創作于2023年2月原核基因識別 重點在于識別編碼區域第16頁,課件共189頁,創作于2023年2月非翻譯區域(untranslatedregions,UTR)編碼區域兩端的DNA,有一部分被轉錄,但是不被翻譯,這一部分稱為非翻譯區域5’UTR---基因上游區域的非翻譯區域3’UTR---基因下游區域的非翻譯區域第17頁,課件共189頁,創作于2023年2月一個開放閱讀框(ORF,openreadingframe)是一個沒有終止編碼的密碼子序列。原核基因識別任務的重點是識別開放閱讀框,或者說識別長的編碼區域。第18頁,課件共189頁,創作于2023年2月原核細胞的基因結構編碼區非編碼區非編碼區與RNA聚合酶結合位點

RNA聚合酶是由多個肽鏈構成的蛋白質,能識別并與調控序列中的結合位點結合,催化轉錄形成RNA。第19頁,課件共189頁,創作于2023年2月RNA聚合酶AGGTCACGTCGTCCAGTGCAGCRNA聚合酶AGGUCACGUCGRNA聚合酶一個典型的原核細胞基因結構示意圖非編碼區非編碼區編碼區TCCAGTAGGTCAAGATCTmRNA多肽鏈第20頁,課件共189頁,創作于2023年2月

科學工作者分離得到了某原核生物基因,并將其解離成兩條單鏈。現讓其中一條鏈與由該基因轉錄而來的信使RNA雜交配對,結果如圖所示。非編碼區非編碼區編碼區信使RNA基因的一條鏈ABC第21頁,課件共189頁,創作于2023年2月基于基因密碼子特性的識別方法辨別編碼區域與非編碼區域的一種方法是檢查終止密碼子的出現頻率終止密碼子出現的期望次數為:每21個(64/3)密碼子出現一次終止密碼子

第22頁,課件共189頁,創作于2023年2月基本思想:如果能夠找到一個比較長的序列,其相應的密碼子序列不含終止密碼子,則這段序列可能就是編碼區域。基本算法:掃描給定的DNA序列,在三個不同的閱讀框中尋找較長的ORF。遇到終止密碼子以后,回頭尋找起始密碼子。這種算法過于簡單,不適合于處理短的ORF或者交疊的ORF。第23頁,課件共189頁,創作于2023年2月識別編碼區域的另一種方法是分析各種密碼子出現的頻率

將一個隨機均勻分布的DNA序列翻譯成氨基酸序列,則在氨基酸序列中上述3種氨基酸出現的比例應該為6:4:1例如,亮氨酸、丙氨酸、色氨酸分別有6個、4個和1個密碼子但是在真實的氨基酸序列中,上述比例并不正確這說明DNA的編碼區域并非隨機第24頁,課件共189頁,創作于2023年2月假設在一條DNA序列中已經找到所有的ORF,那么可以利用密碼子頻率進一步區分編碼ORF和非編碼ORF馬爾柯夫鏈模型利用這種方法,可以計算一個ORF成為編碼區域的可能性。第25頁,課件共189頁,創作于2023年2月真核細胞的基因結構一個典型的真核細胞基因結構示意圖編碼區含有能夠編碼蛋白質的序列(外顯子,exon)不能編碼蛋白質的插入序列(內含子,intron)真核生物的結構基因是斷裂基因非編碼區非編碼區編碼區與RNA聚合酶結合位點外顯子內含子12345第26頁,課件共189頁,創作于2023年2月真核細胞的基因結構編碼區非編碼區非編碼區編碼區下游調控遺傳信息的表達(調控序列)外顯子(能編碼蛋白質)內含子(不能編碼蛋白質)第27頁,課件共189頁,創作于2023年2月非編碼區非編碼區編碼區與RNA聚合酶結合位點外顯子內含子12345加工轉錄mRNA前體成熟mRNA加工第28頁,課件共189頁,創作于2023年2月一個典型的真核細胞基因結構示意圖非編碼區非編碼區編碼區與RNA聚合酶結合位點外顯子內含子12345原核細胞基因真核細胞基因相同點不同點原核細胞基因與真核細胞基因的比較

都是由能夠編碼蛋白質的編碼區和具有調控作用的非編碼區組成。編碼區是連續的編碼區是間隔的,是不連續的第29頁,課件共189頁,創作于2023年2月猜想:為什么成熟信使RNA比編碼區(單鏈)堿基數量要少?成熟信使RNA對應基因的一條鏈編碼區真核生物基因的有關實驗非編碼區非編碼區ABC第30頁,課件共189頁,創作于2023年2月

哪些情況下,真核生物基因結構改變(基因突變)可能不會導致性狀改變?(1)內含子改變(2)非編碼區改變,mRNA遺傳密碼不變(3)外顯子改變,轉錄成不同密碼子決定同一種氨基酸(4)蛋白質氨基酸序列不同,也可能完成相同功能(5)突變后,基因變為隱性12345非編碼區非編碼區編碼區第31頁,課件共189頁,創作于2023年2月不同基因所含的外顯子和內含子數量不同如人血紅蛋白的-珠蛋白基因有1700個堿基對,含有3個外顯子和2個內含子,編碼146個氨基酸。一種凝血因子基因有186000堿基對,含有26個外顯子和25個內含子,編碼2552個氨基酸。計算人的-珠蛋白和凝血因子基因中外顯子的堿基對在整個基因堿基對中所占的比例:(146×3)÷1700×100%=26%(2552×3)÷186000×100%=4%第32頁,課件共189頁,創作于2023年2月從這個比例中你能得出什么結論?在真核細胞中,不同基因的編碼序列,在各自基因中所占的比例是不同的。在真核細胞中,編碼序列在整個基因中所占的比例是較少的,而非編碼序列所占的比例則是較大的,從某種意義上體現了真核細胞基因結構與功能的復雜性。第33頁,課件共189頁,創作于2023年2月3.3核酸序列的概念性翻譯第34頁,課件共189頁,創作于2023年2月第35頁,課件共189頁,創作于2023年2月第36頁,課件共189頁,創作于2023年2月第37頁,課件共189頁,創作于2023年2月第38頁,課件共189頁,創作于2023年2月第39頁,課件共189頁,創作于2023年2月3.4真核基因識別

真核基因遠比原核基因復雜:一方面,真核基因的編碼區域是非連續的,編碼區域被分割為若干個小片段。另一方面,真核基因具有更加豐富的基因調控信息,這些信息主要分布在基因上游區域。第40頁,課件共189頁,創作于2023年2月第41頁,課件共189頁,創作于2023年2月第42頁,課件共189頁,創作于2023年2月3.4.1基因識別基本思路

找出基因兩端的功能區域:

轉錄啟動區終止區在啟動區下游位置尋找翻譯起始密碼子識別轉錄剪切位點剪切給體位點剪切接受體位點第43頁,課件共189頁,創作于2023年2月各種不同的方法有不同的適應面,而不同的方法有時可以結合起來以提高基因識別的準確率。關鍵問題是如何提高一個識別算法的敏感性(sensitivity,Sn)和特異性(specificity,Sp)。

第44頁,課件共189頁,創作于2023年2月3.4.2基因識別的主要方法兩大類識別方法:從頭算方法(或基于統計的方法)根據蛋白質編碼基因的一般性質和特征進行識別,通過統計值區分外顯子、內含子及基因間區域

基于同源序列比較的方法利用數據庫中現有與基因有關的信息(如EST序列、蛋白質序列),通過同源比較,幫助發現新基因。最理想的方法是綜合兩大類方法的優點,開發混合算法。第45頁,課件共189頁,創作于2023年2月基因識別方法有:(1)基于規則的系統(2)語義學方法(3)線性辨別分析(LDA)(4)決策樹

(5)動態規劃

(6)隱馬爾柯夫模型

(7)剪切對比排列(splicedalignment)第46頁,課件共189頁,創作于2023年2月3.4.3編碼區域識別兩類方法:基于特征信號的識別內部外顯子 剪切位點5’端的外顯子一定在核心啟動子的下游3’端的外顯子的下游包含多聚A信號和終止編碼基于統計度量的方法根據密碼子使用傾向雙聯密碼統計度量等第47頁,課件共189頁,創作于2023年2月

在一個基因中,第i個(i=1,64)密碼子相對使用傾向RSCUi的定義如下:Obsi是該基因中第i個密碼子實際出現的次數

Expi是對應密碼子期望的出現次數

aai是統計的第i個密碼子出現的次數 syni是所有與第i個密碼子同義密碼子出現的次數RSCU大于1表示相應密碼子出現的次數比期望次數高,而小于1則表示出現次數相對較少。(5-66)(5-65)

密碼子使用傾向第48頁,課件共189頁,創作于2023年2月設一段DNA序列為S,從S的第i位到第j位的雙聯密碼統計度量IF6(i,j)定義為:

fk是從第k位開始的雙聯密碼的頻率

Fk是該雙聯密碼隨機出現的頻率(5-67)雙聯密碼統計度量第49頁,課件共189頁,創作于2023年2月通過相似搜索發現編碼區域或者外顯子EST(ExpressedSequenceTags)cDNA蛋白質序列第50頁,課件共189頁,創作于2023年2月目前大多數預測程序都將數據庫相似性搜索的信息結合進基因預測過程同時考慮序列特征信號和統計度量

GRAIL

用人工神經網絡識別編碼區域第51頁,課件共189頁,創作于2023年2月輸入是一系列反映功能位點信號特征和序列編碼統計特征的參數輸出就是對一段DNA序列是否是編碼區域的判別結果神經網絡具有非線性映射能力,能夠發現輸入和輸出之間的高階相關性第52頁,課件共189頁,創作于2023年2月3.4.4ORFFinder(OpenReadingFramefinder)

Entrez中提供的生物分子數據分析工具,是一個圖形化的分析工具,它能夠在用戶給定的核酸序列或者數據庫中的核酸序列中尋找可能的開放閱讀框,并推導出相應的氨基酸序列。第53頁,課件共189頁,創作于2023年2月第54頁,課件共189頁,創作于2023年2月第55頁,課件共189頁,創作于2023年2月/gorf/gorf.html第56頁,課件共189頁,創作于2023年2月第57頁,課件共189頁,創作于2023年2月第58頁,課件共189頁,創作于2023年2月第59頁,課件共189頁,創作于2023年2月第60頁,課件共189頁,創作于2023年2月第61頁,課件共189頁,創作于2023年2月第62頁,課件共189頁,創作于2023年2月第63頁,課件共189頁,創作于2023年2月堿基組成

DNA序列一個顯而易見的特征是四種堿基類型的分布。盡管四種堿基的頻率相等時對數學模型的建立可能是方便的,但幾乎所有的研究都證明堿基是以不同頻率分布的。第64頁,課件共189頁,創作于2023年2月

表1包含了9個完整DNA分子序列的資料,表2的數據來自兩個胎兒球蛋白基因(Gr和Ar),每個基因具有三個外顯子和兩個內含子(shen等1981)。這兩個例子說明序列內和序列間堿基具有不同的頻率。在基因每一側的500個任意堿基區域被稱為“側翼”,基因間區域是指兩個基因間的其余序列。第65頁,課件共189頁,創作于2023年2月表1九種完整DNA序列的堿基組成第66頁,課件共189頁,創作于2023年2月表2人類胎兒球蛋白基因不同區段的堿基組成

第67頁,課件共189頁,創作于2023年2月堿基相鄰頻率

分析DNA序列的主要困難之一是堿基相鄰的頻率不是獨立的。堿基相鄰的頻率一般不等于單個堿基頻率的乘積例:雞血紅蛋白β鏈的mRNA編碼區的438個堿基第68頁,課件共189頁,創作于2023年2月圖1雞β球蛋白基因編碼區的DNA序列(GenBank:CHKHBBM,記錄號J00860)第69頁,課件共189頁,創作于2023年2月表3圖1雞β球蛋白基因序列的相鄰堿基分布第70頁,課件共189頁,創作于2023年2月

在編碼區,存在某種約束來限制DNA序列編碼氨基酸。在密碼子水平上,這一約束與堿基相鄰頻率有關。表4列出了遺傳密碼和圖1序列中各密碼子數量。盡管數目很小,難以作出有力的統計結論,但編碼同一氨基酸的不同密碼子(同義密碼子)好像不是等同存在的。這種密碼子偏倚必定與兩堿基相鄰頻率水平有關。表4還清楚地表明,由于密碼子第3位置上堿基的改變常常不會改變氨基酸的類型,因而對第3位置上堿基的約束要比第2位堿基小得多。第71頁,課件共189頁,創作于2023年2月表464種可能的堿基三聯體密碼子及相應的氨基酸數(據圖1序列)第72頁,課件共189頁,創作于2023年2月相鄰堿基之間的關聯將導致更遠堿基之間的關聯,這些關聯延伸距離的估計可以從馬爾科夫鏈(Markovchain)理論得到(Javare和Giddings,1989)第73頁,課件共189頁,創作于2023年2月三.同向重復序列分析除了分析整個序列堿基關聯程度的特征外,我們常對尋找同向重復序列(directrepeats)之類的問題感興趣。Karlin等(1983)給出了完成這一分析的有效算法。該法采用由特定的幾組堿基字母組成的不同亞序列或稱為字碼(word)。只需要對整個序列搜索一次。給一堿基賦以值α,例如A、C、G、T的值為0、1、2、3。由X1、X2、…、Xk

共k個字母組成的每一種不同的字碼按:計算字碼值。這些值的取值范圍為1到4k第74頁,課件共189頁,創作于2023年2月

例如:5字碼TGACC的值為1+3×44+2×43+0×42+1×41+1×40=459。可先從低k值的字碼開始搜索。記錄序列中每一個位置k字碼的字碼值。只有在發現k字碼長度重復的那些位置考慮進行長度大于k的字碼搜索。序列TGGAAATAAAACGTAAGTAG中所有堿基2字碼(k=2)的初始位置和字碼值。對于完全重復、長度大于2的同向重復或亞序列的搜索可只限于2字碼重復的初始位置。在本例中只有4個重復的2堿基重復序列。例如,在位置4、5、8、9、10和15均發現了字碼值為1的堿基重復序列。從有重復的2堿基為起點的3字碼值中發現字碼值為1、45和49的序列有重復;以每一重復的3堿基為起點的4字碼搜索未能發現更長的重復序列。第75頁,課件共189頁,創作于2023年2月表5序列TGGAAATAAAACGTAAGTAG的3字碼值和位置(Karlin,1983)第76頁,課件共189頁,創作于2023年2月四、RNA二級結構預測

盡管現有一些RNA折疊程序可以預測RNA二級結構,但這類分析仍然是一門藝術。RNA折疊有助于找出RNA分子中可能的穩定莖區,但對給定的RNA分子來說,這一結果的生物學意義究竟有多大,還是一個未知數。即使有此局限性,二級結構的預測還是有助于找出mRNA控制區以及RNA分子中可能形成穩定折疊結構的區段。第77頁,課件共189頁,創作于2023年2月3.4.5從序列中尋找基因

1.基因及基因區域預測

基因按其功能可分為結構基因和調控基因:結構基因可被轉錄形成mRNA,并進而轉譯成多肽鏈;調控基因是指某些可調節控制結構基因表達的基因。在DNA鏈上,由蛋白質合成的起始密碼開始,到終止密碼子為止的一個連續編碼序列稱為一個開放閱讀框(OpenReadingFrame,ORF)。結構基因多含有插入序列,除了細菌和病毒的DNA中ORF是連續的,包括人類在內的真核生物的大部分結構基因為斷裂基因,即其編碼序列在DNA分子上是不連續的,或被插入序列隔開。斷裂基因被轉錄成前體mRNA,經過剪切過程,切除其中非編碼序列(即內含子),再將編碼序列(即外顯子)連接形成成熟mRNA,并翻譯成蛋白質。假基因是與功能性基因密切相關的DNA序列,但由于缺失、插入和無義突變失去閱讀框而不能編碼蛋白質產物。

第78頁,課件共189頁,創作于2023年2月一種典型的真核蛋白質編碼基因的結構示意圖。其編碼序列(外顯子)是不連續的,被非編碼區(內含子)隔斷。

第79頁,課件共189頁,創作于2023年2月

所謂基因區域預測,一般是指預測DNA序列中編碼蛋白質的部分,即外顯子部分。不過目前基因區域的預測已從單純外顯子預測發展到整個基因結構的預測。這些預測綜合各種外顯子預測的算法和人們對基因結構信號(如TATA盒等)的認識,預測出可能的完整基因。第80頁,課件共189頁,創作于2023年2月

基因區域的預測是一個活躍的研究領域,先后有一大批預測算法和相應程序被提出和應用,其中有的方法對編碼序列的預測準確率高達90%以上,而且在敏感性和特異性之間取得了很好的平衡。預測方法中,最早是通過序列核苷酸頻率、密碼子等特性進行預測(如最長ORF法等),隨著各類數據庫的建立和完善,通過相似性列線比對也可以預測可能的基因。同時,一批新方法也被提了出來,如隱馬爾可夫模型(HiddenMarkovModel,HMM)、動態規劃法(dynamicprogramming)、法則系統(ruled-basedsystem)、語言學(linguistic)方法、線性判別分析(LinearDiscriminantAnalysis,LDA)、決策樹(decisiontree)、拼接列線(splicedalingment)、博利葉分析(Fourieranalysis)等。下表列出了claverie(1997)對部分程序預測基因區域能力的比較結果,表中同時列出了相應算法和程序的網址。第81頁,課件共189頁,創作于2023年2月第82頁,課件共189頁,創作于2023年2月目前基因區域預測的各種算法均存在以下2個問題(1)目前算法對基因中的非編碼區和基因間序列不加任何區別,所以預測出的基因仍然是不完全的,對5‘和3‘非編譯區(UTR,untranslatedregion)的預測基本上還是空白;(2)目前大多數算法都是基于已知基因序列。如相似性列線比較算法是完全依賴于已知的序列,而象HMM之類的算法都需要對已知的基因結構信號進行學習或訓練,由于訓練所用的序列畢竟是有限的,所以對那些與學習過的基因結構不太相似的基因,這些算法的預測效果就要大打折扣了要解決以上兩個問題,需要對基因結構進行更深入的研究,尋找隱藏在基因不同結構中的內在統計規律。

第83頁,課件共189頁,創作于2023年2月2.發現基因的一般過程

從序列中發現基因可以理解為基因區域預測和基因功能預測2個層次第一步:獲取DNA目標序列①如果你已有目標序列,可直接進入第2步;②可通過PubMed查找你感興趣的資料;通過GenBank或EMBL等數據庫查找目標序列第84頁,課件共189頁,創作于2023年2月第二步:查找ORF并將目標序列翻譯成蛋白質序列

利用相應工具,如ORFFinder、Genefeature(BaylorCollegeofMedicine)、GenLang(UniversityofPennsylvania)等,查找ORF并將DNA序列翻譯成蛋白質序列第三步:在數據庫中進行序列搜索可以利用BLAST進行ORF核苷酸序列和ORF翻譯的蛋白質序列搜索。第四步:進行目標序列與搜索得到的相似序列的整體序列比對(globalalignment)

雖然第三步已進行局部比對(localalignment)分析,但整體列線有助于進一步加深目標序列的認識。第85頁,課件共189頁,創作于2023年2月第五步:查找基因家族進行多序列比對(multiplesequencealignment)和獲得比對區段的可視信息。可分別在AMAS(OxfordUniversity)和BOXSHADE(ISREC,Switzerland)等服務器上進行。第六步:查找目標序列中的特定模序①分別在Procite、BLOCK、Motif數據庫進行profile、模塊(block)、模序(motif)檢索;②對蛋白質序列進行統計分析和有關預測第七步:預測目標序列結構可以利用PredictProtein(EMBL)、NNPREDICT(UniversityofCalifornia)等預測目標序列的蛋白質二級結構。第86頁,課件共189頁,創作于2023年2月第八步:獲取相關蛋白質的功能信息為了了解目標序列的功能,收集與目標序列和結構相似蛋白質的功能信息非常必要。可利用PubMed進行搜索。第九步:把目標序列輸入“提醒”服務器如果有與目標序列相似的新序列數據輸入數據庫,提醒(alert)服務會向你發出通知。可選用SequenceAlerting(EMBL)、Swiss-Shop(Switzerland)等服務器。第87頁,課件共189頁,創作于2023年2月3.解讀序列(makingsenseofthesequence)大致有2條途徑可以發現基因:(1)基于同源性的方法,包括已知mRNA序列的應用;(2)基因家族和特殊序列間的比較。最初的方法包括利用各種計算機手段分析外顯子和其它序列信號,如酶切位點。第88頁,課件共189頁,創作于2023年2月六、基于編碼區特性:最長ORF法基因區域或蛋白質編碼區的識別,特別是對高等真核生物基因組DNA序列中編碼區的識別仍未能實現完全自動化。將每條鏈按6個讀框全部翻譯出來,然后找出所有可能的不間斷開放閱讀框(ORF)往往有助于基因的發現。第89頁,課件共189頁,創作于2023年2月第90頁,課件共189頁,創作于2023年2月預測基因組的全部編碼區或稱為開放閱讀框的方法概括來說也可以分為三類:一類是基于編碼區所具有的獨特信號,如始起密碼子、終止密碼子等;二是基于編碼區的堿基組成不同于非編碼區,這是由于蛋白質中20種氨基酸出現的概率、每種氨基酸的密碼子兼并度和同一種氨基酸的兼并密碼子使用頻率不同等原因造成的;三是通過同源性比較搜尋蛋白質庫或dbEST庫尋找編碼區。前二類方法主要是利用編碼區的特性來尋找,下面對這二類方法做簡單描述。第91頁,課件共189頁,創作于2023年2月最長ORF法:在細菌基因組中,蛋白質編碼基因從起始密碼ATG到終止密碼平均有100bp,而300bp長度以上的ORF平均每36Kb才出現一次,所以只要找出序列中最長的ORF(>300bp)就能相當準確地預測出基因。第92頁,課件共189頁,創作于2023年2月

利用編碼區與非編碼區密碼子選用頻率的差異進行編碼區的統計學鑒別方法:由于內含子的進化不受約束,而外顯子則受到選擇壓力,因此內含子的序列要比外顯子更隨機。這是目前各種預測程序中被廣泛應用的一種方法,如GCG(GeneticComputerGroup研制,一種通用核酸、蛋白質分析軟件包)的TestCode、美波士頓大學GeneID和BaylorMedcineCollege的BCMGeneFinder等程序均利用了這一方法。第93頁,課件共189頁,創作于2023年2月CpG島(CpGisland)

CpG島是指DNA上一個區域,此區域含有大量相聯的胞嘧啶(C)、鳥嘌呤(G),以及使兩者相連的磷酸酯鍵(p)。哺乳類基因中的啟動子上,含有約40%的CpG島(人類約70%)。一般CpG島的長度約300到3000個bp。通常的含義是指一個至少含有200bp的區域,其中GC所占比例超過50%,且CpG的觀察值/預測值比例必須高于0.6。此霸部份的CpG島與基因相連,可用來作為限制酶的辨識位置。

第94頁,課件共189頁,創作于2023年2月哺乳動物基因組DNA中CpG島的特點是胞嘧啶(C)與鳥嘌呤(G)的總和超過4種堿基總和的50%,即每10個核苷酸約出現一次雙核苷酸序列CG。具有這種特點的序列僅占基因組DNA總量的10%左右。從已知的DNA序列統計發現,幾乎所有的管家基因(House-Keepinggene)及約占40%的組織特異性基因的5’末端含有CpG島,其序列可能包括基因轉錄的啟動子及第一個外顯子。因此,在大規模DNA測序計劃中,每發現一個CpG島,則預示可能在此存在基因。另外,AT含量也可以作為編碼區的批示指標之一。第95頁,課件共189頁,創作于2023年2月

CpG島在人類基因組中的分布很不均一,而在基因組的某些區段,CpG島主要位于基因的啟動子和第一外顯子區域,約有60%以上基因的啟動子含有CpG島。

CpG甲基化的研究在腫瘤的研究中有著非常主要的地位。通過基因啟動子區及附近區域CpG島胞嘧啶的甲基化可以在轉錄水平調節基因的表達,從而引起相應基因沉默,去甲基化又可恢復其表達。第96頁,課件共189頁,創作于2023年2月CpG島搜索軟件(在線)/sms/index.html第97頁,課件共189頁,創作于2023年2月判別結果第98頁,課件共189頁,創作于2023年2月山溪鯢beta-microseminoproteinDNA序列CpG島判別第99頁,課件共189頁,創作于2023年2月3.5表達序列標簽(ESTs)分析第100頁,課件共189頁,創作于2023年2月主要內容cDNA文庫的概念什么是表達序列標簽(ESTs)EST的應用

EST序列測定及分析過程實例:家豬腦組織EST分析第101頁,課件共189頁,創作于2023年2月3.5.1cDNA文庫的概念

cDNA(complementaryDNA)是指與mRNA序列互補的DNA,它是從生物組織中提取mRNA后,通過反轉錄得到的單鏈DNA產物。

cDNA文庫:由于在制作cDNA時通常是將特定組織中的所有mRNA都進行了反轉錄,生成的cDNA有多條,因此將特定組織來源的多條cDNA組成的集合稱作cDNA文庫。第102頁,課件共189頁,創作于2023年2月3.5.2表達序列標簽(ESTs)的概念及功能

1.ESTs的來源

上世紀80年代,對cDNA序列進行大規模測序的想法就曾提出,但對此一直存在爭論,有人認為這種方法能發現成千上萬的新基因;而反對者則認為cDNA序列缺少重要的基因調控區域的信息。90年代初GraigVenter

提出了EST的概念,并測定了609條人腦組織的EST,宣布了cDNA大規模測序的時代的開始(Adamsetal.,1991)。第103頁,課件共189頁,創作于2023年2月●

93年前ESTs數據收錄于GenBank,EBI和DDBJ。●

1993年NCBI(NationalCenterofBiotechnologyInformation)建立了一個專門的EST數據庫dbEST來保存和收集所有的EST數據。第104頁,課件共189頁,創作于2023年2月2.表達序列標簽(ESTs)的概念表達序列標簽(expressedsequencetags,ESTs)是從cDNA文庫中生成的一些很短的序列(60-500bp),它們代表在特定組織或發育階段表達的基因,有時可代表特定的cDNA。EST可能是編碼的,也可能不是。5’3’ESTCDSUTREST與cDNA的關系圖第105頁,課件共189頁,創作于2023年2月

從已建好的cDNA庫中隨機取出一個克隆,從5’末端或3’末端對插入的cDNA片段進行一輪單向自動測序,所獲得的約60-500bp的一段cDNA序列。第106頁,課件共189頁,創作于2023年2月構建cDNA文庫↓DNA測序↓信息處理和管理↓①②③去除載體序列、宿主序列和

聚類分析、拼接

數據庫查詢重復序列↓

生物信息學分析3.EST分析的實驗流程

第107頁,課件共189頁,創作于2023年2月4.ESTs與基因識別

ESTs已經被廣泛的應用于基因識別,因為ESTs的數目比GenBank中其它的核苷酸序列多,研究人員更容易在EST庫中搜尋到新的基因(Boguskietal.,1994).●在同一物種中搜尋基因家族的新成員(paralogs)。●在不同物種間搜尋功能相同的基因(orthologs)。●已知基因的不同剪切模式的搜尋。【注:不過很難確定一個新的序列是由于交替剪切產生的或是由于cDNA文庫中污染了基因組DNA序列(Wolfsbergetal.,1997)】第108頁,課件共189頁,創作于2023年2月5.ESTs與基因圖譜的繪制

EST可以借助于序列標簽位點(sequence-taggedsites)用于基因圖譜的構建。STS本身是從人類基因組中隨機選擇出來的長度在200-300bp左右的經PCR檢測的基因組中唯一的一段序列。來自mRNA的3’非翻譯區的ESTs更適合做為STSs,用于基因圖譜的繪制。第109頁,課件共189頁,創作于2023年2月其優點主要包括:●由于沒有內含子的存在,因此在cDNA及基因組模板中其PCR產物的大小相同;●與編碼區具有很強的保守性不同,3’UTRs序列的保守性較差,因此很容易將單個基因與編碼序列關系非常緊密的相似基因家族成員分開。(JamesSikela等,1991年)GeneMap96‘定位了16,000個基于基因的STS(Schuleretal.,1996);GeneMap98’定位了30,000個基于基因的STS(Deloukasetal.,1998),而且基因圖譜隨著STS的定位正在不斷的更新中。第110頁,課件共189頁,創作于2023年2月6.ESTs與基因預測

由于EST來源于cDNA,因此每一條EST均代表了文庫建立時所采樣品特定發育時期和生理狀態下的一個基因的部分序列。使用合適的比對參數,大于90%的已經注釋的基因都能在EST庫中檢測到(Baileyetal.,1998)。ESTs可以做為其它基因預測算法的補充,因為它們對預測基因的交替剪切和3‘非翻譯區很有效。第111頁,課件共189頁,創作于2023年2月7.ESTs與SNPs(單核苷酸多態性)

來自不同個體的冗余的ESTs可用于發現基因組中轉錄區域存在的SNPs。最近的許多研究都證明對ESTs數據的分析可以發現基因相關的SNPs(Buetowetal.,1999;Gargetal.,1999;Marthetal.,1999;Picoult-Newbergetal.,1999)。應注意區別真正的SNPs和由于測序錯誤(ESTs為單向測序得來,錯誤率可達2%)而引起的本身不存在的SNPs。解決這一問題可以通過:●提高ESTs分析的準確性。●對所發現的SNPs進行實驗驗證。第112頁,課件共189頁,創作于2023年2月8.利用ESTs大規模分析基因表達水平

因為EST序列是從某以特定的組織的cDNA文庫中隨機測序而得到,所以可以用利用未經標準化和差減雜交的cDNA文庫EST分析特定組織的基因表達譜。標準化的cDNA文庫和經過差減雜交的cDNA文庫則不能反應基因表達的水平。第113頁,課件共189頁,創作于2023年2月◆

CGAP

為研究癌癥的分子機理,美國國家癌癥研究所NCI的癌癥基因組解析計劃(CancerGenomeAnatomyProject,CGAP)構建了很多正常的或是癌癥前期的和癌癥后期的組織的cDNA文庫,并進行了大規模的EST測序,其中大部分的文庫未經標準化或差減雜交處理。CGAP網站提供了多種工具用以分析不同文庫間基因表達的差異,如:●

DigitalGeneExpressionDisplayer(DGED)●cDNAxProfiler第114頁,課件共189頁,創作于2023年2月◆基因表達系列分析(SerialAnalysisofGeneExpression,SAGE)

基因表達系列分析是一種用于定量,高通量基因表達分析的實驗方法(Velculescuetal.,1995)。SAGE的原理就是分離每個轉錄本的特定位置的較短的單一的序列標簽(約9-14個堿基對),這些短的序列被連接、克隆和測序,特定的序列標簽的出現次數就反應了對應的基因的表達豐度。◆

DNA微陣列或基因芯片的研究高密度寡核苷酸cDNA芯片或cDNA微陣列是一種新的大規模檢測基因表達的技術,具有高通量分析的優點。在許多情況下,cDNA芯片的探針來源于3'EST(Dugganetal.,1999),所以EST序列的分析有助于芯片探針的設計。第115頁,課件共189頁,創作于2023年2月Serialanalysisofgeneexpression(SAGE)技術流程反轉錄酶切連接測序單條測序==對30-40條EST測序分析由于采樣量大大提高,可對低表達基因進行分析:基因表達量分析、尋找新基因等等實驗步驟較長、要求較高第116頁,課件共189頁,創作于2023年2月基因芯片或微陣列技術流程….….Clone反轉錄(可選)讀取光密度聚類分析(非同源功能注釋)標記雜交反轉錄EST分析………….………….………….GeneChip0.10.060.050.04…000.070.01…表達量矩陣G1,G3,G5G2,G4G6,G9…利用EST,SAGE分析結果制作芯片(研究已發現的基因)連接,轉化Ricegenome-wideDNAchip(60,000+預測基因)

果蠅基因芯片…原位合成

第117頁,課件共189頁,創作于2023年2月幾種大規模分析基因表達水平的方法的比較第118頁,課件共189頁,創作于2023年2月◆

ESTs很短,沒有給出完整的表達序列;◆低豐度表達基因不易獲得。◆由于只是一輪測序結果,出錯率達2%-5%;◆有時有載體序列和核外mRNA來源的cDNA污染或是基因組DNA的污染;◆有時出現鑲嵌克隆;◆序列的冗余,導致所需要處理的數據量很大。9.ESTs數據的不足第119頁,課件共189頁,創作于2023年2月3.5.3EST技術流程體內:翻譯體外研究:反轉錄連接,轉化轉化效率問題(基因芯片)文庫構建技術已經成熟測序采樣問題(SAGE)測序成本已經大大降低大數據量分析理念已經形成第120頁,課件共189頁,創作于2023年2月一、cDNA文庫構建◆

非標準化的cDNA文庫的構建。(可用于基因表達量的分析)◆

經標準化或扣除雜交處理的cDNA文庫。(富集表達豐度較低的基因)◆

OligoTcDNA文庫。◆隨機引物cDNA文庫。第121頁,課件共189頁,創作于2023年2月cDNA文庫的構建及其均一化扣除雜交處理ForsubtractionofcDNAlibrariestheprocedureissimilartonormalization,exceptthatthePCRproductsarisefromadifferentlibrary(whosegenesaretobesubtractedfromtheoriginallibrary)Reference:Bonaldo,M.F.,et.al,1996.Normalizationandsubtraction:Twoapproachestofacilitategenediscovery.GenomeRes.6:791-806.第122頁,課件共189頁,創作于2023年2月扣除雜交技術的發展◆扣除雜交技術最早應用是在20世紀80年代初,當時的目的是為了構建非洲爪蟾的胚囊cDNA文庫【Science(WashDC)222,135–139】和制備差異表達基因的特異探針【PNAS.81,2194–2198】。差異表達的基因通過檢測樣本cDNA(tester)和過量的對照樣本mRNA(driver)的相互雜交而得到。在檢測樣本cDNA(tester)和對照樣本mRNA(driver)同時表達的基因會形成mRNA/cDNA雜交分子,而檢測樣本特異表達的基因則保持單鏈狀態。單鏈分子和雙鏈分子通過羥磷灰石層析而分離,分離得到的單鏈分子是檢測樣本特異表達的基因。差異表達的cDNA可以直接被克隆或通過cDNA文庫篩選而得到。第123頁,課件共189頁,創作于2023年2月◆這個方法后來又得到改進,包括用生物素標記【Nucl.Acids14,10027–10044】和oligo(dT)30-latex標記cDNA,以增加單雙鏈分子的分離效率。后來,通過PCR選擇性cDNA擴增技術被應用到扣除雜交中,以克服以往扣除雜交中需要大量起始mRNA的缺點,并可以同時提高基因克隆地效率【Nucl.AcidsRes.19,7097-7104】

。◆扣除技術的進一步成熟是在1996年,Gurskaya等(1996)和Diatchenko等(1996)同時發表了關于扣除雜交的改進方法,其主要的技術方法類似,這個技術叫抑制性扣除雜交技術(SuppressionSubtractiveHybridization,SSH)【Anal.Biochem.240,90–97;PNAS.93,6025-6230】

。第124頁,課件共189頁,創作于2023年2月SSH的原理與基本過程原理:SSH的基本原理是以抑制PCR為基礎的DNA扣除雜交方法。所謂抑制PCR,是利用鏈內退火優于鏈間退火,比鏈間退火更穩定,從而使非目的系列片段兩端反向重復系列在退火時產生類似于“鍋柄”的結構,無法與引物配對,選擇性地抑制了非目的基因片段的擴增。同時,該方法運用了雜交二級動力學原理,即豐度高的單鏈cDNA在退火時產生同源雜交的速度要快于豐度低的單鏈cDNA,從而使原來在豐度上有差別的單鏈cDNA相對含量達到基本一致。第125頁,課件共189頁,創作于2023年2月基本過程:分別抽提代測樣本(tester)和對照樣本(driver)的mRNA,反轉錄成cDNA,用RsaI或HaeIII酶切,以產生大小適當的平頭末端cDNA片段,將testercDNA分成均等的兩份,各自接上兩種接頭,與過量的drivercDNA變性后退火雜交,第一次雜交后有4種產物:a是單鏈testercDNA,b是自身退火的testercDNA雙鏈,c是tester和diver的異源雙鏈,d是drivercDNA。第一次雜交的目的是實現tester單鏈cDNA均一化(normalization),即使原來有豐度差別的單鏈cDNA的相對含量達到基本一致,由于testercDNA中與drivercDNA序列相似的片段大都和driver形成異源雙鏈分子c,使testercDNA中的差異表達基因的目標cDNA得到大量富集,第一次雜交后,合并兩份雜交產物,再加上新的變性driver單鏈,再次退火雜交,此時,只有第一次雜交后經均等化和扣除的單鏈testercDNA和drivercDNA一起形成各種雙鏈分子,這次雜交進一步富集了差異表達基因的cDNA,產生了一種新的雙鏈分子e,它的兩個5’端有兩個不同的接頭,正由于這兩上不同的接頭,使其在以后的PCR中被有效地擴增。第126頁,課件共189頁,創作于2023年2月抑制性差減雜交技術(SSH)原理圖(Diatchenko等,1996)

第127頁,課件共189頁,創作于2023年2月二、序列測定及數據分析隨機挑取克隆進行5’或3’端測序序列前處理聚類和拼接基因注釋及功能分類后續分析第128頁,課件共189頁,創作于2023年2月測序方向的選擇根據不同的實驗目的選擇不同的測序方向:◆5’端

5’上游非翻譯區較短且含有較多的調控信息。一般在尋找新基因或研究基因差異表達時用5’端EST較好,大部分EST計劃都是選用5’端進行測序的,而且從5’端測序有利于將EST拼接成較長的基因序列。第129頁,課件共189頁,創作于2023年2月◆3’端

3’端mRNA有一20-200bp的plyA結構,同時靠近plyA又有特異性的非編碼區,所以從3’端測得EST含有編碼的信息較少.但研究也表明,10%的mRNA3’端有重復序列,這可以作為SSR標記;非編碼區有品種的特異性,可以作為STS標記.◆兩端測序獲得更全面的信息。第130頁,課件共189頁,創作于2023年2月1.

去除低質量的序列(Phred)2.

應用BLAST、RepeatMasker或Crossmatch遮蔽數據組中不屬于表達的基因的贗象序列(artifactualsequences)。●載體序列(/repository/vector)

●重復序列(RepBase,)●污染序列

(如核糖體RNA、細菌或其它物種的基因組DNA等)3.

去除其中的鑲嵌克隆。4.

最后去除長度小于100bp的序列。序列前處理(pre-processing)第131頁,課件共189頁,創作于2023年2月鑲嵌克隆的識別?Back-to-backpoly(A)+tails.?Linker-to-linkerinmiddleofthesequence.?Blastn/Blastxsearch.第132頁,課件共189頁,創作于2023年2月第133頁,課件共189頁,創作于2023年2月ESTs的聚類和拼接

聚類的目的就是將來自同一個基因或同一個轉錄本的具有重疊部分(over-lapping)的ESTs整合至單一的簇(cluster)中。聚類作用:產生較長的一致性序列(consensussequence),用于注釋。降低數據的冗余,糾正錯誤數據。可以用于檢測選擇性剪切。第134頁,課件共189頁,創作于2023年2月序列聚類分析工具序列聚類分析工具是對序列分類的一種軟件。如果不同序列之間有一段重疊序列,并且超過了規定的最小長度,這兩段序列就應該能拼接到一起。對未加工的大量序列進行聚類分析,就是將大量序列通過比對或其他注釋信息分成各個集合,或稱各個“類”。一個可信并且有效的EST聚類機制能夠大大減少數據庫中的冗余信息,節省數據搜索的時間和分析結果的工作量。尤其當拿到大量EST之后,要找出這套序列包含多少個不同基因時,聚類工具就顯得更為有價值了。第135頁,課件共189頁,創作于2023年2月ESTs聚類的數據庫主要有三個:

UniGene(/UniGene)TIGRGeneIndices(/tdb/tgi/)STACK(http://www.sanbi.ac.za/Dbases.html)第136頁,課件共189頁,創作于2023年2月不嚴格的和嚴格的聚類(looseandstringentclustering)◆looseclustering●產生的一致性序列比較長●表達基因ESTs數據的覆蓋率高●含有同一基因不同的轉錄形式,如各種選擇性剪接體●每一類中可能包含旁系同源基因(paralogousexpressedgene)的轉錄本●序列的保真度低第137頁,課件共189頁,創作于2023年2月◆stringentclustering●產生的一致性序列比較短●表達基因ESTs數據的覆蓋率低●因此所含有的同一基因的不同轉錄形式少●序列保真度高(ESTclusteringtutorial,httP://www.sanbi.ac.za)第138頁,課件共189頁,創作于2023年2月(ESTclusteringtutorial,httP://www.sanbi.ac.za)有參照的和無參照的聚類(Supervisedandunsupervisedclustering)◆Supervisedclustering

根據已知的參考序列(如全長mRNA、已拼接好的一致性序列)聚類。◆

Unsupervisedclustering

沒有根據參考序列進行分類。第139頁,課件共189頁,創作于2023年2月聚類的算法◆基于BLAST和FASTA的腳本(BLASTNandFASTA—basedscripts)

BLASTN和FASTA算法的本身目的在于尋找序列間的局部相似性或同源性,這與聚類的目的不同,即通過兩個序列是否具有一致性的重疊或連續的比對來判斷二者是否能歸成一類。結合BLAST和FASTA查找的結果,采用解釋性語言(如Perl)編寫的腳本,具備了3方面的功能,即運行查找過程、解析(Parsing)查找的結果和按照用戶定義的標準判斷兩個序列是否為一類。第140頁,課件共189頁,創作于2023年2月◆基于字的聚類(Word—basedclustering)

基于字的聚類省略了所有的比對過程,其核心在于識別并計算序列間有多少長度為n的字(word)能夠匹配,而且并未采用有關克隆的來源及注釋信息,代表性的算法是d2_cluster。該算法為一種凝聚性(agglomerative)的聚類算法(即每一類從單一的序列開始,通過一系列的合并形成最后的類),它可以被描述為最小聯接聚類(minimallinkageclustering)。即,假設兩條序列A和B,如果二者存在一定水平的相似,那么將A、B歸于一類;即便二者并沒有任何相似性,若存在序列C,而且C同時與A、B都有足夠的相似性,那么也將A、B歸于一類。類和類之間的聯接標準是識別兩個序列在一定大小窗口中相同的堿基數。第141頁,課件共189頁,創作于2023年2月序列拼接工具當搜索中發現有幾個EST與一個檢測序列匹配時,通常這些EST序列之間存在著重疊區域,這就以為著找到了一段一致序列。一般說來,一致序列還要作進一步的搜索以找到更多的EST,以增加其準確性。這種反復的序列比較拼接就是序列拼接方法。現在已經有許多懷念好的拼接工具,如Staden軟件包,TIGR軟件包,Phrap等。第142頁,課件共189頁,創作于2023年2月常用的拼接軟件◆Phrap(/UWGC/analysistools/Phrap.cfm)◆CAP3(XiaoqiuHuang

,huang@)◆

TIGRassembler(http://nbc11.biologie.uni-kl.de/framed/left/menu/auto/right/tigr_assembler/)◆

zESTassembler(/zEST/)◆d2_cluster(http://www.sanbi.ac.za/)第143頁,課件共189頁,創作于2023年2月PHRAP(phragmentassemblyprogram):/index.html)

PHRAP是一個拼接鳥槍法產生的序列片斷的程序。有如下特點:

?允許使用所判讀的完整序列而不僅僅是經剪切的高質量部分;

?在重復序列出現時可以結合使用者提供的或內部計算的數據質量來提高拼接的正確性;

?構建一個由高質量部分鑲嵌的拼接程序而不是所謂的一致序列;

第144頁,課件共189頁,創作于2023年2月?可提供廣泛的包括質量值在內的關于拼接的信息,可控制非常大的數據集,但它單獨不能提供編輯或瀏覽的功能;

?最佳搭配是PHREP+PHRAP+CONSED,該套系統就可以高效、規模化地進行EST序列的拼接延伸;

?缺點是如果以可變剪切的基因來試驗,Phrap可正確地拼接出它所產生的一個蛋白,但是不能發現其它可變剪切的結果,如AMP2基因。第145頁,課件共189頁,創作于2023年2月CAP3:在線服務:/aat/sas.html

該軟件是CAP(contigassemblyprogramme)的改進版本,可在線進行。該軟件適用于EST拼接,可快速去除不能拼接在一起的序列,運用動態規劃算法可容忍序列的部分錯誤,可剪切掉所判斷序列中5`和3`端堿基質量不高的區域。它在計算重疊時使用堿基質量值加以控制,建立多重比對,產生一致序列。并且它可使用正反向約束修正拼接錯誤和連接片段重疊群。

PHRAP可以產生較長的重疊群,而CAP3拼接起來的一致性錯誤比較少,同時它運用正反向約束機制來處理低質量序列時更容易得到結構框架。但是它同樣不能發現AMP2基因的可變剪切變體。第146頁,課件共189頁,創作于2023年2月TIGRassembler

與PHRAP一樣是針對基因組序列拼接的。采用的是貪婪算法,我們同樣地拿它檢驗AMP2,可以拼接出它的蛋白,而且可以找到由兩個EST構成的變體,但是沒有任何證據和實驗能夠證明它的真實性。

第147頁,課件共189頁,創作于2023年2月zESTassembler

zESTassembler是專門為EST設計的拼接軟件。它由兩個步驟組成:EST聚類;拼接EST。運用zESTassembler優勢在于可以發現不同變體和多態性。zESTassembler不同于其它程序,采用的是自組織算法,通過EST與已有的一致序列相比獲得新的一致序列,從而得到新的變體。

第148頁,課件共189頁,創作于2023年2月Cluster的連接利用cDNA克隆的信息和5’,3’端Reads的信息,不同的Cluster可以連接在一起。第149頁,課件共189頁,創作于2023年2月UniGene◆

Unigene結合有指導的和無指導的方法,而且在聚類過程中使用了不同水平的嚴格度,聚類的算法為megablast,數據庫不產生一致性序列。第150頁,課件共189頁,創作于2023年2月第151頁,課件共189頁,創作于2023年2月TIGRGeneIndex◆

TIGRGeneIndex用的是有嚴格的和有指導的聚類方法,聚類的算法為類似于BLAST和FASTA的FLAST,該法得到的一致性序列較短,交替剪切得到的不同的基因屬于不同的索引。第152頁,課件共189頁,創作于2023年2月第153頁,課件共189頁,創作于2023年2月STACK◆

STACK用不嚴格的和無指導的聚類方法,聚類的算法為d2_cluster,產生較長的一致性序列,同一索引中含有不同的剪切方法得到的基因。第154頁,課件共189頁,創作于2023年2月CleanShortandTight

TIGR-THCUniGeneSTACKLongandLoose

第155頁,課件共189頁,創作于2023年2月基因注釋及功能分類注釋:◆序列聯配

Blastn,Blastx◆蛋白質功能域搜索(二結構比對)PfamInterpro第156頁,課件共189頁,創作于2023年2月基因功能分類◆手工分類大部分以Adams95年的文章中的采用分類體系為標準。【Adams.MD,etal.Initialassessmentofhumangenediversityandexpressionpatternsbasedupon83millionnucleotidesofcDNAsequence.Nature.1995377(6547Suppl):3-174】◆計算機批量處理利用標準基因詞匯體系GeneOntology,進行近似的分類。(/)第157頁,課件共189頁,創作于2023年2月GO的組織結構:定向無環圖(directedacyclicgraphs[DAGs])第158頁,課件共189頁,創作于2023年2月各大數據庫中基因或基因產物與GO術語的對照第159頁,課件共189頁,創作于2023年2月其它分類系統與GO的對照表第160頁,課件共189頁,創作于2023年2月后續分析◆比較基因組學分析◆基因表達譜分析◆新基因研究◆基因可變剪切分析◆實驗驗證

?

MicroArray

?GeneChip

?RTPCR

?Northenbloting第161頁,課件共189頁,創作于2023年2月實例介紹家豬腦組織EST分析第162頁,課件共189頁,創作于2023年2月文庫信息LibrarynamecbeecefceeccfccebsfbsTissue

Cerebellum(小腦)cerebrumCortex(皮層)Brainstem(腦干)Develop-mentalphaseadultFoetus50dFoetus100dFoetus50dEarlyborn107dFoetus50dNewborn115d第163頁,課件共189頁,創作于2023年2月文庫與序列質量檢驗聚類和重疊群分析ORF的尋找功能分類和注釋表達譜分析交替剪接分析分析過程第164頁,課件共189頁,創作

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論