




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
第十三章計算表觀遺傳學
哈爾濱醫(yī)科大學張巖ComputationalEpigenetics第一節(jié)引言一、表觀遺傳學與計算表觀遺傳學二、計算表觀遺傳學的研究內(nèi)容三、計算表觀遺傳學的方法和工具四、計算表觀遺傳學的進展第二節(jié)基因組的DNA甲基化一、CpG島的DNA甲基化調(diào)控基因的表達(一)DNA甲基化與CpG島(二)甲基化對轉(zhuǎn)錄的調(diào)控(三)DNA甲基化的意義(一)DNA甲基化與CpG島DNA甲基化是一種發(fā)生在DNA序列上的化學修飾,可以在轉(zhuǎn)錄及細胞分裂前后被穩(wěn)定地遺傳。DNA甲基化是重要的表觀遺傳代碼。DNA甲基化在哺乳動物中,大約60%~90%的CpG二核苷酸是甲基化的。CpG中的p代表連接脫氧胞嘧啶核苷和脫氧鳥嘌呤核苷的磷酸基團。在哺乳動物細胞中,DNA甲基化主要發(fā)生在CpG二核苷酸中胞嘧啶的第五位碳原子上,這樣的胞嘧啶也叫做5-甲基-胞嘧啶,如圖所示。CpG島與DNA甲基化的關(guān)系CpG二核苷酸傾向于聚集成簇,這樣的區(qū)域稱作CpG島(CpGislands)。CpG島的特點是GC的含量及CpG的含量非常高。CpG島主要分布在基因的5’非編碼區(qū)、啟動子和第一外顯子區(qū)域,大約60%的基因的啟動子含有CpG島。這些區(qū)域的CpG二核苷酸的富集表明它們處于非甲基化狀態(tài)(至少在生殖細胞中),因此避免甲基化CpG帶來高的突變率。(二)甲基化對轉(zhuǎn)錄的調(diào)控DNA甲基化影響轉(zhuǎn)錄的機制1.DNA甲基化阻礙轉(zhuǎn)錄因子的結(jié)合2.DNA甲基化識別染色質(zhì)標記3.DNA甲基化募集其他蛋白引起染色質(zhì)沉默4.DNA甲基化影響核小體定位(三)DNA甲基化的意義CpG二核苷酸的甲基化與重復元件沉默CpG二核苷酸的甲基化與染色體的選擇性沉默DNA甲基化與基因的組織特異表達二、通過實驗和計算方法識別CpG島
(一)CpG島的定義及預測
(二)實驗方法尋找CpG島
(三)CpG島的定位有助于發(fā)現(xiàn)新基因(一)CpG島的定義及預測
Gardiner-Garden和Frommer長度最短200bpGC含量至少50%CpGO/E最小0.6許多啟動子缺乏嚴格定義的CpG島,但是有組織特異的甲基化模式,和轉(zhuǎn)錄活性有密切聯(lián)系。1.最初的CpG島定義2.改進的CpG島定義Takai和Jones增加最短長度、CpGO/E值GC含量分別到500bp,0.65%和55%對預測精度的影響。通過使閾值更加嚴格,Alu
重復元件得到最大程度的排除,但此時卻排除了原來數(shù)量10%的CpG島,這表明一些真正的CpG島可能也被排除。常見的CpG島預測算法預測方法長度(bp)GC含量(%)CpGO/E重復元件屏蔽備注ENSEMBL≥400≥50%≥0.6否嚴格的參數(shù)限制NCBI寬松≥200≥50%≥0.6否總CpG島數(shù)目307193NCBI嚴格≥500≥50%≥0.6否總CpG島數(shù)目24163UCSC>200≥50%>0.6是總CpG島數(shù)目28226EMBOSS指定指定指定否參數(shù)可調(diào)CpGProD>500>50%>0.6是總CpG島數(shù)目76793CpGcluster無限制無限制無限制否總CpG島數(shù)目197727CpG_MI≥50無限制無限制否總CpG島數(shù)目40926差異取決于以下因素:(1)任意閾值的應用;(2)沒有考慮到CpG島的異質(zhì)性;(3)基于DNA序列的預測方法忽略了DNA甲基化狀態(tài)。3.排除重復元件對CpG島預測算法的干擾重復元件(例如“年輕”的Alu元件)的堿基組成和CpG島十分類似,顯著地增加了鑒別CpG島的假陽性率。大多數(shù)的多拷貝序列可以通過Repbase數(shù)據(jù)庫中已知的重復類型得以剔除。在Takai和Jones的基礎上應用重復元件篩選后剔除1890個非CpG島,從而得到更加保守的CpG島數(shù)目的估計即27000個。4.基于窗口滑動法的CpG島預測算法首先準備通過實驗方法得到的候選CpG島集合或全基因組序列,然后設定窗口寬度的大小。接著考察窗口內(nèi)的序列片段是否滿足CpG島定義中的長度、GC含量和CpGO/E值中的一個或幾個閾值。一旦發(fā)現(xiàn)窗中的序列片段滿足了CpG島的定義,該片段就被選為候選CpG島,同時掃描窗右移1bp。如果掃描窗中的序列片段不滿足CpG島的定義,掃描窗右移一個窗口的長度。如果掃描得到的CpG島區(qū)域有重疊,則將重疊部分合并。這種依賴于長度、GC含量和CpGO/E值的一個或全部閾值的CpG島識別算法有顯而易見的缺陷:(1)由于這三個閾值的使用使得參數(shù)空間變得很大;(2)預測的CpG島的長度和數(shù)目取決于窗口的長度和步長的預設值,存在主觀任意性;(3)CpG島的起始點一般不是CpG二核苷酸;(4)預測和篩選過程依賴于相同的參數(shù);(5)方法經(jīng)常需要針對特定物種進行調(diào)整。(6)運行時間長。窗口法Analyzeawindow.DoesitmeetCpGislandcriteria?Ifnot,slidetotherightonenucleotideAndanalyzeagain.Andagain.Untilitmeetsthecriteria
Thenjumpaheadandcheckthewindowadjacenttotheislandonthe3’side.Repeatasneeded,untilthenewwindowdoesnotmeettheCpGislandcriteriaThenslidethewindowbacktowardtheisland.KeepslidinguntilthewindowmeetsCpGislandcriteria.Ifitdoesn’tmeetthecriteria,trytrimmingabasepairoffeachendandanalyzingagain.削減OnceitmeetsCpGislandcriteria,moveontothenextadjacentwindowandanalyzethat.
5.基于相鄰CpG二核苷酸距離的
CpG島預測算法CpGcluster是一種獨特的方法,它并不依賴于任何CpG島的閾值,并且由于只涉及算術(shù)運算,計算速度提高很多。工作原理是計算基因組范圍的相鄰CpG二核苷酸之間的距離。該算法利用幾何分布估計出該距離的理論分布,從而計算出CpG二核苷酸進行匯聚的統(tǒng)計學閾值(40bp)。最終,該算法得到197727個CpG島。這個算法得到的CpG島的特點是短而多,但其中包含大量的重復元件。(1)假設有如下一條序列:TTGCGGGTCCTAGAAGTCGCCTCCCCGCCTTGCCGGCCGCCCTTGCAGCCCCGAGCCGAGCAGC(2)CpGcluster首先找到所有的CpG雙核苷酸的位置(粗體):TTGCGGGTCCTAGAAGTCGCCTCCCCGCCTTGCCGGCCGCCCTTGCAGCCCCGAGCCGAGCAGC(3)然后得到CpG雙核苷酸的位置的列表:4;18;26;34;38;52;57(4)通過公式計算相鄰二核苷酸之間的算術(shù)距離:13,7,7,3,13,4;(5)考慮到假設:CpG是伯努利實驗的結(jié)果,這里設成功為CpG,失敗為non-CpG。伯努利實驗的概率p可以通過大量的序列算出。令序列的長度為L,N為CpG的數(shù)目,則。(伯努利實驗,例如投擲硬幣N次,最后一次正面朝上的概率,滿足幾何分布)。所以臨近的CpG雙核苷酸的距離滿足幾何分布,距離d等于失敗的次數(shù)。(6)繪制長度(d)分布和幾何分布的直方分布圖(下頁圖)。從中,我們可以發(fā)現(xiàn)觀測值分布和理論分布差別很大。短距離出現(xiàn)的概率較大。中位數(shù)值恰好可以作為CpG二核苷酸富集的閾值。(7)為了計算之前步驟找到的CpG簇是CpG島的概率,需要給出統(tǒng)計學p值,該p值可由負二項分布給出(伯努利實驗,例如投擲硬幣N次,r次正面朝上的概率,滿足負二項分布)。通過描述CpGcluster的算法原理,我們知道:存在比隨機出現(xiàn)CpG二核苷酸之間距離距離更短的CpG簇,通過合并重合的簇,最終得到的簇就被認為是CpG島。人類基因組1號染色體的鄰接CpG二核苷酸之間距離的概率密度函數(shù)觀察值的分布以空心圓圈表示,而理論分布即幾何分布則用實線表示。中位數(shù)值恰好和理論值吻合。距離小于中位數(shù)值的兩個CpG二核苷酸則被納入CpG島的一部分。X軸為距離d,Y軸為概率p。Median為中位數(shù),Mean為均值,帶圈實線代表觀測值的連線,實線代表幾何分布的概率密度曲線。(來自于CpGcluster:adistance-basedalgorithmforCpG-islanddetection)算法表格展示的是LRRMT1的
上游序列的預測結(jié)果6.結(jié)合功能基因組數(shù)據(jù)的CpG定位方法大多數(shù)的預測算法和序列選擇技術(shù)鑒別的CpG島數(shù)目在24000到27000之間。盡管這些方法之間的差別不大,但是許多鑒別出來的CpG島在不同的預測結(jié)果中并不一致。這種不一致的現(xiàn)象可以通過結(jié)合包括DNA甲基化狀態(tài)和染色質(zhì)修飾在內(nèi)的不同類型的信息到預測方法中來而得以解決。在CpG島預測算法中融合表觀遺傳信息和基因組屬性可能有利于探測方法去除一些看起來有些任意的閾值。例如,Bock等人使用了DNA結(jié)構(gòu),組蛋白修飾,DNA甲基化,轉(zhuǎn)錄因子結(jié)合譜,重復元件,進化保守,DNA序列模式等信息定位人類基因組CpG島,是目前較好的CpG島定位方法。但該方法很難擴展到非人類的物種中,因為注釋數(shù)據(jù)在其他物種并不全面,甚至十分缺乏。(二)實驗方法尋找CpG島為了克服算法帶來的問題,Illingworth等人最近開發(fā)了一項CXXC親和純化技術(shù)(CAP,CXXCaffinitypurification)以富集非甲基化的CpG富集的DNA片段(CpG島)。該技術(shù)使用了半胱氨酸富集的對非甲基化的CpG位點有高親和性的CXXC3結(jié)構(gòu)域。CXXC結(jié)構(gòu)域?qū)χ话谆腃pG位點或缺乏CpG位點的DNA片段幾乎沒有親和性。從小鼠Mbd1中得到的重組的CXXC結(jié)構(gòu)域?qū)Ψ羌谆腃pG位點有高的結(jié)合特異性,并被用于從全基因組DNA中提取CpG島。他們從人類血液中提取了超過17000個CpG島。實驗方法確定的基因組范圍CpG島圖譜(三)CpG島的定位有助于發(fā)現(xiàn)新基因CpG島是重要的調(diào)控元件,是基因起始的標志,可用于新基因的發(fā)現(xiàn)。同時,CpG島通常是不被甲基化的,作為管家基因的重要標志之一。三、實驗檢測技術(shù)測定DNA甲基化狀態(tài)(一)DNA甲基化的檢測方法(二)基因組范圍的DNA甲基化檢測方法(三)基于高通量測序的DNA甲基化檢測方法(四)高通量檢測技術(shù)的選擇策略(一)DNA甲基化的檢測方法目前常用的DNA甲基化檢測方法是將待檢序列中甲基化的胞嘧啶轉(zhuǎn)化為其他堿基組成的變化。最新的檢測方法還用到了基因微陣列(microarray)。1.限制性內(nèi)切酶法2.重亞硫酸鈉法3.親和純化1.限制性內(nèi)切酶法2.重亞硫酸鈉法重亞硫酸鈉(sodiumbisulfite)法3.親和純化(二)基因組范圍的DNA甲基化檢測方法高通量測序是最新發(fā)展起來的但卻是最有前途的全基因組DNA甲基化分析方法。高通量測序技術(shù)的出現(xiàn),使得產(chǎn)生大量序列信息的時間和成本均要低于桑格法。目前,兩種高通量的測序平臺最為流行:一種是454生命科學公司開發(fā)的焦磷酸測序方法,另外一種是Illumina前身的Solexa開發(fā)的基于熒光核苷酸的系統(tǒng)。(三)高通量檢測技術(shù)的選擇策略技術(shù)應用優(yōu)勢局限Illumina磁珠陣列甲基化多態(tài)性發(fā)現(xiàn)和分析定量,多達96個樣品的同時快速分析需要設計引物文庫,同時只能分析1536個位點Affymetrix芯片全基因組甲基化測定探針密度大,支持物種多,可定制,價格合理短寡核苷酸噪聲大,單通道雜交,定制芯片昂貴NimbleGen微陣列全基因組甲基化測定長寡核苷酸探針產(chǎn)生更純凈的數(shù)據(jù),雙通道雜交,定制芯片不昂貴,價格合理較Affymetrix芯片的探針密度小Agilent微陣列大規(guī)模甲基化測定長寡核苷酸探針產(chǎn)生更純凈的數(shù)據(jù),雙通道雜交較Affymetrix和NimbleGen芯片的探針密度小得多Solexa測序全基因組甲基化測定,分析印記位點定量化,無需雜交,并行的基因型信息下一代技術(shù),需要購買昂貴的儀器或服務DNA甲基化大規(guī)模分析可用平臺一覽表四、計算方法預測DNA甲基化(一)從DNA序列預測胞嘧啶甲基化1.CpG位點甲基化預測預測的原理如下:基于n個樣本{xi,yi},i=1,…,n
(其中xi為d維特征構(gòu)成的向量,yi取自{-1,1}而代表類別,-1作為甲基化標記,1作為非甲基化標記)作為訓練數(shù)據(jù),SVM利用下面的判別函數(shù)進行訓練和檢驗:。其中和b為待估參數(shù),使得判別函數(shù)更好地擬合訓練數(shù)據(jù)。當進一步增加窗寬時,SVM的性能并沒有顯著地提高。由于單個CpG位點的甲基化狀態(tài)一般不是一成不變的,因此Methylator幾乎沒有實用價值,不能滿足組織特異分析的要求。實際上,目前尚缺乏有效的CpG位點的預測工具。2.基于序列的CpG島甲基化判別MethCGI先進行了一些預處理,來去除由于實驗誤差產(chǎn)生的錯誤數(shù)據(jù)。主要就是甲基化和非甲基化區(qū)域的邊界精確定位問題,由于DNA的缺失或者后期測序的問題,數(shù)據(jù)中甲基化和非甲基化片段的邊界比較模糊,所以在初始邊界附近定位限制性內(nèi)切酶的識別位點。灰色直線代表DNA序列,黑色豎條代表CpG位點,雙斜線的位置表示實驗數(shù)據(jù)中的初始邊界位點,而箭頭指向的位置就是最靠近初始邊界的酶切位點。在線預測工具MethCGIMethCGI的輸出界面如圖所示,第一列是序列名稱,第二列是CGIF的起始位置,第三列則是CGIF的終止位置,第四列是預測的甲基化狀態(tài),第五列是一個表示甲基化傾向性的值methylation_score),即100個分類器結(jié)果的平均值(預測結(jié)果:容易甲基化用-1表示,不易甲基化用+1表示)。需要指出的是,MethCGI預測結(jié)果實際上是對應一個個CpG島片段給出的。3.使用基因組特征有助于識別CpG甲基化為了鑒別序列相關(guān)的DNA屬性和CpG島甲基化之間的關(guān)系,Bock等人匯集了1184個和序列直接或間接相關(guān)的DNA屬性,對人淋巴細胞的第21號染色體的甲基化狀態(tài)已知的132個CpG島構(gòu)建判別模型。(二)借助其他表觀遺傳修飾譜
預測CpG島甲基化結(jié)合其他表觀遺傳學信息可以提高CpG島預測精度。最近的一項研究使用SVM并整合全基因組范圍的ChIP-Seq數(shù)據(jù)進行CpG島甲基化預測。此外,結(jié)合序列特征,重復元件及轉(zhuǎn)錄因子結(jié)合位點等信息進一步增強了SVM的分類性能。還發(fā)現(xiàn)添加了組蛋白甲基化修飾之后,該預測模型得到了更高分類正確率,同時還發(fā)現(xiàn)了四種顯著影響CpG島甲基化的組蛋白修飾(H3K4me1、H3K4me2、H3K4me3以及H3K9me1)。算法間比較(一)基因組整體低甲基化重復元件所在基因組區(qū)域在正常基因組中是甲基化的,這會保證基因組的穩(wěn)定性,防止轉(zhuǎn)座和基因斷裂的發(fā)生。在癌癥基因組中會發(fā)生全局性的基因組去甲基化,這一現(xiàn)象被成為次甲基化(hypomethylation)。次甲基化可以進一步導致癌癥基因組的遺傳性變異,這通常是腫瘤發(fā)生的特征。在CpG島超甲基化的同時,癌癥基因組經(jīng)歷了全局性的次甲基化。相比正常基因組,大約20%~60%的5-甲基-胞嘧啶的甲基基團脫落。癌癥發(fā)展過程中經(jīng)常伴隨基因轉(zhuǎn)錄區(qū)域的整體性甲基化缺失以及重復元件DNA的去甲基化。五、異常DNA甲基化參與了疾病的發(fā)生(二)印記丟失DNA甲基化還為生殖細胞特異基因和組織特異基因的表達提供表觀遺傳控制。基因組印記需要父本和母本等位中的一份發(fā)生超甲基化而建立單等位表達的模式。類似地,在正常情況下女性基因組中的一條X染色體發(fā)生異染色質(zhì)化。在DNA甲基化的調(diào)控作用中,印記丟失(lossofimprinting)是許多癌癥基因活化的一種機制。(三)基因超甲基化是癌癥的標志超甲基化被認為是所有人類癌癥的一般標志,它幾乎影響所有細胞通路。許多癌癥超甲基化基因本身就是腫瘤抑制基因。例如許多具有抗增殖作用的基因的轉(zhuǎn)錄被癌癥細胞系的CpG島超甲基化所抑制。使用表觀基因組技術(shù)有助于鑒別出癌癥異常甲基化基因,使用生物信息學技術(shù)可以進一步分析受累的通路。在不同的腫瘤類型中,CpG島超甲基化基因通常是不同的。每一種腫瘤亞型可能被一些超甲基化基因或表觀遺傳學標記所區(qū)分,這通常是癌癥診斷十分重要的標志。MeInfoText和PubMeth數(shù)據(jù)庫匯總了癌癥特異的異常甲基化信息。使用生物信息學方法有助于進一步擴充已知的異常甲基化基因列表的信息。第三節(jié)組蛋白修飾的表觀基因組一、組蛋白密碼是重要表觀遺傳標記之一(一)核小體與組蛋白修飾1.核小體與組蛋白組成染色質(zhì)的基本單位是核小體(nucleosome)。每個核小體均由5種組蛋白共同構(gòu)成。組蛋白是指所有真核生物的細胞核中,與DNA結(jié)合的堿性蛋白質(zhì)的總稱。人民衛(wèi)生出版社8年制及7年制臨床醫(yī)學等專業(yè)用《生物信息學》組蛋白修飾位點2.組蛋白修飾與轉(zhuǎn)錄關(guān)于組蛋白修飾在轉(zhuǎn)錄中的作用,已經(jīng)有許多模型如電中性模型、組蛋白密碼以及信號通路模型被提出來。不同的組蛋白修飾類型的作用不盡相同。組蛋白乙酰化主要促使基因表達和DNA復制,使組蛋白乙酰化定位的基因得到動態(tài)的調(diào)控。組蛋白去乙酰化則使基因沉默。組蛋白的磷酸化可以改變組蛋白的電荷,對基因轉(zhuǎn)錄、DNA修復和染色質(zhì)凝聚等過程起調(diào)控作用。組蛋白的泛素化可以降解組蛋白的泛素標記,啟動基因表達。3.組蛋白修飾的命名法一個組蛋白修飾的精確表示由三部分組成:組蛋白名稱+組蛋白尾巴上的位點+修飾類型和個數(shù)。例如基因轉(zhuǎn)錄起始位點富集普遍存在H3K4me3修飾,它是組蛋白H3上,具體的位置為第四個位置即賴氨酸(Lysine,K),該位置存在三個甲基基團。又如H3K9ac,代表組蛋白H3上第九個位置即賴氨酸上發(fā)生的乙酰化修飾。再如H3K9me,則表示組蛋白H3上的第九位置上的甲基化修飾,但并沒有指定甲基集團的數(shù)目,則泛指組蛋白甲基化修飾,這些模糊記法已被廣泛地使用。(二)激活性和抑制性的組蛋白修飾根據(jù)對基因起到激活還是抑制作用,組蛋白修飾可以大致分為兩類:激活性的組蛋白修飾和抑制性的組蛋白修飾。激活性的組蛋白修飾中最常見的是H3K4me。抑制性的組蛋白修飾中最常見的是H3K27me。(三)組蛋白密碼1.動態(tài)而又穩(wěn)定的組蛋白密碼組蛋白的氨基酸殘基可以接受許多種化學修飾,包括甲基化和乙酰化等修飾。質(zhì)譜分析檢測到組蛋白H2A有13個可以接受修飾的位點,H2B、H3和H4則分別有12個,21個和14個可以接受修飾的位點。每個氨基酸殘基位點可以發(fā)生至少一種化學修飾。
2.細胞分化過程中的組蛋白密碼組蛋白修飾的調(diào)控在許多生理過程中起到重要作用,這其中就包括細胞分化。研究發(fā)現(xiàn)組蛋白乙酰化對維持細胞的未分化和多能狀態(tài)十分重要。使用組蛋白去乙酰酶抑制劑有助于維持干細胞的多能性(pluripotency)。相反,用去乙酰酶抑制劑刺激人類成熟細胞或癌癥細胞會誘導分化的進行。因此,表觀遺傳調(diào)控對于細胞成熟至關(guān)重要。到底是什么類型組蛋白修飾或組蛋白修飾組合控制分化呢?如前所述,組蛋白乙酰化有助于保持細胞的多能性。細胞分化過程中的組蛋白修飾變化二、測序技術(shù)提供了基因組范圍組蛋白修飾的分析方法(一)測定組蛋白修飾的高通量技術(shù)(二)分析基因組范圍的組蛋白修飾數(shù)據(jù)(一)測定組蛋白修飾的高通量技術(shù)檢測技術(shù)ChIP-chipChIP-SAGEChIP-Seq定量性受雜交效率影響定量定量分辨率的影響因素染色質(zhì)長度及探針密度酶切效率染色質(zhì)長度,測序深度全基因組范圍實驗花銷多多少實驗對于測定區(qū)域的局限性局限于預設的基因組區(qū)域受酶切位點的限制可覆蓋大部分基因組區(qū)域ChIP–chipChIP–SAGE來自Genome-wideapproachestostudyingchromatinmodificationsChIP–SeqChIP–SeqChIP–Seq(二)分析基因組范圍的組蛋白修飾數(shù)據(jù)1.高通量組蛋白修飾分析工具TilingArrayTileMap基于模型的瓦式芯片分析算法(Model-basedanalysisofTiling–arrayalgorithm,MAT)。ChIP-SeqCisGenomeMACS2.組蛋白修飾峰值探測與其他基于ChIP的高通量技術(shù)一致的是,從ChIP-Seq標簽數(shù)據(jù)鑒別出可靠的組蛋白修飾譜,等價于尋找一段基因組區(qū)域內(nèi)的統(tǒng)計學顯著的組蛋白修飾標簽的峰。一個最直接的想法是,對于一段長度一定的基因組區(qū)域來說,包含R個序列標簽可以從統(tǒng)計學水平支持這段區(qū)域被組蛋白修飾所定位。一般原理構(gòu)造背景分布:泊松分布例:人類基因組gsize=3.0E9*0.8=2.4E9窗寬w基因組期望的標簽數(shù)(CD4+T細胞H3K9me3)求使<0.01當R=3時,p=0.0021,滿足要求。所以,以w為窗寬,將基因組打碎,以d為步長,移動窗口,找出滿足大于3個標簽的窗口,合并后即為組蛋白修飾H3K9me3定位區(qū)域。三、組蛋白修飾與其他表觀遺傳修飾存在協(xié)同調(diào)控關(guān)系(一)DNA甲基化和組蛋白修飾的相互作用(二)通過貝葉斯網(wǎng)絡重構(gòu)DNA甲基化和組蛋白修飾協(xié)同調(diào)控基因表達網(wǎng)絡四、組蛋白修飾異常與人類疾病(一)組蛋白修飾模式的改變被直接和癌癥的發(fā)展相聯(lián)系(二)組蛋白修飾與其他疾病(三)食品營養(yǎng)與癌癥表觀遺傳學第四節(jié)染色質(zhì)的重塑一、染色質(zhì)重塑和核小體(一)核小體是所有染色質(zhì)的亞基(二)核小體有共同的結(jié)構(gòu)二、核小體定位研究(一)核小體相位檢測(二)核小體定位的計算方法研究一、染色質(zhì)重塑和核小體組構(gòu)形式:致密的染色質(zhì)中,大多數(shù)DNA序列在結(jié)構(gòu)和功能上是沒有活性的,只有少數(shù)DNA序列是活性序列。染色質(zhì)的一般結(jié)構(gòu)是怎樣的?功能DNA序列和非功能DNA序列之間有什么區(qū)別?遺傳物質(zhì)的總包裝比很大,這說明DNA不可能直接包裝在染色質(zhì)的最終結(jié)構(gòu)中,而一定存在著一種“組構(gòu)形式”。這種組構(gòu)形式就是核小體。在分裂間期細胞核里的常染色質(zhì)和異染色質(zhì),以及有絲分裂的染色體中,核小體都是其固有成分。核小體的構(gòu)造形成了DNA的一級組構(gòu),其包裝比約為6。核小體的成份和結(jié)構(gòu)已經(jīng)研究得很清楚了。染色質(zhì)重塑誘導染色質(zhì)結(jié)構(gòu)改變的一般過程重塑包括多種變化,一般指染色質(zhì)特定區(qū)域?qū)嗣阜€(wěn)定性的變化重塑因子調(diào)節(jié)機制假設:一個轉(zhuǎn)錄因子獨立地與核小體DNA結(jié)合,然后再結(jié)合一個重塑因子,導致附近核小體結(jié)構(gòu)發(fā)生穩(wěn)定性的變化,導致其他轉(zhuǎn)錄因子的結(jié)合,這是一個串聯(lián)反應的過程
由重塑因子首先獨立地與核小體結(jié)合,不改變其結(jié)構(gòu),但使其松動并發(fā)生滑動,這將導致轉(zhuǎn)錄因子的結(jié)合,從而使新形成的無核小體區(qū)域穩(wěn)定核小體定位是染色質(zhì)重塑的重要過程
核小體組成組蛋白含量雙螺旋DNA在圓柱形八聚體表面盤繞兩圈的示意圖染色質(zhì)結(jié)構(gòu)的基本單元核小體二、核小體定位研究核小體定位可能通過兩種方式實現(xiàn)內(nèi)部途徑:每個核小體都貯存在特殊的DNA序列上
外部途徑:第一個核小體在特殊的偏好位點組裝。一個引起核小體定位的優(yōu)先起始位點會形成排斥核小體結(jié)合的區(qū)域,排斥區(qū)域?qū)⑻峁┰试S鄰近的核小體定位的界線核小體和DNA的相互關(guān)系處于動態(tài)變化中
核小體在DNA雙螺旋上的位置常常被DNA結(jié)合或DNA彎曲狀態(tài)等“屏障物”所限定,使核小體常出現(xiàn)在含有啟動子或調(diào)控元件的區(qū)域附近核小體定位在不同研究中被毋庸置疑地確定是關(guān)鍵
(一)核小體相位檢測微球菌核酸酶-southern印跡法利用核小體結(jié)構(gòu)對DNA的保護作用,使用微球菌核酸酶(micrococcalnuclease,Mnase)消化基因組DNA,然后用southern印跡法進行分析。(二)核小體定位的計算方法研究1.支持向量機方法2.概率模型方法3.整合參考圖譜方法4.其他方法5.軟件支持向量機方法Pham等人利用支持向量機(SVM)的方法對酵母中核小體的定位進行了預測,根據(jù)分類正確率選擇了所有的4-mer和5-mer核苷酸組合作為特征,得到86%的準確率。缺陷是使用了500bp的周圍序列來統(tǒng)計特征,由于一個核小體占據(jù)的DNA序列僅為147bp,而連接區(qū)的DNA序列為8-114bp,這樣一段500bp的局部序列會跨越2個核小體,以此預測核小體定位就顯得牽強。HeatherE.Peckham等人也使用支持向量機方法準確預測了實驗確定的核小體位置在酵母的具有較好特征的啟動子區(qū)域,分析表明只有一個子集的核小體有可能被定位通過內(nèi)在的序列信號。概率模型方法Segal等人對酵母全基因組的核小體定位進行了標記,在此基礎上通過建立概率模型能夠?qū)湍富铙w內(nèi)50%的核小體定位進行預測。結(jié)果表明基因組編碼了一個內(nèi)在的核小體組織,該組織能解釋大約50%的活體內(nèi)的核小體定位。最后的模型還借鑒了熱動力學模型的思想,考慮了位阻效應,對預測模型進行修正,這一工作再將證明核小體定位跟序列是密切相關(guān)的。Segal等人預測核小體定位方法流程圖
概率模型方法步驟:步驟一:提取體內(nèi)穩(wěn)定綁定的單核小體的DNA序列并測序步驟二:數(shù)據(jù)收集步驟三:構(gòu)建核小體-DNA互作的概率模型步驟四:預測核小體全基因組定位的熱力學模型步驟五:模型評價整合參考圖譜方法
CizhongJiang等人針對核小體對于控制基因表達有著位置特異的功能性,當涉及到跨數(shù)據(jù)集的單個核小體(或無核小體區(qū))的功能時,需要一個系統(tǒng)的全基因組范圍的核小體絕對和相對的定位參考圖譜來盡量減少潛在的不確定性。整合參考圖譜:編制了六個來自不同實驗室和探測平臺的高分辨率的基因組范圍的酵母核小體定位圖譜。構(gòu)建一個核小體檢索系統(tǒng),允許用戶在一個給定區(qū)域或是一系列基因中提取核小體位置。CizhongJiang等人構(gòu)建核小體定位分配的流程圖整合參考圖譜方法步驟:步驟一:核小體數(shù)據(jù)集收集及數(shù)據(jù)預處理步驟二:測得的核小體位置“參考集合”的確定步驟三:將參考核小體分配到TSS相關(guān)的一個編號位置步驟四:參考核小體的占有率水平步驟五:連接子和NFRs的確定和分類步驟六:參考核小體的模糊度步驟七:TSS周圍核小體的分布步驟八:將新測得的核小體位置分配到核小體參考位置步驟九:參考核小體的檢索系統(tǒng)4.其他方法RECON方法:這是最早的一個預測核小體定位的工具。該方法將位點向兩側(cè)各延長80bp作為該點的局部序列樣本,將該序列樣本保持核苷酸比例不變隨機打亂,然后將原序列樣本和隨機產(chǎn)生的序列進行分塊,得到各塊內(nèi)部的雙核苷酸的分布情況,從而得么一個最優(yōu)分塊。得到最優(yōu)分塊以后,則可對目標序列分塊并計算一個勢函數(shù)得到待測位點處于核小體內(nèi)的可能性。Peckham等人提出了一個基于判別的計算模型,它只側(cè)重于使用核小體占據(jù)或空缺產(chǎn)生的最強信號的序列作為訓練集。ShobhitGupta等人選擇使用判別性方法因為目前對染色質(zhì)生物學的理解表明實際上有些基因組序列確保了核小體定位,以及有些避免核小體定位。
Ioshikhes等人研究了酵母中核小體定位的序列特征。考慮到影響核小體定位的DNA序列信息相對比較微弱以至于很可能被隨機噪聲湮沒的問題,他們將被相似機理調(diào)控的基因歸為一類進行分析以抑制噪聲的影響。5.軟件CisGenome軟件:一種用于分析全基因組染色質(zhì)免疫沉淀數(shù)據(jù)(ChIP)的軟件系統(tǒng)。它的設計滿足了ChIP數(shù)據(jù)分析的所有基本需求,包括可視化,數(shù)據(jù)標準化,峰值探測,錯誤發(fā)現(xiàn)率計算,基因-峰值關(guān)聯(lián)性和序列及模體分析。MACS:是一個短讀數(shù)測序方法如基因組分析(Illumina/Solexa)的基于模型的ChIP-Seq分析方法,它能用于分析短讀數(shù)測序工具如Solexa基因組分析器產(chǎn)生的數(shù)據(jù)。新一代的平行測序技術(shù)使得測序后的染色質(zhì)免疫共沉淀(ChIP-Seq)成為一個研究基因組范圍的蛋白質(zhì)-DNA互作的流行機制,對分析算法造成了新的挑戰(zhàn)。
SISSRs軟件:一個用于處理ChIP-Seq實驗產(chǎn)生的短讀數(shù)結(jié)合位點的精確驗證的新算法。SISSRs的靈敏度和精確度促進了ChIP-Seq數(shù)據(jù)的具有啟迪作用的見解的進一步的分析,這可指導利用ChIP-Seq實驗繪制真實細胞狀態(tài)下的蛋白質(zhì)-DNA互作圖譜。鑒于該算法的特征,可以將此算法應用于短讀數(shù)峰值的探測。軟件軟件名稱測序物種參考文獻網(wǎng)址NucleosomeMapsoftheSaccharomycesGenome酵母CizhongJiangBFranklinPugh2009.10/NPS(NucleosomePositioningfromSequencing)人類YongZhangetal.2008.11/NPS/軟件方法測序平臺測序物種參考文獻DNA測序RocheG320酵母S288C衍生物BY4741MavrichTNetal.2008DNA測序RocheG320酵母S288C衍生物BY4741YairFieldetal.2008.11DNA測序Solexa人類CD4+T細胞DustinE.Schonesetal2008.3.DNA測序SOLiD秀麗蠅桿線蟲AntonValouevetal2008Parzenwindow-based方法IILuminaSolexa1G酵母S288CSushmaShivaswamyetal.2008.3tiling陣列探針擬合Affymetrix1.0酵母S288CWhitehouseetal.2007.11HMMAffymetrixcustom酵母S288C衍生物BY4741WilliamLeeetal.2007.10概率模型酵母EranSegaletal.2006.8HMMtiling陣列酵母Yuanetal.2005.6預測方法第五節(jié)基因組印記一、基因組印記是非孟德爾遺傳的表觀遺傳現(xiàn)象
基本概念介紹兩種印記基因調(diào)控模式隔離子模型非編碼RNA介導模型印跡控制區(qū)DNA甲基化和組蛋白修飾的相互作用二、機器學習是挖掘印記基因的有效方法主要模式識別方法及預測特征基于主成分分析和二次判別的預測模型三、基因組的印記與表觀遺傳疾病有密切關(guān)系一、基因組印記是非孟德爾遺傳的表觀遺傳現(xiàn)象基因組印記是在母本和父本之間產(chǎn)生功能性區(qū)別并在哺乳動物發(fā)育與生長中起重要作用的一種表觀遺傳學機制。隔離子模型非編碼RNA介導模型組蛋白修飾分布差異印記位點的組蛋白修飾譜迄今實驗鑒定人的印跡基因發(fā)展緩慢,目前人類基因組中預測的印記基因共有205個,其中通過實驗驗證具有印記表達的有53個;小鼠中預測的印記基因共有90個,其中72個經(jīng)實驗驗證具有印記表達。()。基因組印記作為一種單等位基因表達的表觀遺傳現(xiàn)象。很多假設用于解釋為什么基因組印記在哺乳動物中進化,但很少能解釋是如何產(chǎn)生的。宿主防御假說認為印記是從細胞內(nèi)現(xiàn)存的機制沉默插入到基因組中的外源DNA元件發(fā)展而來的。然而,由于缺少現(xiàn)存所有分類大規(guī)模的基因組資源,哺乳動物基因組的改變伴隨印記基因的進化很難定義。預計印記基因占人類基因組的1%,并且至今只發(fā)現(xiàn)了一部分。因此,從預測的角度識別印記基因是一種可行的方法。二、機器學習是挖掘印記基因的有效方法
目前實驗測得印記基因的主要方法是利用DNA甲基化和基因表達分析基因的印記情況,只關(guān)注染色體的一小段區(qū)域。由于基因的單等位表達可能只發(fā)生在特定亞型、組織或發(fā)育階段,所以實驗確定印記基因面臨很多問題。自從單等位基因和雙等位基因不同的重復序列和DNA序列特性的被廣泛關(guān)注,人們開始利用機器學習的方法預測小鼠和人類基因的印記情況。現(xiàn)在國內(nèi)外主要預測印記基因的方法是用機器學習方法基于基因的序列特征預測全基因組印記基因。常用的模式識別方法支持向量機(SVM)徑向基神經(jīng)網(wǎng)絡(RBF)隱馬爾科夫模型Logistic回歸主成分分析和二次判別分析DNA序列特征
CpG島和GC含量
重復序列長散在核元件(LINEs)短散在核元件(SINEs)簡單重復序列DNAelements低復雜度重復序列長末端重復序列(LTRs)基于主成分分析和二次判別的預測模型1.計算訓練基因編碼區(qū)的基因組特征NEWCPGREPORT程序分析CpG二核苷酸的序列,計算CpG島總數(shù)。
http://mobyle.pasteur.fr/cgibin/portal.py?form=newcpgreportRepeatMasker程序分析重復元件,收集重復元件,得到長末端重復序列和簡單重復序列的個數(shù)。
/cgi-bin/WEBRepeatMasker2.標準化數(shù)據(jù)集應用模式識別方法之前,由于各個變量單位是不同的,為了能夠?qū)⒆兞繀⑴c評價計算,需要對其進行規(guī)范化處理,通過函數(shù)變換將其數(shù)值映射到某個數(shù)值區(qū)間。用此方法,可以在同一水平比較所有變量。
常用標準化方法:(1)線性函數(shù)轉(zhuǎn)換,表達式如下:
y=(x-minvalue)/(maxvalue-minvalue)
說明:x、y分別為轉(zhuǎn)換前、后的值,maxvalue、minvalue分別為樣本的最大值和最小值。(2)對數(shù)函數(shù)轉(zhuǎn)換,表達式如下:y=lg(x)
說明:以10為底的對數(shù)函數(shù)轉(zhuǎn)換。(3)反余切函數(shù)轉(zhuǎn)換,表達式如下:y=atan(x)*2/π
3.特征選擇主成分分析(PCA)和二次判別分析(QDA)分析標準化的序列特征數(shù)據(jù)。主成分分析是一種多元統(tǒng)計方法。主要思想是降低數(shù)據(jù)集(代表大量相關(guān)變量)的維度,同時保留盡可能多的變量。當數(shù)據(jù)量過大時,可以利用PCA搜索數(shù)據(jù)質(zhì)量和數(shù)量上的差別。二次判別分析(QDA)主要用于預測序列特征集中的成員。預測變量與二次判別相結(jié)合可以最好的預測預測組成員,使每一個基因基于它的序列特征可區(qū)分為印記基因和非印記基因。4.構(gòu)建模型首先,采用主成分分析技術(shù)。獲得最好的分類是使用下列特征:GC含量,[bp]%CpG島,[bp]%簡單重復序列和[bp]%長末端重復序列。這表明,分類編碼區(qū)研究中其他變量是不顯著的。主成分分析結(jié)果表明,第一主成分(PC1)的貢獻率為49.6%。考慮到第一主成分(PC1)和第二主成分(PC2),累計貢獻率達到72%。PC1和PC2可以通過下列方程組表示,這實際上構(gòu)成了PCA模式識別模型。
(1)PC1=0.535[GC%]+0.511[CGI[bp]%]+0.521[LTR[bp]%]+0.426[SR[bp]%](2)PC2=-0.425[GC%]-0.467[CGI[bp]%]+0.313[LTR[bp]%]+0.71[SR[bp]%]然后,用二次判別分析(QDA)建立一個新的模型。QDA也和主成分分析(PCA)密切相關(guān),都在尋找最佳解釋數(shù)據(jù)的最好組合變量。QDA明確試圖尋找模型數(shù)據(jù)集之間的差異(監(jiān)督模式識別)。而PCA沒有考慮到任何類之間差異(非監(jiān)督模式識別)。5.模型評估根據(jù)軟件的功能,利用內(nèi)部和外部的驗證方法對分類進行評估。QDA模型,采用內(nèi)部驗證方法稱為交叉驗證。此方法使用訓練集檢驗模型。這一過程將訓練集分為幾部分,一部分保留來驗證結(jié)果,其余的用來建立模型。最后,用所有的訓練集建立和驗證模型。PCA模型,我們使用外部驗證檢驗集的方法。檢驗集的個數(shù)必須足夠大(至少為訓練集大小的25%),獨立于訓練集。檢驗集的印跡情況是已知的,所以可用于評估模型。評估印跡基因的預測方法可能存在問題,原因是基因數(shù)量少,主要集中在小的基因組區(qū)域,以及難以實驗驗證。三、基因組的印記與表觀遺傳疾病有密切關(guān)系印記基因?qū)Σ溉閯游锏陌l(fā)育是至關(guān)重要的,哺乳動物的基因印記抑制基因表達,印記基因的異常表達會導致多種人類疾病。研究發(fā)現(xiàn)許多印記基因?qū)ε咛ズ吞撼錾蟮纳L發(fā)育有重要的調(diào)節(jié)作用,對行為和大腦的功能也有很大的影響,印記基因的異常同樣可誘發(fā)癌癥。與基因組印記相關(guān)的疾病常常是由于印記丟失導致兩個等位基因同時表達,或突變導致有活性的等位基因失活所致。調(diào)控基因簇的印記中心發(fā)生突變將導致一系列基因不表達,引發(fā)復雜綜合征。基因組印記的本質(zhì)為DNA修飾和蛋白修飾,所以和印記相關(guān)的蛋白發(fā)生突變也將導致表觀遺傳疾病。印記基因的異常表達引發(fā)伴有復雜突變和表型缺陷的多種疾病。如Prader-Willi綜合征(PWS)、Angelman綜合征(AS)、Beckwit
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- Msoffice學習思維導圖試題及答案
- MySQL視圖性能分析試題及答案
- Msoffice快速提升試題及答案策略
- 成本控制與企業(yè)利潤提升的路徑試題及答案
- 小說化與電影化的區(qū)別試題及答案
- 財務成本管理政策分析題及答案
- 內(nèi)容策略與管理實踐試題及答案
- 輕松破解難關(guān)的計算機二級試題及答案
- 常見二級計算機基礎知識試題及答案匯編
- 深化理解經(jīng)濟法與經(jīng)濟行為試題及答案
- 衛(wèi)生院安全管理制度匯編
- 大學生心理健康教育 課件 13生命教育與幸福感
- 伺服系統(tǒng)面試題及答案
- 2025年小班小手拍拍標準教案
- 校園閑置物品創(chuàng)新創(chuàng)業(yè)
- 法官助理的面試題及答案
- 預見性護理及早期風險識別課件
- 山東省淄博市、濱州市2025屆高三一模語文試題(含答案)
- 大學語文22孔子論孝
- 2025年小學《義務教育數(shù)學課程標準》(2022 年版)測試題庫及答案(共3套)
- 歡樂購物街第2課時 買賣我做主(教學設計)-2024-2025學年 一年級數(shù)學下冊人教版
評論
0/150
提交評論