生物信息資源 基因轉(zhuǎn)錄組的測(cè)定及分析學(xué)習(xí)資料_第1頁
生物信息資源 基因轉(zhuǎn)錄組的測(cè)定及分析學(xué)習(xí)資料_第2頁
生物信息資源 基因轉(zhuǎn)錄組的測(cè)定及分析學(xué)習(xí)資料_第3頁
生物信息資源 基因轉(zhuǎn)錄組的測(cè)定及分析學(xué)習(xí)資料_第4頁
生物信息資源 基因轉(zhuǎn)錄組的測(cè)定及分析學(xué)習(xí)資料_第5頁
已閱讀5頁,還剩161頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基因轉(zhuǎn)錄組的測(cè)定及分析胡松年husn@中國科學(xué)院北京基因研究所大規(guī)模表達(dá)序列標(biāo)簽(EST)測(cè)定及分析1、什么是EST?2、EST的應(yīng)用

3、EST序列測(cè)定及分析過程什么是ESTs?ESTs(ExpressedSequencetags

)是從已建好的cDNA庫中隨機(jī)取出一個(gè)克隆,從5’末端或3’末端對(duì)插入的cDNA片段進(jìn)行一輪單向自動(dòng)測(cè)序,所獲得的約60-500bp的一段cDNA序列。大規(guī)模EST序列測(cè)定的開始1983年:Costanzo等提出EST概念的雛形1991年:Adams測(cè)定了三種人腦組織共609條EST,宣布

了cDNA大規(guī)模測(cè)序的時(shí)代的開始代1991年:Okubo等提出大規(guī)模cDNA測(cè)序的研究戰(zhàn)略1993年:Venter等創(chuàng)立現(xiàn)在的EST技術(shù)1993年:Boguski&Schuler提出以EST為界標(biāo)的人類基因組轉(zhuǎn)錄圖譜計(jì)劃

●●93年前ESTs數(shù)據(jù)收錄于GenBank,EBI和DDBJ。●1993年NCBI(NationalCenterofBiotechnologyInformation)建立了一個(gè)專門的EST數(shù)據(jù)庫dbEST來保存和收集所有的EST數(shù)據(jù)。●95年中期GenBank中EST的數(shù)目超過了非EST的數(shù)目。●現(xiàn)在GenBank中EST的數(shù)目已經(jīng)超過了三千五百萬,約占GenBank中序列數(shù)的60%.EST數(shù)量排名前10的物種Organism ESTsHomosapiens(human) 8,301,471Musmusculus+domesticus(mouse)4,852,146Zeamays(maize) 2,018,798Bostaurus(cattle) 1,620,962Arabidopsisthaliana(thalecress) 1,559,485Daniorerio(zebrafish) 1,527,299Glycinemax(soybean) 1,481,930Xenopustropicalis(westernclawedfrog)1,422,983Oryzasativa(rice) 1,271,375Cionaintestinalis 1,249,110截止到2010年3月19日

EST相關(guān)數(shù)據(jù)庫

儲(chǔ)存EST原始數(shù)據(jù)的一級(jí)數(shù)據(jù)庫◆EMBL◆GenBank(dbEST)◆DDBJ◆UniGene(/UniGene)◆TIGRGeneIndices(/tdb/tgi/)◆

STACK(http://www.sanbi.ac.za/Dbases.html)對(duì)EST進(jìn)行聚類拼接的二級(jí)數(shù)據(jù)庫EST的應(yīng)用1ESTs與基因識(shí)別

ESTs已經(jīng)被廣泛的應(yīng)用于基因識(shí)別,因?yàn)镋STs的數(shù)目比GenBank中其它的核苷酸序列多,研究人員更容易在EST庫中搜尋到新的基因(Boguskietal.,1994).●在同一物種中搜尋基因家族的新成員(paralogs)?!裨诓煌锓N間搜尋功能相同的基因(orthologs)?!褚阎虻牟煌羟心J降乃褜??!咀ⅲ翰贿^很難確定一個(gè)新的序列是由于交替剪切產(chǎn)生的或是由于cDNA文庫中污染了基因組DNA序列(Wolfsbergetal.,1997)】EST的應(yīng)用2ESTs與基因圖譜的繪制

EST可以借助于序列標(biāo)簽位點(diǎn)(sequence-taggedsites)用于基因圖譜的構(gòu)建.STS本身是從人類基因組中隨機(jī)選擇出來的長度在200-300bp左右的經(jīng)PCR檢測(cè)的基因組中唯一的一段序列。來自mRNA的3’非翻譯區(qū)的ESTs更適合做為STSs,用于基因圖譜的繪制。其優(yōu)點(diǎn)主要包括:●由于沒有內(nèi)含子的存在,因此在cDNA及基因組模板中其PCR產(chǎn)物的大小相同;●與編碼區(qū)具有很強(qiáng)的保守性不同,3’UTRs序列的保守性較差,因此很容易將單個(gè)基因與編碼序列關(guān)系非常緊密的相似基因家族成員分開。(JamesSikela等,1991年)EST的應(yīng)用3ESTs與基因預(yù)測(cè)

由于EST來源于cDNA,因此每一條EST均代表了文庫建立時(shí)所采樣品特定發(fā)育時(shí)期和生理狀態(tài)下的一個(gè)基因的部分序列。使用合適的比對(duì)參數(shù),大于90%的已經(jīng)注釋的基因都能在EST庫中檢測(cè)到(Baileyetal.,1998)。ESTs可以做為其它基因預(yù)測(cè)算法的補(bǔ)充,因?yàn)樗鼈儗?duì)預(yù)測(cè)基因的交替剪切和3‘非翻譯區(qū)很有效。

ESTs與SNPs

來自不同個(gè)體的冗余的ESTs可用于發(fā)現(xiàn)基因組中轉(zhuǎn)錄區(qū)域存在的SNPs。最近的許多研究都證明對(duì)ESTs數(shù)據(jù)的分析可以發(fā)現(xiàn)基因相關(guān)的SNPs(Buetowetal.,1999;Gargetal.,1999;Marthetal.,1999;Picoult-Newbergetal.,1999)。應(yīng)注意區(qū)別真正的SNPs和由于測(cè)序錯(cuò)誤(ESTs為單向測(cè)序得來,錯(cuò)誤率可達(dá)2%)而引起的本身不存在的SNPs。解決這一問題可以通過:●提高ESTs分析的準(zhǔn)確性。●對(duì)所發(fā)現(xiàn)的SNPs進(jìn)行實(shí)驗(yàn)驗(yàn)證。EST的應(yīng)用4EST的應(yīng)用5利用ESTs大規(guī)模分析基因表達(dá)水平因?yàn)镋ST序列是從某以特定的組織的cDNA文庫中隨機(jī)測(cè)序而得到,所以可以用利用未經(jīng)標(biāo)準(zhǔn)化和差減雜交的cDNA文庫EST分析特定組織的基因表達(dá)譜。標(biāo)準(zhǔn)化的cDNA文庫和經(jīng)過差減雜交的cDNA文庫則不能反應(yīng)基因表達(dá)的水平?!?/p>

CGAP

為研究癌癥的分子機(jī)理,美國國家癌癥研究所NCI的癌癥基因組解析計(jì)劃(CancerGenomeAnatomyProject,CGAP)構(gòu)建了很多正常的或是癌癥前期的和癌癥后期的組織的cDNA文庫,并進(jìn)行了大規(guī)模的EST測(cè)序,其中大部分的文庫未經(jīng)標(biāo)準(zhǔn)化或差減雜交處理。CGAP網(wǎng)站提供了多種工具用以分析不同文庫間基因表達(dá)的差異,如:●

DigitalGeneExpressionDisplayer(DGED)●

cDNAxProfiler◆基因表達(dá)系列分析(SerialAnalysisofGeneExpression,SAGE)

基因表達(dá)系列分析是一種用于定量,高通量基因表達(dá)分析的實(shí)驗(yàn)方法(Velculescuetal.,1995)。SAGE的原理就是分離每個(gè)轉(zhuǎn)錄本的特定位置的較短的單一的序列標(biāo)簽(約9-21個(gè)堿基對(duì)),這些短的序列被連接、克隆和測(cè)序,特定的序列標(biāo)簽的出現(xiàn)次數(shù)就反應(yīng)了對(duì)應(yīng)的基因的表達(dá)豐度。◆

DNA微陣列或基因芯片的研究高密度寡核苷酸cDNA芯片或cDNA微陣列是一種新的大規(guī)模檢測(cè)基因表達(dá)的技術(shù),具有高通量分析的優(yōu)點(diǎn)。在許多情況下,cDNA芯片的探針來源于3'EST(Dugganetal.,1999),所以EST序列的分析有助于芯片探針的設(shè)計(jì)。EST技術(shù)流程體內(nèi):翻譯體外研究:反轉(zhuǎn)錄連接,轉(zhuǎn)化轉(zhuǎn)化效率問題(基因芯片)文庫構(gòu)建技術(shù)已經(jīng)成熟測(cè)序采樣問題(SAGE)測(cè)序成本已經(jīng)大大降低大數(shù)據(jù)量分析理念已經(jīng)形成Serialanalysisofgeneexpression(SAGE)技術(shù)流程反轉(zhuǎn)錄酶切連接測(cè)序單條測(cè)序==對(duì)30-40條EST測(cè)序分析低豐度表達(dá)基因、基因表達(dá)量分析、新基因、上下調(diào)控基因鑒定、表達(dá)的復(fù)合效應(yīng)實(shí)驗(yàn)步驟較長要求較高Serialanalysisofgeneexpression(SAGE)

技術(shù)流程SAGE文庫的構(gòu)建:NlaIII(錨定酶)酶切,該酶能夠識(shí)別CATG位點(diǎn)并在其3′端進(jìn)行酶切;鏈霉素包被的磁珠進(jìn)行親和純化;將cDNA分為A和B兩部分,分別連接接頭A或接頭B,每一種接頭都含有CATG四堿基突出端、限制性內(nèi)切酶BsmFI的識(shí)別序列和一個(gè)PCR引物序列(引物A或B);用標(biāo)簽酶BsmFI酶切,該酶在其識(shí)別位點(diǎn)3′端下游的14-17bp處進(jìn)行酶切,產(chǎn)生連有接頭的短cDNA片段;混合并連接兩個(gè)短cDNA片段,構(gòu)成雙標(biāo)簽(ditag)后,用引物A和B進(jìn)行PCR擴(kuò)增;錨定酶NlaIII切割擴(kuò)增產(chǎn)物,抽提SAGE雙標(biāo)簽片段;并用T4DNA連接酶連接成多聚體(concaterner);選擇合適的片斷長度,克隆進(jìn)載體;得到的克隆插入序列由一系列的20-22bp長的SAGE雙標(biāo)簽組成,每兩個(gè)雙標(biāo)簽中間由4bp的NlaIII酶切位點(diǎn)分隔開。SAGE文庫的測(cè)序:單向測(cè)序。 Serialanalysisofgeneexpression(SAGE)

分析流程在雙標(biāo)簽多聚體序列中定位NlaIII酶切位點(diǎn)(即CATG);提取CATG位點(diǎn)之間的20-22bp長的雙標(biāo)簽序列;去除重復(fù)出現(xiàn)的雙標(biāo)簽序列,包括反向互補(bǔ)方向上重復(fù)的雙標(biāo)簽序列;截取每個(gè)雙標(biāo)簽序列最靠近兩頭末端的10個(gè)堿基,即為標(biāo)簽序列;去除與接頭序列相對(duì)應(yīng)的標(biāo)簽(即TCCCCGTACA和TCCCTATTAA),同時(shí)去除含有不確定堿基(即除A、C、T、G四種堿基以外的堿基)的標(biāo)簽;計(jì)算每個(gè)標(biāo)簽的出重復(fù)次數(shù),以列表的形式給出一個(gè)包含每個(gè)標(biāo)簽及其表達(dá)豐度的報(bào)告。

基因芯片或微陣列技術(shù)流程….….Clone反轉(zhuǎn)錄(可選)讀取光密度聚類分析(非同源功能注釋)標(biāo)記雜交反轉(zhuǎn)錄EST分析………….………….………….GeneChip0.10.060.050.04…000.070.01…表達(dá)量矩陣G1,G3,G5G2,G4G6,G9…利用EST,SAGE分析結(jié)果制作芯片(研究已發(fā)現(xiàn)的基因)連接,轉(zhuǎn)化Ricegenome-wideDNAchip(60,000+預(yù)測(cè)基因)

果蠅基因芯片…原位合成

幾種大規(guī)模分析基因表達(dá)水平的方法的比較

◆ESTs很短,沒有給出完整的表達(dá)序列;◆低豐度表達(dá)基因不易獲得。◆由于只是一輪測(cè)序結(jié)果,出錯(cuò)率達(dá)2%-5%;◆有時(shí)有載體序列和核外mRNA來源的cDNA污染或是基因組DNA的污染;◆有時(shí)出現(xiàn)鑲嵌克??;◆序列的冗余,導(dǎo)致所需要處理的數(shù)據(jù)量很大。ESTs數(shù)據(jù)的不足

技術(shù)路線cDNA文庫構(gòu)建隨機(jī)測(cè)序得到EST序列讀取與處理序列拼接和注釋表達(dá)豐度和功能分析表達(dá)譜特征分析表達(dá)量在不同文庫中的分布表達(dá)譜的比較分析差異表達(dá)基因鑒定與分類功能分析作用機(jī)理分析Q-PCR驗(yàn)證

EST軟件平臺(tái)EST序列庫/序列的質(zhì)量檢查測(cè)序量監(jiān)控聚類和拼接檢查(借助于基因組信息)全長ORF尋找發(fā)現(xiàn)全長基因研究表達(dá)基因概況的主要實(shí)驗(yàn)手段(DNAchip、proteomics的先驅(qū))功能分類表達(dá)量分析SAGE的先驅(qū)交替剪接檢測(cè)EST特有信息cDNA文庫構(gòu)建◆

非標(biāo)準(zhǔn)化的cDNA文庫的構(gòu)建。(可用于基因表達(dá)量的分析)◆

經(jīng)標(biāo)準(zhǔn)化或扣除雜交處理的cDNA文庫。(富集表達(dá)豐度較低的基因)◆

Oligod(T)cDNA文庫。(非翻譯區(qū)由于不含有編碼序列,與編碼區(qū)保守序列相比所受到的選擇壓力比較小,因而其多態(tài)性程度比較高,便于多態(tài)性位點(diǎn)的選擇以用于遺傳圖譜的構(gòu)建。)◆隨機(jī)引物cDNA文庫。(所獲得的EST在基因功能的鑒定時(shí)具有更多的信息含量,并且在構(gòu)建EST數(shù)據(jù)庫時(shí)更有優(yōu)勢(shì),同時(shí)有利于利用EST數(shù)據(jù)庫聚類完整的基因和閱讀框的尋找,便于利用更敏感的蛋白質(zhì)比較來尋找同源基因。)cDNA文庫構(gòu)建常見問題RNA得率低mRNA分離效率低cDNA產(chǎn)物少原因:多糖、多酚、內(nèi)源性核酸蛋白酶、miRNA等原因多糖-糖蛋白(核酸蛋白酶,植物血凝素等)、多酚類等次生代謝產(chǎn)物在RNA分離時(shí),經(jīng)常與RNA共沉降,導(dǎo)致RNA丟失?;?qū)е路蛛x后的RNA嚴(yán)重不純,影響mRNA分離的得率。內(nèi)源性核酸酶存在較多的情況下,可降解雙鏈DNA、RNA或者DNA-RNA雜合體,致使RNA易降解,轉(zhuǎn)錄后的DNA接頭無法連接,是cDNA得率低的原因之一。miRNA的存在導(dǎo)致mRNA的降解測(cè)序方向的選擇根據(jù)不同的實(shí)驗(yàn)?zāi)康倪x擇不同的測(cè)序方向:◆5’端

5’上游非翻譯區(qū)較短且含有較多的調(diào)控信息。一般在尋找新基因或研究基因差異表達(dá)時(shí)用5’端EST較好,大部分EST計(jì)劃都是選用5’端進(jìn)行測(cè)序的,而且從5’端測(cè)序有利于將EST拼接成較長的基因序列。◆3’端

3’端mRNA有一20-200bp的plyA結(jié)構(gòu),同時(shí)靠近plyA又有特異性的非編碼區(qū),所以從3’端測(cè)得EST含有編碼的信息較少.但研究也表明,10%的mRNA3’端有重復(fù)序列,這可以作為SSR標(biāo)記;非編碼區(qū)有品種的特異性,可以作為STS標(biāo)記.◆兩端測(cè)序

獲得更全面的信息。1.

去除低質(zhì)量的序列(Phred)2.

應(yīng)用BLAST、RepeatMasker或Crossmatch遮蔽數(shù)據(jù)組中不屬于表達(dá)的基因的贗象序列(artifactualsequences)?!褫d體序列(/repository/vector)

●重復(fù)序列(RepBase,)●污染序列

(如核糖體RNA、細(xì)菌或其它物種的基因組DNA等)3.

去除其中的鑲嵌克隆。4.

最后去除長度小于100bp的序列。序列前處理(pre-processing)1:線粒體基因(8.76%)3:核糖體基因(0.14%)4:重復(fù)序列(0.10%)5:基因組DNA(1.95%)6:新基因或EST(27.07%)7:其他已知基因(61.75%)2:E.Coli污染基因(0.23%)家豬脂肪的EST數(shù)據(jù)分析結(jié)果文庫質(zhì)量檢驗(yàn):Contaminationandhouse-keepinggeneexpressionlevel

文庫質(zhì)量檢驗(yàn):CloneduplicationanalysisControlsarenon-normalizedhumanESTlibrariesconstructedbydifferentprotocols:Krizmanprotocol1(Lib281)Krizmanprotocol2(Lib675andLib774)LTInon-normalized(Lib6346)Soaresnon-normalized(Lib185)序列質(zhì)量檢驗(yàn):LengthandqualitydistributionQualitycheckprocess:Headandtailtrim(Phred0.05)Vectormasking,repeatmasking,contaminationmasking(CrossMatch)Droppedsequenceshortthan100bpsaftertrimandmasking86,136sequencespassedoursequencequalitycheck41,076ESTshavemorethan80%overallidentitytopublicricesequences(BLASTN,E-value1E-15),andthusabout45,000ESTsmaybeconsiderednovelMostsequencesareof600bpsandwithqualityscore40(errorrate0.0001)鑲嵌克隆的識(shí)別?Back-to-backpoly(A)+tails.?

Linker-to-linkerinmiddleofthesequence.?

Blastn/Blastxsearch.Alignedthecontigconsensitoriceindica9311genome.Aforcedjointwasmadeiftwocontigshaveoverlapregiononthegenome.(validatedby1045ricecDNAs)Atotalof3,926contigsweremergedresultedinreductionofourcontignumbersfrom32,489to30,222拼接質(zhì)量檢驗(yàn):MergencecheckESTs的聚類和拼接

聚類的目的就是將來自同一個(gè)基因或同一個(gè)轉(zhuǎn)錄本的具有重疊部分(over-lapping)的ESTs整合至單一的簇(cluster)中。聚類作用:產(chǎn)生較長的一致性序列(consensussequence),用于注釋。降低數(shù)據(jù)的冗余,糾正錯(cuò)誤數(shù)據(jù)??梢杂糜跈z測(cè)選擇性剪切?;虮磉_(dá)譜分析ESTs聚類的數(shù)據(jù)庫主要有三個(gè):

UniGene(/UniGene)TIGRGeneIndices(/tdb/tgi/)STACK(http://www.sanbi.ac.za/Dbases.html)

(ESTclusteringtutorial,httP://www.sanbi.ac.za)不嚴(yán)格的和嚴(yán)格的聚類(looseandstringentclustering)◆looseclustering●產(chǎn)生的一致性序列比較長●表達(dá)基因ESTs數(shù)據(jù)的覆蓋率高●含有同一基因不同的轉(zhuǎn)錄形式,如各種選擇性剪接體●每一類中可能包含旁系同源基因(paralogousexpressedgene)的轉(zhuǎn)錄本●序列的保真度低◆stringentclustering●產(chǎn)生的一致性序列比較短●表達(dá)基因ESTs數(shù)據(jù)的覆蓋率低●因此所含有的同一基因的不同轉(zhuǎn)錄形式少●序列保真度高

(ESTclusteringtutorial,httP://www.sanbi.ac.za)有參照的和無參照的聚類(Supervisedandunsupervisedclustering)◆Supervisedclustering

根據(jù)已知的參考序列(如全長mRNA、已拼接好的一致性序列)聚類。◆

Unsupervisedclustering

沒有根據(jù)參考序列進(jìn)行分類。

常用的拼接軟件◆Phrap(/UWGC/analysistools/Phrap.cfm)◆CAP3(XiaoqiuHuang

,huang@)◆TIGR_Assember(/software/assembler/)Cluster的連接利用cDNA克隆的信息和5’,3’端Reads的信息,不同的Cluster可以連接在一起。UniGene◆Unigene結(jié)合有指導(dǎo)的和無指導(dǎo)的方法,而且在聚類過程中使用了不同水平的嚴(yán)格度,聚類的算法為megablast,數(shù)據(jù)庫不產(chǎn)生一致性序列。TIGRGeneIndex◆TIGRGeneIndex用的是有嚴(yán)格的和有指導(dǎo)的聚類方法,聚類的算法為類似于BLAST和FASTA的FLAST,該法得到的一致性序列較短,交替剪切得到的不同的基因?qū)儆诓煌乃饕?。STACK◆

STACK用不嚴(yán)格的和無指導(dǎo)的聚類方法,聚類的算法為d2_cluster,產(chǎn)生較長的一致性序列,同一索引中含有不同的剪切方法得到的基因。CleanShortandTightTIGR-THCUniGeneSTACKLongandLoose聚類問題錯(cuò)拼poly(A),Linker-to-linker,GeneFamilies,repeat漏拼Lowquality,Linker-to-linker,repeat選擇性剪切polyAlinker

測(cè)序飽和度的分析基因在不同文庫中表達(dá)豐度的比較所有表達(dá)基因在不同文庫間的分布

6354713544201657(53%)2412(61%)1608(53%)93-11(3117)PA64s(3938)LYP9(3017)基因注釋及功能分類注釋:◆序列聯(lián)配

Blastn,Blastx◆蛋白質(zhì)功能域搜索(二結(jié)構(gòu)比對(duì))PfamInterproscan

較好匹配InterproScanNtBlastnESTsequencesNrBlastx完成注釋無理想匹配較好匹配完成注釋無理想匹配較好匹配無理想匹配Newsequences域的注釋后續(xù)分析常用的基因注釋流程

基因注釋數(shù)據(jù)庫注釋上的基因所占比例TIGROGI(ver17)712694.3TIGRPseudoMolecule(ver5)615181.4NCBIUNIGENE(ver62)671488.8NCBInrproteindatabase583177.293-11BGI_Scan585477.5Uniprotproteindatabase362848.0TIGRtoGO456560.4KEGGAutomaticAnnotationServer94512.5一共有7250(95.9%)的unigenes被注釋。

基因功能分類◆手工分類大部分以Adams95年的文章中的采用分類體系為標(biāo)準(zhǔn)?!続dams.MD,etal.Initialassessmentofhumangenediversityandexpressionpatternsbasedupon83millionnucleotidesofcDNAsequence.Nature.1995377(6547Suppl):3-174】◆計(jì)算機(jī)批量處理利用標(biāo)準(zhǔn)基因詞匯體系GeneOntology,進(jìn)行近似的分類(分子功能、生物學(xué)過程、分子組分)。(/)◆

基因產(chǎn)物直系同源簇的分析(COG)

(/COG/)

GO的組織結(jié)構(gòu):定向無環(huán)圖(directedacyclicgraphs[DAGs])各大數(shù)據(jù)庫中基因或基因產(chǎn)物與GO術(shù)語的對(duì)照其它分類系統(tǒng)與GO的對(duì)照表

表1:家豬脂肪組織的已知基因功能分類表2:豬脂肪組織與豬胚胎胸腺組織和豬甲狀腺組織表達(dá)譜的比較參考文獻(xiàn):1、豬脂肪組織表達(dá)序列標(biāo)簽(ESTs)大規(guī)模測(cè)序及分析鄧亞軍等,遺傳學(xué)報(bào),Vol.31,NO.11,20042、兩種家豬心臟組織基因表達(dá)譜的分析曾燕舞等,遺傳學(xué)報(bào),Vol.31,No.6,2004

EST的代謝途徑分析(KEGG)

http://www.genome.ad.jp/kegg/

后續(xù)分析◆比較基因組學(xué)分析◆基因表達(dá)譜分析◆新基因研究◆基因可變剪切分析◆實(shí)驗(yàn)驗(yàn)證

?

MicroArray

?GeneChip

?RT-PCR

?Northernblotting利用新一代測(cè)序儀進(jìn)行轉(zhuǎn)錄組學(xué)的研究

RNAseqisapowerfultooltodetcetthewholetransciptomeincellandtissue.PreviousRNAseqresearchfocusonmRNA,butrecentstudiesprovethatpartoffunctionalnoncodingtransctiptandprotein-codingRNAsarelackofpolyA.ContentoftranscriptomeGenes:expression,alterantesplicesNoncodingRNA: snoRNA,mRNA-likencRNA,snRNA,someantisensetranscripts,pesudogenes,retrotransposon,andothersfunctionalRNAs3. Somerepeatelements

BackgroundmRNA-seqBackgroundSAGEHashimotoS-i,etal.(2009)PLoSONETotalRNARibosomalRNADepletion18SRNA28SRNArRNA-depletedRNAFragmentationofRNALigationtoAdaptorcDNA

RTandRNaseHDigestionP2PrimerP1PrimercDNAAmplificationExcisecDNA~140-200bp(toRNA~50-110nt)SizeSelectionbyPAGE

SOLiDemulsionPCRSOLiDSequencingrRNAdepletionResultResult

MappingstrategyJunctiondatabaseconstructionPrimaryanalysis>distributereadsDistributetheuniquemappingreadstogenesmodel.GeneexpressionnormalizationRPKM:

quantifiedtranscriptlevelsinreadsperkilobaseofexonmodelpermillionmappedreadsCisthenumberofmappablereadsthatfellontothegene’sexons,Nistotalnumberofmappablereadsinexperiment.(Normalizebetweenlibraries)Listhelengthofgene’sexons.(Normalizeinlibrary)Primaryanalysis>distributereadsDistributionofrandommappingreadsaccordingtoprimaryRPKMre-calculatetheRPKM geneexpressionvalueDifferentialexpressionIDEG6PathwayanalysisGenMapp MappingbrowserUCSCGenomebrowserFunctionanalysisGO,KEGGMappingresultmRNA-seqribominusRNA-seqTotalreads92914107140233818Uniquemapping2646580628.48%2609238018.61%Multiplemapping43945144.73%2567128918.31%Junctionmapping13351411.44%7717560.55%Ribomapping13587531.46%1410382910.06%un-mappable5935989363.89%7359456452.48%Multiple>10randomtags71837216.35%1787661069.64%2-10randomtags367614283.65%779467930.36%Uniquemapintron391023114.77%647456124.81%exon-exonjunction6567912.48%4030311.54%exon1574546959.49%769826329.50%others615331523.25%1151652544.14%DetectedgenesbytwomethodsAnotherdistributionRibominusRNAseqprovidesmoreevencoveragealongthegenebodyGenescorrelationAnalysisGeneexpressionprofileanalysisIntronexpressionanalysisNon-codingregionidenficationAntisensetranscriptsidenficationRepeatsequenceexpression

基因表達(dá)譜的分析專一比對(duì)到外顯子的序列數(shù)×109外顯子長度×專一比對(duì)的所有序列數(shù)基因表達(dá)豐度:RPKM=79

三個(gè)時(shí)期表達(dá)基因的聚類分析基因表達(dá)譜的分析80AnnotationfornoncodingRNA1.Collectionannotationdata:NoncodingRNAdatabaseRNAdbfRNAdbNONCODEFANTOM3RefseqEnsemblAnnotationfornoncodingRNA2.Integratealltheknowntranscriptionregionsandnameregionsaccordingtodatabaserank.3.Mappingreadstoabove-mentioneddata4.Clustertheremainreads.Non-codingidentification(Brain)Non-codingidentification(Hela)NoncodingRNAdistributionintheannotationdatabaseNoncodingregions’plots

Distributionofnon-codingregion(Brain)Distributionofnon-codingregion(Hela)PowerfuldetectionforsometransctiptsPowerfuldetectionforsometransctiptsPowerfuldetectionforsometransctiptsRepeatregionexpressionIntronexpressionJunctionexpressionExonskipismoreprevalence

Antisensetranscripts(Brain)Antisensetranscripts(Hela)AntisensetranscriptsBrainHelaAntisensetranscriptsConclusionrmRNA-seqidentifiedmorenoveltranscriptsfromtheintergenic,intronicandrepeatsequencesregions,asthecandidatepolyA-transcriptsthereadsfromrmRNA-seqshowamoreuniformdistributionacrossgenescomparedtothosefrommRNA-seq,whichimprovesthesensitivityofdetection,accuracyofquantificationandcompletenessofspliceandexonmaps

ExonexpressionRNA-seq技術(shù)與芯片技術(shù)的比較方法 表達(dá)芯片 Tilling芯片 RNA-seq

與基因組大小相關(guān)分辨率 N/A (人/小鼠≥35bp)1bp成本 低 低-高,與芯片密度相關(guān)高檢測(cè)范圍<4個(gè)數(shù)量級(jí) <2數(shù)量級(jí)與測(cè)序量及實(shí)際表達(dá)量相關(guān)靈敏度中 低 高新轉(zhuǎn)錄本不可以有限可以可變剪接不可以有限可以可變調(diào)控區(qū)不可以 可以可以反義轉(zhuǎn)錄本 N/AN/A可以SNPs,突變有限有限可以等位表達(dá)差異 有限有限可以數(shù)據(jù)量0.01-0.05Gb 0.1-1Gb 1-15Tb生物信息分析 低 高 極高引自Wilhelm,B.等,2009BrainHelaRNA-seq的優(yōu)勢(shì)不局限于已知的基因組序列信息,適用于未知基因組序列的物種的高通量轉(zhuǎn)錄組研究相對(duì)于芯片技術(shù),背景信號(hào)值低,沒有檢測(cè)上限,對(duì)于基因表達(dá)譜有非常寬的檢測(cè)范圍。在有內(nèi)參的情況下,在定量方面顯示出了較高的準(zhǔn)確度和可重復(fù)性。不需要克隆的步驟,操作簡單,需要的樣本量少,可以在單細(xì)胞的水平上進(jìn)行表達(dá)譜分析通量高,成本比Tillingarray或者大規(guī)模的EST測(cè)序要低。RNA-seq的挑戰(zhàn)文庫構(gòu)建過程中大片段的RNA必須經(jīng)過片段化處理,會(huì)引入一定的偏倚。PCR會(huì)造成表達(dá)量的變化。海量短序列數(shù)據(jù)的比對(duì)或拼接情況復(fù)雜,對(duì)重復(fù)序列和多匹配序列的精確定位存在明顯問題。高等真核生物可變剪接和反式剪接的鑒定仍有相當(dāng)?shù)恼`差。測(cè)序深度的確定因物種、器官、組織、時(shí)期而變,很難有統(tǒng)一公式直接計(jì)算。

RNA-seqPipelineRNAmiRNA

StudyofthefunctionofRAD9inmouseEScellsbyusingSOLiDtranscriptomeprofiling中科院北京基因組研究所114rad9基因的功能TSSpArad9(6.45kb)19qA19qB19qC119qC219qC319qD119qD219qD3chr19PCNAdomainRAD9(389aa)中科院北京基因組研究所115Functionalofrad9rad9基因功能

DNA損傷修復(fù)細(xì)胞周期調(diào)控細(xì)胞周期檢驗(yàn)點(diǎn)細(xì)胞凋亡基因表達(dá)調(diào)控中科院北京基因組研究所116

HUHUMEScell(rad9+/+)MEScell(rad9-/-)MEScell(rad9+/+HU)MEScell(rad9-/-HU)中科院北京基因組研究所117(一)RNA-seq數(shù)據(jù)的注釋文庫

rad9+/+rad9+/+HU

rad9-/-

rad9-/-HU原始序列數(shù)124844521741453077497676771785677專一比對(duì)到基因組的序列數(shù)19841883(15.89%)12559817(16.94%)15931603

(21.25%)16295605

(22.7%)多處比對(duì)到基因組的序列數(shù)11122526(8.91%)13882945(18.73%)13329492(17.78%)20246560

(28.21%)比對(duì)到外顯子連接處序列數(shù)357399

(0.29%)262490

(0.35%)421659

(0.57%)451795

(0.62%)整體的注釋率31321808(25.09%)26705252(36.02%)29682754(39.60%)36993960(51.53%)RNA-seq的數(shù)據(jù)注釋結(jié)果中科院北京基因組研究所118RNA-seq數(shù)據(jù)的注釋(續(xù))專一比對(duì)到基因組的序列在基因區(qū)和基因間區(qū)的分布rad9+/+rad9-/-rad9-/-HUrad9+/+

HU

中科院北京基因組研究所119(二)基因表達(dá)譜的分析文庫

rad9+/+

rad9+/+HU

rad9-/-rad9-/-HURNA-seq(>5tags)17320

152961591216569

DNA-chip11036

1158811041

11905表達(dá)基因的種類中科院北京基因組研究所120基因表達(dá)譜的分析(續(xù))RNA-seq與DNA-chip對(duì)基因檢測(cè)能力分析rad9+/+rad9+/+HUrad9-/-rad9-/-HU中科院北京基因組研究所121基因表達(dá)譜的分析(續(xù))RNA-seq與DNA-chip對(duì)檢測(cè)到的基因表達(dá)量的分布rad9

+/+rad9+/+HUrad9-/-rad9-/-HU中科院北京基因組研究所122基因表達(dá)譜的分析(續(xù))RNA-seq與DNA-chip對(duì)基因表達(dá)譜檢測(cè)的相關(guān)性分析中科院北京基因組研究所123基因表達(dá)譜的分析(續(xù))RNA-seq與DNA-chip對(duì)差異基因檢測(cè)的相關(guān)性分析rad9

-/-vsrad9

-/-HU中科院北京基因組研究所124(三)內(nèi)含子區(qū)域表達(dá)的分析基因的外顯子和內(nèi)含子表達(dá)豐度的相關(guān)性分析中科院北京基因組研究所125內(nèi)含子區(qū)域表達(dá)的分析(續(xù))基因內(nèi)含子區(qū)域有明顯表達(dá)舉例中科院北京基因組研究所126(四)基因間區(qū)域表達(dá)的分析基因間表達(dá)區(qū)域的鑒定rad9+/+rad9+/+HUrad9-/-rad9-/-HU中科院北京基因組研究所127基因間區(qū)域表達(dá)的分析(續(xù))基因5’UTR和3’UTR延伸區(qū)域的表達(dá)中科院北京基因組研究所128基因間區(qū)域表達(dá)的分析(續(xù))基因間表達(dá)區(qū)域的鑒定rad9+/+rad9+/+HUrad9-/-rad9-/-HU中科院北京基因組研究所129基因間區(qū)域表達(dá)的分析(續(xù))Non-codingRNA的表達(dá)中科院北京基因組研究所130基因間區(qū)域表達(dá)的分析(續(xù))基因間表達(dá)區(qū)域的鑒定rad9+/+rad9+/+HUrad9-/-rad9-/-HU中科院北京基因組研究所131基因間區(qū)域表達(dá)的分析(續(xù))新鑒定的基因間區(qū)轉(zhuǎn)錄位點(diǎn)在四個(gè)文庫中的比較rad9+/+rad9+/+HUrad9-/-rad9-/-HUrad9-/-HUrad9-/-rad9+/+HUrad9+/+中科院北京基因組研究所132(五)基因可變剪切的分析pATSSTSSpAGenomicDNATranscriptionStartSiteExonPolyadenylation中科院北京基因組研究所133基因可變剪切的分析(續(xù))在四個(gè)文庫中外顯子連接形式的鑒定rad9-/-rad9

-/-HU

rad9+/+

rad9+/+HUrad9-/-rad9-/-HUrad9+/+rad9+/+HUrad9+/+

rad9+/+HUrad9-/-rad9

-/-HU中科院北京基因組研究所134基因可變剪切的分析(續(xù))在四個(gè)文庫中外顯子連接形式的鑒定以及比較中科院北京基因組研究所135(六)反義轉(zhuǎn)錄本的分析

基因具有反義轉(zhuǎn)錄本舉例中科院北京基因組研究所136反義轉(zhuǎn)錄本的分析(續(xù))基因正義和反義表達(dá)豐度的相關(guān)性分析中科院北京基因組研究所137反義轉(zhuǎn)錄本的分析(續(xù))反義轉(zhuǎn)錄本在基因組上分布的偏好性中科院北京基因組研究所138(七)差異表達(dá)基因的分析HUHUMEScell(rad9+/+)MEScell(rad9-/-)MEScell(rad9+/+HU)MEScell(rad9-/-HU)中科院北京基因組研究所139差異表達(dá)基因的分析(續(xù))文庫

rad9+/+rad9-/-

rad9+/+HUrad9-/-HU

rad9+/+

rad9+/+HU

rad9-/-

rad9-/-HU差異基因5989

546045605591

上調(diào)基因5598

492614211881

下調(diào)基因391

5343139

3710文庫間差異基因的比較中科院北京基因組研究所140差異表達(dá)基因的分析(續(xù))rad9基因敲除后上下調(diào)基因的功能分類(GO)

rad9+/+vsrad9-/-up-regulatedgenesrad9+/+HUvsrad9-/-HUup-regulatedgenes中科院北京基因組研究所141中科院北京基因組研究所142差異表達(dá)基因的分析(續(xù))小結(jié)通過rad9+/+與rad9-/-,rad9+/+HU與rad9-/-HU基因表達(dá)譜的比較,我們得知rad9

敲除后的MES細(xì)胞大部分基因表達(dá)活性增強(qiáng),而這種基因組整體轉(zhuǎn)錄水平的上調(diào),可能是受到表觀遺傳學(xué)的調(diào)控。根據(jù)這個(gè)結(jié)果,我們認(rèn)為rad9基因一個(gè)重要新功能是參與表觀遺傳學(xué)的調(diào)控。中科院北京基因組研究所143差異表達(dá)基因的分析(續(xù))上調(diào)基因與CpGisland

的相關(guān)性分析rad9+/+vsrad9-/-up-regulatedgenesrad9+/+HUvsrad9-/-HUup-regulatedgenes中科院北京基因組研究所144差異表達(dá)基因的分析(續(xù))HU對(duì)細(xì)胞毒性作用HU是一種用于治療骨髓白血病和實(shí)體瘤的核糖核苷酸還原酶(RibonucleotideReductase,RR)抑制劑類抗腫瘤藥物(MayhewCN,etal.2005)。通過抑制RR的活性使得細(xì)胞在S期DNA復(fù)制前期不能夠獲得足夠的游離的脫氧核苷酸,觸發(fā)復(fù)制期檢驗(yàn)點(diǎn),進(jìn)而使細(xì)胞靜止在S期。HU通過產(chǎn)生的過氧化物和硝基化物引起二價(jià)銅介導(dǎo)的DNA堿基損傷(8-羥基-2′脫氧鳥甘酸)(O‘DonovanP,etal.2005)。

中科院北京基因組研究所145差異表達(dá)基因的分析(續(xù))文庫

rad9+/+rad9-/-

rad9+/+HUrad9-/-HU

rad9+/+

rad9+/+HU

rad9-/-

rad9-/-HU差異基因5989

546045605591

上調(diào)基因5598

492614211881

下調(diào)基因391

5343139

3710文庫間差異基因的比較中科院北京基因組研究所146中科院北京基因組研究所147中科院北京基因組研究所148中科院北京基因組研究所149

差異表達(dá)基因的分析(續(xù))

小結(jié)通過比較rad9+/+和rad9+/+HU基因表達(dá)譜的變化,我們得知當(dāng)細(xì)胞用HU處理后,基因整體的轉(zhuǎn)錄水平下調(diào),細(xì)胞可能處于一種停滯的狀態(tài)。而在這個(gè)時(shí)候,一些抵抗外界壓力和DNA損傷修復(fù)的基因表達(dá)活性增強(qiáng),另外還包括一些抑制細(xì)胞周期和細(xì)胞凋亡的基因,這些基因需要使細(xì)胞停滯下來進(jìn)行修復(fù)活動(dòng)。中科院北京基因組研究所150轉(zhuǎn)錄的抑制中科院北京基因組研究所151轉(zhuǎn)錄的抑制中科院北京基因組研究所152中科院北京基因組研究所153差異表達(dá)基因的分析(續(xù))文庫

rad9+/+rad9-/-

rad9+/+HUrad9-/-HU

rad9+/+

rad9+/+HU

rad9-/-

rad9-/-HU差異基因5989

546045605591

上調(diào)基因5598

492614211881

下調(diào)基因391

5343139

3710文庫間差異基因的比較中科院北京基因組研究所154中科院北京基因組研究所155中科院北京基因組研究所156中科院北京基因組研究所157

差異表達(dá)基因的分析(續(xù))

小結(jié)通過比較rad9-/-和rad9-/-HU基因表達(dá)譜的變化,我們得知當(dāng)rad9敲除后的細(xì)胞用HU處理后,基因整體的轉(zhuǎn)錄水平仍處于下調(diào)狀態(tài)。但是,在這個(gè)時(shí)候,細(xì)胞周期進(jìn)行失去了控制,細(xì)胞沒有時(shí)間進(jìn)行修復(fù)活動(dòng),從而細(xì)胞凋亡活動(dòng)增加。中科院北京基因組研究所158結(jié)論對(duì)于真核生物轉(zhuǎn)錄組的研究,以第二代測(cè)序技術(shù)為基礎(chǔ)的RNA-seq方法是一個(gè)更加敏感的方法,通過深度的取樣,它不僅可以更加真實(shí)的反映基因的表達(dá)譜,并且可以幫助我們進(jìn)一步了解真核生物轉(zhuǎn)錄組的復(fù)雜性,包括一些non-codingRNAs,反義轉(zhuǎn)錄本,基因的可變剪切的鑒定等等。數(shù)據(jù)表明了rad9基因除了對(duì)細(xì)胞周期以及細(xì)胞凋亡的調(diào)控作用,可能一個(gè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論