百邁客生物信息學培訓5月27 5原正文轉錄組_第1頁
百邁客生物信息學培訓5月27 5原正文轉錄組_第2頁
百邁客生物信息學培訓5月27 5原正文轉錄組_第3頁
百邁客生物信息學培訓5月27 5原正文轉錄組_第4頁
百邁客生物信息學培訓5月27 5原正文轉錄組_第5頁
已閱讀5頁,還剩63頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

轉錄組測序百邁客生物科技有限公司課程結構轉錄組測序簡介基因功能注釋及注釋庫簡介轉錄組測序分析流程第一部分轉錄組測序簡介基因功能注釋及注釋庫簡介轉錄組測序分析流程轉錄組測序簡介什么是轉錄組測序轉錄組測序興起的背景轉錄組測序的特點高通量轉錄組測序的優勢什么是轉錄組測序RNA_Seq的重要分支RNA_Seq是指針對轉錄產物RNA的測序技術,主要有以下分支:轉錄組分析表達譜分析小RNA分析降解組測序針對mRNA的測序轉錄組測序是針對特定樣品特定時期的轉錄mRNA的測序技術,重點在對翻譯蛋白的mRNA的測序研究。TheCentralDogmaofMolecularBiologyThegenomeisonlyasourceofinformation.Inordertofunction,itmustbeexpressed.ThetranscriptionofgenestoproduceRNAisthefirststageof

geneexpression

.ThetranscriptomeisthecompletesetofRNAtranscriptsproducedbythegenomeatanyonetime.DNA-seqRNA-seq轉錄組測序興起的背景生物信息學的大發展自從人類基因組測序完成,宣布后基因組時代的研究到來,基于測序的生物信息學發展空前爆發。新一代測序技術(NextGenerationSequencing)測序通量高(測序數據產出量);測序成本低(時間和價格);代表有454,Solexa,Hiseq2000等;轉錄組測序的特點應用對象靈活廣泛針對不同物種,不同個體,不同時期,都可以在mRNA水平準確的分析性狀或功能差異,結構變異等信息。研究范圍多樣化從未知基因組物種,到研究成熟的人體病變組織,小鼠組織等特異組織,均可通過轉錄組分析進行研究。研究深度多樣化從大規模功能轉錄本發掘到特定基因的可變剪接的不同功能分析,都可以定位研究。高通量轉錄組測序的優勢高通量轉錄組測序優勢測序通量高;測序成本低;主要的測序類型454轉錄組測序(讀長較長,通量低,成本高);IlluminaSolexa高通量測序(讀長短,通量高,覆蓋度更高,定量更準確,測序成本低);第二部分轉錄組測序簡介基因功能注釋及注釋庫簡介轉錄組測序分析流程基因功能注釋簡介同源序列比對探尋基因功能比對工具blast基因功能注釋數據庫nr、nt、UniprotCOG、Kegg、interproscan、GOBLASTBasicLocalAlignmentSearchTool(BLAST)結合了動態規劃算法和間接的啟發式算法的優點,同時把數據庫檢索建立在嚴格的統計學基礎之上,是目前最常用的同源檢索工具。局部比對軟件比對比較精確細致用來做同源序列比對,進行基因功能注釋耗時較長BLAST簡介命令及參數簡介建庫命令(formatdb)比對類型,5種不同的比對程序程序名查詢序列類型查詢數據庫類型應用blastp蛋白質蛋白質使用取代矩陣尋找較遠

關系blastn核酸核酸尋找較高分值的匹配,

對較遠關系不太適用blastx核酸(翻譯)蛋白質用于分析新的cDNA序列

或ESTtblastn蛋白質核酸(翻譯)用于尋找數據庫中沒有

標注的編碼區tblastx核酸(翻譯)核酸(翻譯)用于更進一步的分析ESTBLAST結果簡介BLAST比對結果詳解nr&ntnr(Non-redundantproteinsequences)包含GenBank所有編碼序列,以及PDB,swissprot,PIR,PRF數據庫的所有編碼序列的一個非冗余數據庫,數據庫完整度高,氨基酸序列數據庫。nt(Nucleotidecollection)包含GenBank和PDB中(不包含EST,STS,GSS)的所有核苷酸序列信息,存在冗余的數據庫,數據庫完整度高。nr&nt比對結果nr&nt注釋結果UniprotUniprot(UniversalProteinResource)UniProt是一個集中收錄蛋白質資源并能與其它資源相互聯系的數據庫,也是目前為止收錄蛋白質序列目錄最廣泛、功能注釋最全面的一個數據庫。整合三大數據庫:Swissprot、TrEMBL、PIR(ProteinInformationResource)。數據庫組成:UniprotKB(知識庫)、Uniprotarc(歸檔)、Uniref(參考資料庫)。Uniprot簡介UniProtKBProteinknowledgebase,consistsoftwosections:Swiss-Prot,whichismanuallyannotatedandreviewed.TrEMBL,whichisautomaticallyannotatedandisnotreviewed.Includescompleteandreferenceproteomesets.UniRefSequenceclusters,usedtospeedupsequencesimilaritysearches.UniParcSequencearchive,usedtokeeptrackofsequencesandtheiridentifiers.Uniprot數據庫的最重要組成部分UniprotKB(Uniprotknowledgebase)UniProtKB/Swiss-ProtUniProtKB/Swiss-Prot主要收錄人工注釋的序列及其相關文獻信息和經過計算機輔助分析的序列。這些注釋都是由專業的生物學家給出的,準確性無需置疑。注釋結果全面翔實,注釋包括對蛋白質功能、酶學特性、剪接異構體、相關疾病信息的注釋等等。注釋結果無冗余。

UniprotKB/TrEMBLUniprotKB/TrEMBL主要收錄的則是高質量的經計算機分析后進行自動注釋和分類的序列。由于大規模測序產生的海量數據無法通過Swissprot的嚴謹注釋思路來進行注釋。TrEMBL存儲了比較全面完整的物種編碼序列信息。存在冗余。

Uniprot注釋途徑網頁提交序列本地BLAST

COGClustersofOrthologousGroupsofproteins(COGs)蛋白質直系同源數據庫。通過對菌類,藻類和真核生物等66個完整基因組的編碼蛋白,根據系統進化關系構建而成。對于預測單個蛋白的功能和整個基因組中蛋白質的功能具有重要的作用。

COGKEGGKyotoEncyclopediaofGenesandGenomes京都基因與基因組百科全書數據庫簡介系統分析基因功能,聯系基因組信息和功能信息的知識庫。

KEGG簡介KEGG結合17個數據庫,三個大的框架:Systemsinformation,Genomicinformation,Chemicalinformation。KEGG的GENES/SSDB/KO數據庫提供關于在基因組計劃中發現的基因和蛋白質的相關知識。KEGGPATHWAY數據庫整合當前在分子互動網絡(比如通道,聯合體)的知識。KEGG的COMPOUND/GLYCAN/REACTION數據庫提供生化復合物及反應方面的知識。KEGG簡介基因功能聯系到生物功能的橋梁PATHWAYGENE1GENE2GENE3..生化復合物反應….生物多樣性狀差異……KEGG注釋途徑網絡提交任務KAAS(KEGGAutomaticAnnotationServer)

KEGG注釋途徑KEGG注釋結果BLAST比對結果根據比對結果提取代謝通路圖根據基因對應的KO號可以從KEGG官網得到對應的PATHWAY圖片KEGG注釋結果InterproscanInterproscanInterPro是一個關于蛋白家族(proteinfamilies),功能保守區域(domains)和功能位點(funtionalsites)的數據庫。該數據庫包括了PROSITE,PRINTS,Pfam,ProDom等知名蛋白結構和功能位點及保守域的數據庫。Interproscan

GeneOntologyGeneOnotologyConsortium基因本體聯合會所建立的數據庫。數據庫簡介旨在建立一套適用于各種物種的,對基因和蛋白質功能進行限定和描述的,并能隨著研究不斷深入而更新的語義(terms)詞匯標準。GeneOntologyGeneOntology解決生物學定義混亂的現象,使各種數據庫中基因產物功能描述相一致。使得在不同生物數據庫中的查詢具有極高的一致性。允許在各種水平查詢基因產物的特性。35GO的分類分子功能(MolecularFunction)描述在個體分子生物學上的活性,如催化活性或結合活性。生物學過程(BiologicalProcess)由分子功能有序地組成的,具有多個步驟的一個過程。細胞組件(CellularComponent)指基因產物位于何種細胞器或基因產物組中(如糙面內質網,核糖體,蛋白酶體等),即基因產物在什么地方起作用。GeneOntologyGO注釋功能富集分析第三部分轉錄組測序簡介基因功能注釋及注釋庫簡介轉錄組測序分析流程轉錄組測序分析流程轉錄組測序的實驗與測序原理轉錄組數據分析流程及軟件轉錄組實驗與測序原理mRNA的提取通過成熟mRNA的polyA結構提取組織樣品的表達mRNA。反轉錄為cDNA通過利用反轉錄酶合成對應mRNA的cDNA雙端測序將cDNA片段隨機打碎,采用高通量測序儀進行Pair-End測序。雙端測序cDNA片段化Solexa雙端測序產生數據類型成對Reads轉錄組數據分析流程Solexa原始數據轉錄組分析流程分析結果轉錄組分析的兩種策略左邊是先比對,再通過表達量和junction信息得到轉錄本,這種方法能夠檢測到低表達量的轉錄本;右邊是對mRNA-seq的reads直接進行denovo組裝,得到轉錄本,但對于低表達量的轉錄本不易發現。轉錄組分析的兩種策略有Reference的轉錄組分析以比對為基礎,分析有基因組的樣品的可變剪接信息,以及預測可變剪接帶來的功能差異,同時定量不同樣品的mRNA表達豐度進行差異基因的相關分析。無Reference的轉錄組分析通過測序數據組裝大規模發掘對應物種的轉錄本信息,對組裝得到轉錄本做功能注釋分析,同時定量轉錄本的不同豐度進行差異分析。兩種分析思路原始數據Reference基因組Gff基因結構注釋差異基因分析及功能注釋分析有參考基因組無參考基因組聚類得到UnigeneUnigene的差異表達及功能注釋分析可變剪接結果可變剪接作圖TopHat+Cufflinks的可變剪接分析測序數據組裝差異基因聚類分析差異基因功能注釋結構預測分析差異基因聚類分析差異基因功能注釋有參考基因組分析可變剪接根據軟件對基因可變剪接結果做預測結合相關基因的功能進行深入的研究(性狀相關..)原始數據Reference基因組Gff基因結構注釋TopHat+Cufflinks的可變剪接分析可變剪接簡介一個基因在轉錄過程中經過不同的剪接處理得到不同的mRNA從而產生不同的蛋白,是生物性狀多樣化的重要原因。可變剪接類型外顯子跳過內含子滯留互斥外顯子可變5’剪接可變3’剪接保守剪接類型可變剪接分析軟件TopHat針對高通量RNA_Seq的序列剪接檢測軟件,采用短序列比對軟件Bowtie進行序列比對和剪接檢測。IGVIntegrativeGenomicsViewer,圖形化瀏覽結果。Cufflinks利用Tophat的檢測結果和測序Reads的比對情況組裝構建轉錄本并進行表達分度分析的軟件。可變剪接分析軟件TopHatTopHat使用Bowtie軟件比對,速度快;輸出結果為sam格式,便于查看瀏覽(IGV)以及后續分析。官方網站參考文獻TopHat簡介命令及參數比對建庫命令bowtie-buildRef.faRef.faTopHat命令tophat-r0-GRef.gff-oSam1_tophatRef.faSam1_1.fqSam1_2.fqTopHat結果結果目錄accepted_hits.bam比對結果文件samtoolsviewaccepted_hits.bam|less-Sjunctions.bed剪接結果列表insertions.bed插入結果列表deletions.bed缺失結果列表IGV基因組綜合瀏覽器IGV

CufflinksCufflinks用來組裝轉錄本,估計它們的豐度,并且檢測RNA-Seq樣品中的差異表達和調控。官方網站參考文獻Cufflinks簡介Cufflinks命令及參數cufflinks-GRef.gffaccepted_hits.bam輸出結果transcripts.gtf組裝轉錄本的gtf格式結果genes.fpkm_tracking基因表達豐度的評估isoforms.fpkm_tracking轉錄本表達豐度的評估新基因的發現新的編碼區域的定位通過比對結果發現原本無基因注釋的區域出現了編碼mRNA的序列新基因的功能注釋分析對新基因的序列做功能注釋無參考基因組分析數據的組裝Orf預測SSR分析通過BLAST做基因功能注釋分析原始數據聚類得到Unigene測序數據組裝結構預測分析(SSR、Orf及編碼序列)測序數據組裝組裝基本原理基于測序reads之間的overlap進行的序列組裝組裝軟件簡介TrinityTransabyssSOAP-TransTrinity簡介TrinityTrinity是一個組裝構建無Reference全長轉錄本的組裝軟件,專門針對高通量RNA測序設計的,組裝效果較好。官方網站及引用文獻

Trinity原理介紹Trinity右圖是Trinity軟件組裝的簡單原理。a組裝Contigb構建

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論