轉錄組實戰講解第三講之測序質量評估和reads回貼_第1頁
轉錄組實戰講解第三講之測序質量評估和reads回貼_第2頁
轉錄組實戰講解第三講之測序質量評估和reads回貼_第3頁
轉錄組實戰講解第三講之測序質量評估和reads回貼_第4頁
轉錄組實戰講解第三講之測序質量評估和reads回貼_第5頁
已閱讀5頁,還剩30頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、長非編碼長非編碼RNA測序分析實戰講解測序分析實戰講解之之測序質量評估和測序質量評估和Reads回貼回貼卜德超卜德超中國科學院計算技術研究所中國科學院計算技術研究所2014-12-20概要 長非編碼長非編碼RNA測序介紹測序介紹 一個測序實例一個測序實例 長非編碼長非編碼RNA分析流程分析流程 步驟一詳解:步驟一詳解:Reads質量評估質量評估 步驟二詳解:基因組比對步驟二詳解:基因組比對 附錄:運行命令附錄:運行命令 長非編碼長非編碼RNA測序介紹測序介紹 一個測序實例一個測序實例 長非編碼長非編碼RNA分析流程分析流程 步驟一詳解:步驟一詳解:Reads質量評估質量評估 步驟二詳解:基因組

2、比對步驟二詳解:基因組比對 附錄:運行命令附錄:運行命令長非編碼長非編碼RNA測測序序 長非長非編碼編碼RNAs(long non-coding RNAs,lncRNAs)是一類長度大于)是一類長度大于200 nt且不編碼且不編碼蛋白質的蛋白質的RNAs 長長非編碼非編碼RNA測序:通過測序技術,獲得測序:通過測序技術,獲得某某個物種或特定細胞在某一生理條件下產生個物種或特定細胞在某一生理條件下產生的所有的所有的的長非編碼長非編碼RNA想測長非編碼RNA,提取RNA的步驟是怎樣的?轉錄組內的轉錄組內的RNA 轉錄組轉錄組RNA,按功能分類:,按功能分類: mRNA 非非編碼編碼RNA(即(即N

3、on-coding RNA,如,如 tRNA,rRNAs,microRNAs,piRNAs 和和lncRNAs等等) 轉錄組內的轉錄組內的RNA, 按按polyA形態:形態: 帶帶polyA的的RNA (mRNA和大部分的和大部分的lncRNA) 不帶不帶polyA的的RNA (小小RNA和小部分的和小部分的lncRNA)長非編碼長非編碼RNA測序測序總的總的RNA(200)去掉去掉rRNA后的后的RNA不帶不帶polyA的的RNA帶帶polyA的的RNApolyA富集富集總的總的RNA(200)去掉去掉rRNA后的后的RNA測序測序(mRNA+lncRNA)測序測序(lncRNA)mRNA測

4、序測序(mRNA+lncRNA)方案二方案二方案一方案一 長非編碼長非編碼RNA測序介紹測序介紹 一個測序實例一個測序實例 長非編碼長非編碼RNA分析流程分析流程 步驟一詳解:步驟一詳解:Reads質量評估質量評估 步驟二詳解:基因組比對步驟二詳解:基因組比對 附錄:運行命令附錄:運行命令9一個測序實例一個測序實例 取樣:晚期肝癌病人的肝組織取樣:晚期肝癌病人的肝組織( (共共4 4個個) ) 癌旁組織癌旁組織(N)(N) 原發灶原發灶(P)(P) 轉移灶轉移灶(M)(M) 門脈血栓轉移灶門脈血栓轉移灶(V)(V)一組時間序列上的一組時間序列上的4個點的取樣個點的取樣RNA提取和測序參數提取和

5、測序參數 RNARNA提取提取 提取帶有提取帶有polyApolyA的所有的所有RNARNA 測序測序 IlluminaIllumina HiseqHiseq 2000 2000測序測序 文庫插入片段長文庫插入片段長300300 雙端測序雙端測序 readsreads長度為長度為100 100 D-UTPD-UTP鏈特異性文庫鏈特異性文庫 長非編碼長非編碼RNA測序介紹測序介紹 一個測序實例一個測序實例 長非編碼長非編碼RNA分析流程分析流程 步驟一詳解:步驟一詳解:Reads質量評估質量評估 步驟二詳解:基因組比對步驟二詳解:基因組比對 附錄:運行命令附錄:運行命令12轉錄組分析的通用套路轉

6、錄組分析的通用套路定量定量鑒定鑒定差異差異功能功能有多少有多少RNARNA的表達量的表達量結構、表達量、結構、表達量、比例的變化比例的變化功能注釋功能注釋測序數據和參考基因組比對測序評估及低質量過濾編碼基因表達注釋轉錄本重構長非編碼鑒定長非編碼表達注釋編碼基因差異(特異)表達GO功能顯著性富集Pathway顯著性富集功能富集網絡圖長非編碼差異表達GO功能顯著性富集Pathway顯著性富集功能富集網絡圖FusionsJunctionsGenomeBrowser可視化這一堂課這一堂課關注內容關注內容 長非編碼長非編碼RNA測序介紹測序介紹 一個測序實例一個測序實例 長非編碼長非編碼RNA分析流程分

7、析流程 步驟一詳解:步驟一詳解:Reads質量評估質量評估 步驟二詳解:基因組比對步驟二詳解:基因組比對 附錄:運行命令附錄:運行命令測序下機數測序下機數據據測序輸出的兩個文件測序輸出的兩個文件(雙端測序數據雙端測序數據):N_R1.fastqHWI-EAS724_0001:8:32:374:374#0/1GAGCTGTATATGAATAATAGTTCGTTTTTCATTATCCAAGATGGATCGGTATAAAGTCTGCTAAAATAAAGGTACAACG+HWI-EAS724_0001:8:32:374:374#0/1fcfcfggdfggggfggggcggggggggfgggggc

8、gggfWgggggggggfgcggdgcgcggggfacbbbbgcgggggdN_R2.fastqHWI-EAS724_0001:8:32:374:374#0/2TACCGTTAATAGCAGTAATATCATAATAGTAATAGCATCATAACGGTAGTCCCATAAAAGTGTGTCAGTAGTAGTAGTA+HWI-EAS724_0001:8:32:374:374#0/2ggggfgggggd_adcggggeggfggeggegfgeececdegggggfegcfegggegggfgacacedbd_cYb拿到拿到共共4對這樣的測序文件對這樣的測序文件Fastq文件質量

9、值表示文件質量值表示N_R1.fastqHWI-EAS724_0001:8:32:374:374#0/1GAGCTGTATATGAATAATAGTTCGTTTTTCATTATCCAAGATGGATCGGTATAAAGTCTGCTAAAATAAAGGTACAACG+HWI-EAS724_0001:8:32:374:374#0/1fcfcfggdfggggfggggcggggggggfgggggcgggfWgggggggggfgcggdgcgcggggfacbbbbgcgggggd用字符來表示每個堿基的質量值用字符來表示每個堿基的質量值字符值字符值-如何計算如何計算Q值值字符字符ASCII碼碼值值

10、QualityScore錯誤率錯誤率f102102-64=380.1%c9999-64=350.1%g103103-64=3980%50%比對結果好!比對結果好!80%10%DNA污染污染40%30% 測序質量差、測序質量差、10%10%reads接頭、接頭、barcode、ployA等等未去凈未去凈.若雙端中有一端比對率高,一端比若雙端中有一端比對率高,一端比對率很低,則類同第四種情況對率很低,則類同第四種情況?27TophatTophat回貼原理回貼原理ReadsMappedtothegenomeUnmappedSplitandMappedSearchingthesplicingsiteJ

11、unctions和和Fusions鑒定鑒定 Tophat比對后的輸出目錄: Junctions.bed Insertions.bed Deletions.bed Tophat-fusion:Fusions鑒定工具Tophat直接報出直接報出junctions結結果果Tophatfusion:從從tophat的的輸出輸出挖掘挖掘fusions 長非編碼長非編碼RNA測序介紹測序介紹 一個測序實例一個測序實例 長非編碼長非編碼RNA分析流程分析流程 步驟一詳解:步驟一詳解:Reads質量評估質量評估 步驟二詳解:基因組比對步驟二詳解:基因組比對 附錄:運行命令附錄:運行命令運行命令匯總運行命令匯總

12、(一一)fastqcoQC_outdir_NN_R1.fastqN_R2.fastq1, 質量評估:質量評估:fastqcoQC_outdir_PP_R1.fastqP_R2.fastqfastqcoQC_outdir_MM_R1.fastqM_R2.fastqfastqcoQC_outdir_VV_R1.fastqV_R2.fastq運行命令匯總運行命令匯總(二二)tophatotophat_outdir_N-library-typefr-firststrand-fusion-searchhg19N_R1.fastqN_R2.fastq2, 比對基因組:比對基因組:tophatotophat

13、outdir_P-library-typefr-firststrand-fusion-searchhg19P_R1.fastqP_R2.fastqtophatotophat_outdir_M-library-typefr-firststrand-fusion-searchhg19M_R1.fastqM_R2.fastqtophatotophat_outdir_V-library-typefr-firststrand-fusion-searchhg19V_R1.fastqV_R2.fastqhg19為基因組的為基因組的bowtie2的的index文件文件運行命令匯總運行命令匯總(三三)bowti

14、eobwt_outdir_Nrefgene-1N_R1.fastq-2N_R2.fastq-SN.sam3, 比對轉錄組:比對轉錄組:bowtieobwt_outdir_Prefgene-1P_R1.fastq-2P_R2.fastq-SP.sambowtieobwt_outdir_Mrefgene-1M_R1.fastq-2M_R2.fastq-SM.sambowtieobwt_outdir_Vrefgene-1V_R1.fastq-2V_R2.fastq-VP.samrefgene為為bowtie產生的產生的index文件文件運行命令匯總運行命令匯總(三三)tophat-fusion-posthg194, Fusions鑒定

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論