




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
無參考組轉錄組背景概 項目概 實驗流 RNA樣品檢 RNA文庫構 文庫質 4.1數據及其質量控 4.1.1堿基質量 4.1.2堿基含量分 4.1.3質量控 4.1.4數據產出統 轉錄組數據組 轉錄組文庫質量評 mRNA片段化隨機性檢 Unigene功能注 SNP分 差異表達GO功能富 差異表達COG分 差異表達KEGG注 差異表達KEGG通路富集分 SVG文件格式的查 轉錄組(TranscriptomeSequencing)是對某一物種的mRNA進行的高通量測高通量獲得cDN段兩端的序列,cDN段兩端測定的序列稱為雙端(Pair-endsReads)或Reads對于無參考組的物種,通過對得到的cDN段進行組裝可以從頭獲得該物種的轉錄本(RA)序列,為非模式生物的各種轉錄組及其他研究奠定基礎通過組裝得到的轉錄本構建物種的Unigene庫并基于此進行包括結構注釋合同關鍵指完成6個樣品的轉錄組,每個樣品產出不少于6GbClean堿基百分比達到85%完成轉錄本的組裝,獲得Unigene庫完成Unigene的表達量分析和差異表達分析完成CDS預測、SSR分析和SNP分析完成Unigene功能注釋和差異表達功能注釋分析轉錄組實驗流程包括樣品檢測、文庫構建及其質量控制和上機。實驗圖1轉錄組實驗流程RNA樣品檢完整性等,以保證使用合格的樣品進行轉錄組。RNA文庫構用帶有Oligo(dT)的磁珠富集真核生物用AMPureXPbeads純化cDNA;XPbeads進行片段大小選擇;最后通過PCR富集得到cDNA文庫文庫質文庫構建完成后,分別使用Qubit2.0和Agilent2100對文庫的濃度和插入片段大上庫檢合格后,用HiSeq進行高通量,讀長為PE150對RawData進行數據過濾,去除其中的接頭序列及低質量Reads獲得高質量的CleanData。將CleanData進行序列組裝,獲得該物種的Unigene庫。基于此,可以進行隨機性檢驗飽和度檢驗等文庫質量評估文庫質量評估合格后進行表達量分析、結構分析并根據在不同樣品或不同樣品組中的表達量進行差異表達分析、差異表達功能注釋和功能富集等分析。無參考組的轉錄組生物信息分析流程見下圖圖2轉錄組生物信息分析流程數據及其質量控SynthesisSBS高通量平臺對cDNA文庫進序,能夠產出大量的高質量Reads,平臺產RawData以FASTQ格式,每個樣品的RawData包括兩個FASTQ文件,FASTQ格式文件示意圖如下圖3FASTQ堿基質量值(QualityScore或Q-score)是堿基識別(BaseCalling)出錯的概率的整數映射。通常使用的Phred質量評估為:中,P為堿基識別出錯的概率表1PhredQualityProbabilityofIncorrectBaseBaseCall圖4堿基錯誤率分布示意注:橫坐標為Reads4.1.2堿基含量分的含量每個循環上應分別相等且整個過程穩定不變呈水平線由于Reads圖5ATGC注:橫坐標為Reads的堿基位置,縱坐標為單堿基所占比例去除含有接頭的經過上述一系列的質量控制之后得到的高質量Reads或堿基,稱為CleanData。CleanData同樣以FASTQ格式提供。圖6注:Adapterrelated:過濾掉的含有接頭Reads數占總RawReads數的比例Lowquality:過濾掉的低質量數占總RawReads數的比例。CleanReads:經過以上過濾得到的CleanReads數占總RawReads該項目各樣品CleanData表2ReadBaseGC123456Reads總數;BaseNumber:CleanData總堿基數;GCContent:CleanDataGC含量,即CleanData中G和C兩種堿基占總堿基的百分比;%≥Q30:CleanData質量值大于或等于30的堿基所占的百分比。轉錄組數據組延伸成較長的片段(Contig),并利用這些片段之間的,得到片段集Trinity軟件具體組裝過程選擇頻率最高的K-mer作為向兩端進行貪婪延伸(以K-1個堿基的對每個Component中的Contig構建DeBruijn圖對(4)中得到的DeBruijn圖進行簡化(合并節點,修剪邊沿以真實的Read來解開DeBruijn圖,獲得轉錄本序列。圖7Trinity圖8Unigene表3LengthGroup1Group2All1000-TotalTotalN50Mean組裝得到的Unigene的總長度;N50Length:表示Unigene的N50的長度;MeanLength:表示Unigene的平均長度將各樣品的CleanData與組裝得到的Transcript或Unigene庫進行序列比對,比對結果統計見表4。比對到Transcript或Unigene的Reads稱為MappedReads,Mapped表4數據與組裝結果的比對統計CleanMappedMapped注:BMK-ID:百邁客對樣品的統一編號;CleanReads:CleanReads數目,以雙端計;MappedReads:MappedReads數目,以雙端計;MappedRatio:MappedReads在CleanReads中所占的比例。轉錄組文庫質量評通過插入片段的長度分布,評估插入片段長度的離散程度通過繪制飽和度圖,評估文庫容量和MappedData是否充足mRN段化隨機性檢通過MappedReads在各mRNA轉錄本上的位置分布,模擬mRN段化結果,分布可了解mRNA的降解情況。樣品MappedReads在mRNA轉錄本上的位置分布示圖9MappedReads在mRNA注:橫坐標為標準化后的mRNA位置,縱坐標為對應位置區間內Reads在總MappedReads中所占百分比。由于Reads數目及所占的比例,圖中反映的是所有mRNA各個區間內的MappedReads比例的匯總。插入片段長度檢驗插入片段長度的離散程度能直接反映出文庫過程中磁珠圖10轉錄組數據飽和度檢為了評估數據是否充足并滿足后續分析對得到的數進行飽和度檢測。由于一個物種的數目是有限的,且轉錄具有時間和空間特異性,因此隨著量的增加,檢測到的數目會趨于飽和。對于表達量越高的,越容易被檢測定量。因此,對于表達量越低的,需要更大的數據量才能被準確定量。使用各樣品的MappedData對檢測到的不同表達情況的數目飽和情況進行圖11轉錄組數據飽和度模擬示意Unigene功能注InformationResource)PRF(ProteinResearchFoundation)PDB(ProteinDataBank)COG(ClustersofOrthologousGroups)數據庫是對產物進行同源分類的數KOG(euKaryoticOrthologousGroups)數據庫針對真核生物,基于直系同Pfam(Proteinfamily)數據庫通過蛋白序列的比對建立了每個的氨基酸序套動態更新的標準詞匯表來全面描述生物體 產物的功能屬性。該數庫總共有三大類,分別是分子功能(MolecularFunction)、細胞組分(CellularReceptorBinding”或者“SignalTransduction”,同時有一個唯一的編號,形如和生化系統等方面的數據,包括代謝通路(PATHWAY)、藥物(DRUG)、疾以上所有數據庫的地址等信息詳見附表本項目通過選擇BLAST參數E-value不大于10-5和HMMER參數E-value不大于10,最終獲得114,651個有注釋信息的Unigene表5UnigeneAnnotatedSwiss-注:Annotateddatabases:表示各功能數據庫;Unigene:表示注釋到該數據庫的Unigene數;≥300nt:表示注釋4.5結構分TransDecoder軟件基于開放閱讀框(OpenReadingFrame,ORF)長度、對數似SequenceCDS是Trinity和Cuffinks等軟件推薦的CDS預測軟件。圖11CDS注:文件為標準的FASTA格式,每個序列單元以“>”開始到下一個“>”之前結束。“>”后面緊接編碼區序列編MISA(MIcroSAliteidentificationtool)是一款鑒定簡單重復序列(SimpleSequenceRepeat,SSR)的軟件,它可以通過對Unigene序列的分析,鑒定出6種類型的SSR:單堿基(Mono-nucleotide)重復SSR、雙堿基(Di-nucleotide)重復SSR、nucleotidenucleotide利用MISA軟件對篩選得到的1kb以上的Unigene做SSR分析,結果示意如下表6SSRSearchingTotalnumberofsequencesTotalsizeofexaminedsequencesTotalnumberofidentifiedNumberofSSRcontainingNumberofsequencescontainingmorethan1NumberofSSRspresentincompoundMonoDiTriTetraPenta2注:Totalnumberofsequencesexamined:評估的序列數目;Totalsizeofexaminedsequencesbp):評估的序列總堿基數目;TotalnumberofidentifiedSSRs:識別的SSR總數;NumberofSSRcontainingsequences:包含SSR的序列數目;Numberofsequencescontainingmorethan1SSR:包含1個以上SSR的序列數目;NumberofSSRspresentincompoundformation:以復合物形式存在的SSR數目;Mononucleotide:單堿基重復SSR;Dinucleotide:重復SSR;Hexanucleotide:六堿基重復SSR。對不同類型的SSR進行密度分布統計,結果示意圖如下圖12SSR注:橫坐標為SSR類型;縱坐標為每Mb序列中對應類型的SSR數目SNP分多態性(SingleNucleotidePolymorphism,SNP)位點。進而可以分析這些SNP位點35bp范圍內連續出現的單堿基錯配不超過3個經過序列深度標準化的SNP質量值大于2.0按照以上條件篩選,樣品T01部分SNP位點信息示意見下表表7SNPAGAGTGGTGCTC7CTCAGAGAGACA表8SNP注:Samples:樣品編號;HomoSNP:純合型SNP數目;HeteSNP:雜合型SNP數目;AllSNP:純合型和雜合SNP總數目4.6表達量分采用BLAT[13]將各樣品得到的Reads與Unigene庫進行比對,根據比對結果FPKM[14](FragmentsPerKilobaseoftranscriptperMillionmappedreads)是每百萬Reads中來自比對到某一每千堿基長度的Reads數目,是轉錄組數據分析中常用的表達水平估算方法。FPKM能消除長度和量差異對計算表達的影響,計算得到的表達量可直接用于比較不同樣品間的表達差異。FPKM計算如下:cDAFragmntsReads數目;MappedFragments(Million)表示比對到轉錄本上的片段總數,以106為單位;Transcriptength(kb)103個堿基為單位。對每個的信息進行統計,樣品T01結果文件示意見下表表9表達量結果文件示意000000110000990871:Reads在Unigene上的覆蓋度;FPKM:FPKM方法標準化后的表達豐度值;TotalReads:比對到:上的Reads數目;UniqReads:比對到Unigene唯一位置上的Reads數目;MultiReads:比對到多個或一個Unigene多個位置上的Reads數目差異表達分達水平存在顯著差異的,稱之為差異表達(DifferentiallyExpressedGene,DEG)。同樣地,表達水平存在顯著差異的轉錄本,稱之為差異表達轉錄本或差異表達的過程叫做差異表達分析(DifferentialExpressionysis)。研究表明,的表達在不同的間存在生物學可變性[16][17](Biological于兩個條件(即兩組樣品)之間的差異表達集,A表達含有多個重復樣之為下調。因此,上調和下調是相對的,由所給A和B的順序決定,若更換A將相關系數r(Pearson’sCorrelationCoefficient)作為生物學重復相關性對同一條件的每一對生物學重復樣品的表達量做相關性散點圖,樣品T01圖13兩樣品的表達量散點示意差異表達篩檢測差異表達時,需要根據實際情況選取合適的差異表達分析軟件。對于之間的差異表達集;對于沒有生物學重復的實驗,則使用EBSeq[21]進行差異表達分析,獲得兩個樣品之間的差異表達集。在差異表達分析過程中采用了公認有效的Benjamini-Hochberg方法對原有假設DiscoveryRate)作為差異表達篩選的關鍵指標,以降低對大量的表達值表10----系,以便快速查看在兩組樣品間的表達水平差異程度及其統計學顯著性。圖14差異表達火山示意通過MA圖可以直觀地查看兩組樣品中的表達豐度和差異倍數的整體分布。圖15差異表達MA示意差異表達功能注釋和富集分表11注釋的差異表達數量部分統計DEGSwiss-注:DEGSet:差異表差異表達GO功能富GO數據庫是一個結構化的標準生物學注釋系統建立了及其產物功能的標差異表達以及所有在GO二級節點的注釋結果見下圖圖16差異表達GO二級節點注釋統計示意從上圖可以看出差異表達和所有在GO各二級功能中的注釋情況其中然后,利用topGO軟件對注釋到GO數據庫的樣品組間差異表達進行富集分在有向無環圖中,箭頭代表包含關系,即該節點的所有同樣注釋到其上級節點差異表達利用topGO進行功能富集的分子功能的有向無環圖如下圖圖17差異表達topGO富集有向無環示意圖(分子功能差異表達利用topGO進行功能富集的結果示意如下表 2-alkenal e non-membranespanning 3 ubiquitin-protein proteintyrosinekinase calmodulin-dependent 6 glucanendo-1,3-beta- transferase proteinkinase tyrosinekinaseactivitykinaseactivityglucosidaseactivity差異表達COG分COG(ClusterofOrthologousGroupsofproteins)數據庫是基于細菌、藻類、真差異表達COG分類統計結果見下圖圖18差異表達COG注釋分類統計示意差異表達KEGG注在生物體內,不同的產物相互協調來行使生物學功能,對差異表達的Pathway注釋分析有助于進一步解讀的功能。KEGG(KyotoEncyclopediaofGenesandGenomes)數據庫是關于Pathway的主要公共數據庫。差異表達的通路注釋結果見下圖圖19差異表達的KEGG通路注釋圖示意對差異表達KEGG的注釋結果按照KEGG中通路類型進行分類,分類圖如圖20差異表達KEGG分類示意注:縱坐標為KEGG代謝通路的名稱,橫坐標為注釋到該通路下的個數及其個數占被注釋上的總數的差異表達KEGG通路富集分分析差異表達在某一通是否過出現(over-presentation)即為差異表達的Pathway富集分析。利用富集因子(EnrientFactor)分析Pathway的富集程度,并利用Fisher精確檢驗方法計算富集顯著性。其中富集因子的計算如下:差異表達的KEGG通路富集分析結果見下圖圖21差異表達KEGG通路富集散點示意注:圖中每一個圖形表示一個KEGG通路,通路名稱見右側圖例。橫坐標為富集因子(EnrientFactor),表異表達在該通路中的富集水平越顯著。縱坐標為log10(Qvalue),其中Qvalue為多重假設檢驗校正之后的P差異表達KEGG的富集分析部分結果見下表表13差異表達的KEGG富集部分結果示Aminoacyl-tRNAGlucosinolateValine,leucineandisoleucineRNASynthesisanddegradationofketoneRibosomebiogenesisinNicotinateandnicotinamide用戶登錄及數 ,,一個FTP客戶端好之后直接解壓縮然后雙擊文件夾中的圖標打開 .cn,輸入用戶名xxxxxxxxxxxxxx,然,,結果文件查看說上傳中有說明文檔readme.txt,詳細介紹了每個文件所代表的內容。上傳的SVG文件格式的查【參GrabherrMG,HaasBJ,YassourM,,etal.FulllengthtranscriptomeassemblyfromRNASeqdatawithoutareferencegenome.NatureBiotechnology.2011.(29):644-652AltschulSF,MaddenTL,Sch?fferAA,etal.GappedBLASTandPSIBLAST:ANewGenerationofProteinDatabaseSearchPrograms.NucleicAcidsResearch.1997.25(17):3389-3402.DengYY,LiJQ,WuSF,etal.IntegratednrDatabaseinProteinAnnotationSystemandItsLocalization.ComputerEngineering.2006.32(5):71-74ApR,BairochA,WuCH,etal.UniProt:theUniversalProteinknowledgebase.NucleicAcidsResearch.2004.32(Databaseissue):D115-9.AshburnerM,BallCA,BlakeJA,etal.Geneontology:toolfortheunificationofbiology.Naturegenetics.2000.25(1):25-29.TatusovRL,GalperinMY,NataleDA.TheCOGdatabase:atoolforgenomescaleysisofproteinfunctionsandevolution.NucleicAcidsResearch.2000.28(1):33-36.KooninEV,FedorovaND,JacksonJD,etal.Acomprehensiveevolutionaryclassificationofproteinsencodedincompleteeukaryoticgenomes.GenomeBiology,2004,5(2):R7.KanehisaM,GotoS,KawashimaS,etal.TheKEGGresourcefordecipheringthegenome.NucleicAcidsResearch.2004.32(Databaseissue):D277-D280.EddyS.R.ProfilehiddenMarkovmodels(1998)Bioinformatics,14(9),pp.755-FinnRD,BatemanA,ClementsJ,etal.Pfam:theproteinfamiliesdatabase.NucleicAcidsResearch,2013:gkt1223.DobinA,DavisCA,SchlesingerF,etal.STAR:ultrafastuniversalRNA-seqBioinformatics,2013,29(1):15-McKennaA,HannaM,BanksE,etal.TheGenomeysisToolkit:aMapReduceframeworkforyzingnext-generationDNAsequencingdata[J].GenomeResearch.2010,20(9):1297-KentWJ.BLAT-theBLAST-likealignmenttool.GenomeResearch.2002Apr;12(4):656-TrapnellC,WilliamsBA,PerteaG,MortazaviA,etal.TranscriptassemblyandficationbyRNASeqrevealsunannotatedtranscriptsandisoformswitchingduringcelldifferentiation.NatureBiotechnology2010,28(5):511515.Djebali,SarahandMortazavi,etal.Landscapeoftranscriptioninhumancells.Nature2012,489(7414).pp.101-108.ISSN0028-0836.ElowitzMB,LevineAJ,SiggiaED,SwainPS.Stochasticgeneexpressioninasinglecell.2002;297:1183-KasperD.Hansen,ZhijinWu,etal.Sequencingtechnol
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024項目管理考試方案試題及答案
- 試題及答案:臨床微生物常識
- 廣東入戶庭院施工方案
- 2024年微生物協作研究方向試題及答案
- 2025年審計調研技巧試題及答案
- 2024年項目管理償債能力考核試題及答案
- 2025年國際稅務環境變化試題及答案
- 稅務合規實務試題及答案2025
- 項目管理決策支持系統分析試題及答案
- 有效學習項目管理考試的試題及答案
- 制度型開放的內涵、現狀與路徑
- 第十章 思想政治教育的方法和藝術
- 養殖場防疫管理制度(五篇)
- β內酰胺類抗菌藥物皮膚試驗指導原則(2021年版)解讀
- 《商品攝影-》-教案全套
- 生物技術概論(全套課件958P)
- 第五版-FMEA-新版FMEA【第五版】
- 人大黃達《金融學》-超級完整版
- 守株待兔兒童故事繪本PPT
- 人工挖孔樁施工驗收規范
- 城市道路綠化工程施工設計方案
評論
0/150
提交評論