Process NGS data in QIIME_第1頁
Process NGS data in QIIME_第2頁
Process NGS data in QIIME_第3頁
Process NGS data in QIIME_第4頁
Process NGS data in QIIME_第5頁
已閱讀5頁,還剩18頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、二代測序數據在QIIME中的 處理以Illumina Miseq平臺為例時玉2022-4-7QIIME (Quantitative Insights Into Microbial Ecology) ,音同”Chime”,是一個用于比較和分析微生物群落的開源軟件,其開發者是美國科羅拉多大學的Rob Knight等人。QIIME能夠處理的標準數據是各種測序平臺上擴增子的高通量測序結果。至今為止,QIIME已經被2229篇文獻引用。QIIME是什么提綱(based on QIIME 1.8.0)1、安裝QIIME2、認識Illumina Miseq數據3、Miseq原始數據的處理4、下游分析QIIM

2、E for windows1、下載Windows版本的Virtual Box3、打開Virtual Box,新建一個虛擬設備4、進入Ubuntu系統后,看見集成了QIIME的系統界面2、至QIIME網站上下載”64-bit QIIME Virtual Box” (/install/virtual_box.html),解壓該文件在BIOS里開啟硬件虛擬化才能建立64位虛擬系統QIIME for windows5、打開Before_you_start文件夾,按文件順序依次閱讀并安裝必要軟件6、設置Shared_Folder認識Miseq數據Phred Quality

3、ScoreProbability of incorrect base callBase call accuracy101 in 1090%201 in 10099%301 in 100099.9%401 in 10,00099.99%501 in 100,00099.999%601 in 1,000,00099.9999%read IDread 序列省略的read IDPhred score+33拼接拼接readsMiseq原始數據的處理join_paired_ends.py -f forward_reads.fastq -r reverse_reads.fastq j 10 p 10 -o

4、fastq-join_joined將雙向測序的reads通過overlap區域進行識別并組裝成一條完整的序列,將生成拼接完畢的fastq文件,用于后續分析。-j:指定最小的overlap長度-p:指定overlap區域里正反reads不一致堿基所占比例的閾值Miseq原始數據的處理extract_barcodes.py -f inseqs.fastq -c barcode_single_end -bc1_len 7 -o processed_seqs 將序列文件中的barcode信息提取出來,生成一個fastq格式的barcode文件和去除了barcode的序列文件。-c:barcode的布置

5、方式-bc1_len :指定barcode長度提取提取barcodeMiseq原始數據的處理map文件是txt格式的文本,提供了barcode、引物、樣品編號、處理等信息,在后續的分析中將被頻繁調用,是非常重要的標記文件。validate_mapping_file.py -m Fasting_Map.txt -o validate_mapping_file_output在QIIME中驗證map文件的格式。將會生成一個html格式的文件,若格式并非完全正確,則打開該文件后將看到部分單元格呈黃色或紅色,分別表示警告信息和錯誤信息。警告信息可以忽略,但須謹慎;錯誤信息必須改正,否則map文件不能被正

6、確讀取。制作及驗證制作及驗證map文件文件Miseq原始數據的處理split_libraries_fastq.py -i reads.fastq -b barcodes.fastq -m Map.txt -q19 -o split_libraries_fastq/依據barcode文件將每一條序列歸類到不同的樣品中去,生成的文件是一個歸類完畢的fasta格式序列文件,其中所有序列都有唯一編號和所屬樣品。-m:map文件-q:指定堿基質量分數閾值割庫割庫下游分析pick_otus.py -i seqs.fna -r refseqs.fasta -m uclust_ref -s 0.97 -o u

7、clust_picked_otus使用某種算法對序列進行聚類。生成的文件seqs_otus.txt,是一個otu ID和序列ID對應關系的map文件。-r:指定參比的序列文件-m:指定pick otu的方法(uclust, blast, usearch, mothur)-s:指定一個otu內序列相似性的閾值OTU聚類聚類下游分析每個otu僅需要一條序列來表示,這條序列稱為代表序列。代表序列被用于后續的物種比對及建立系統發育樹。-r:指定參比的序列文件(與pick_otu步驟中須相同)-f:自己的序列文件pick_rep_set.py -i seqs_otus.txt -f seqs.fna -

8、r refseqs.fasta -o rep_set.fna挑選代表序列挑選代表序列下游分析assign_taxonomy.py -i rep_set.fasta -r ref_seq_set.fna -t id_to_taxonomy.txt -m uclust使用默認方法(uclust)對所有的代表序列進行物種比對。生成的id-taxonomy索引文件將用于后續分析。-r:指定參考序列;-t:指定ID-系統分類索引表(來自其他數據庫:Greengenes、Silva、RDP、UNITE)-m:指定比對方法(uclust, blast, rdp, mothur)比對分類比對分類下游分析ali

9、gn_seqs.py -i unaligned.fna -t core_set_aligned.fasta -o pynast_aligned/使用默認方法(Pynast)將序列對齊。生成的文件是已對齊的序列文件和未滿足設定參數而對齊失敗的序列文件。-t:指定參比的已對齊序列文件對齊序列對齊序列下游分析過濾對齊后序列,去除序列中的gap,用于制作系統發育樹。filter_alignment.py -i seqs_rep_set_aligned.fasta -o filtered_alignment/make_phylogeny.py -i aligned.fasta -o rep_set.tr

10、e過濾對齊后序列過濾對齊后序列生成系統發育樹生成系統發育樹下游分析生成biom格式的OTU表。需要轉化為txt格式文件才能在QIIME之外使用。-i:pick otu步驟中生成的seqs_otus.txt文件-e:對齊序列步驟中生成的對齊失敗文件make_otu_table.py -i seqs_otus.txt -o otu_table.biom -e pynast_failures.fna 生成生成OTU表表下游分析summarize_taxa_through_plots.py -i otu_table.biom -o wf_taxa_summary -m Fasting_Map.txt生

11、成不同分類水平(L2-L5:phylum-genus)的匯總信息。和OTU表一樣均為biom格式,需要轉換為txt格式才能使用。biom convert -i otu_table.biom -o otu_table_with_taxonomy.txt -b -header-key taxonomy 將biom格式文件轉換為txt格式。在轉換OTU表時使用-header-key taxonomy會保留物種分類信息匯總系統分類信息匯總系統分類信息下游分析make_otu_heatmap_html.py -i otus/otu_table.biom -o otus/OTU_Heatmap/生成生成O

12、TU熱圖熱圖下游分析在計算多樣性和多樣性時,要去除因測序深度不一致產生的影響,因此需要重采樣。生成的文件是一系列指定序列數的OTU表。-m:抽選的最小序列數-x:抽選的最大序列數-s:步長-n:每一步長重采樣次數multiple_rarefactions.py -i otu_table.biom -m 10 -x 10000 -s 10 -n 20 -o rarefied_otu_tables/生成重采樣生成重采樣OTU表表下游分析計算上一步中生成的每個OTU表的多樣性,涉及到系統發育多樣性是(如PD值),需要用到系統發育樹文件(-t)。生成大量的中間文件,用于后續分析。-m:指定需要計算的多樣性指數-t:系統發育樹alpha_diversity.py -i rarefied_otu_tables / -m PD_whole_tree,observed_species,chao1,shannon -o alpha_div/ -t rep_set.tre計算計算多樣性多樣性下游分析使用上一步生成的中間文件把多樣性指數整合成方便閱讀及整理的txt文件。collate_alpha.py -i alpha_div/ -o collated_alpha/整合整合多樣性多

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論