




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、SLAF-遺傳進化結(jié)題模板客戶: 百邁客生物科技聯(lián)系人: : 傳真: 日期:2018 年 X 月 X 日目錄1項目概況11.1項目研究背景11.2項目重要名詞及術(shù)語11.3材料基本信息21.4合同關(guān)鍵指標(biāo)情況21.5項目執(zhí)行情況21.6分析結(jié)果概述22項目流程42.1酶切方案設(shè)計42.1.1 參考組確定42.1.2 酶切方案確定42.2實驗流程52.3信息分析流程62.4SLAF開發(fā)方法概述73生物信息學(xué)分析方法和結(jié)果83.1酶切方案評估83.1.1 酶切方案83.1.2 酶切均勻性評估83.2數(shù)據(jù)統(tǒng)計與評估113.2.1質(zhì)量值分布檢查113.2.2 堿基分布檢查123.2.3數(shù)據(jù)產(chǎn)出和質(zhì)量統(tǒng)
2、計123.3實驗建庫評估143.3.1 比對效率統(tǒng)計143.3.2 酶切效率評估統(tǒng)計143.3.3 片段選擇評估153.4SLAF 標(biāo)記開發(fā)163.4.1 SLAF統(tǒng)計163.4.2 SLAF 多態(tài)性分析163.4.3 SLAF在上的分布173.4.4 SNP 信息統(tǒng)計183.5系統(tǒng)發(fā)育分析193.6群體結(jié)構(gòu)分析203.6.1 遺傳結(jié)構(gòu)分析203.6.2 PCA 分析223.7群體選擇分析233.7.1 連鎖不平衡分析233.7.2 選擇清除分析233.7.3功能注釋264信息26項目5數(shù)據(jù) 285.1用戶登錄及數(shù)據(jù) 285.2結(jié)果文件查看說明285.3SVG 文件格式的查看28附件 1 多態(tài)
3、性SLAF后續(xù)檢驗方法30附件 2 分子標(biāo)記輔助選擇(MAS)331項目概況1.1項目研究背景進化遺傳學(xué)是(evolutional genetics)研究群體的遺傳結(jié)構(gòu)及其變化規(guī)律的遺傳學(xué)分支學(xué)科。它應(yīng)用數(shù)學(xué)和統(tǒng)計學(xué)方法研究群體中頻率和型頻率以及影響這些頻率的選擇效應(yīng)和突變作用,還研究遷移和遺傳漂變等與遺傳結(jié)構(gòu)的關(guān)系,由此來探討進化的機制。本項目利用 (Specific-Locus百邁客生物科技 lified Fragment Sequencing)1技術(shù)對研發(fā)的 SLAF-seq進行分子標(biāo)記開發(fā),獲得全組范圍內(nèi)的SNP 標(biāo)記。并通過SNP 標(biāo)記進行群體遺傳學(xué)研究和全組關(guān)聯(lián)分析。1.2項目重要
4、名詞及術(shù)語英文名詞中文名詞產(chǎn)生的reads,SLAF 采用的是雙端的是雙端reads,因此產(chǎn)生Pair-end Reads雙端序列經(jīng)過SLAF-seq 建庫產(chǎn)生的特定酶切片段,一個酶切片段就是一個SLAFSLAFSLAF群體中存在多態(tài)性的SLAF,其中主要存在的變異類型是SNP 和InDelPolymorphic SLAF多態(tài)性SLAF位于重復(fù)序列區(qū)的SLAF,在數(shù)據(jù)上的表現(xiàn)是 SLAFRepetitive SLAF重復(fù)序列區(qū)的SLAF的深度遠高于平均水平SNP單核苷酸多態(tài)性DNA 序列上出現(xiàn)的單堿基變異InDel/缺失變異DNA 序列上和/或缺失類的結(jié)構(gòu)變異linkage disequili
5、brium(LD)在某一群體中,不同座位上某兩個同時遺傳的頻率連鎖不平衡明顯高于預(yù)期的隨機頻率的現(xiàn)象,稱連鎖不平衡群體中,型頻率第二高的型所在的頻率,一般Minor allele frequency(MAF)次要型頻率MAF0.05 的SNP 在群體分析中被認(rèn)為是有代表性的SNP表示物種可能的分組情況,一個物種可以分為幾個群,潛在的表明物種是有幾個祖先來源。Population Structure群體結(jié)構(gòu)XX 群體Fst群體分化指數(shù)表示群體間分化的程度1.3材料基本信息(1)研究物種:(拉丁名)(2)樣品數(shù)量:1.4合同關(guān)鍵指標(biāo)情況本項目的合同指標(biāo)完成情況如表 1 所示:表 1 項目合同指標(biāo)完
6、成情況匯總表指標(biāo)合同要求實際項目情況SLAF總數(shù)XXSLAF 深度XXXX個SLAF,SLAF本項目共開發(fā)的平均深度為,完成合同要求。1.5項目執(zhí)行情況(1)樣品檢測合格時間為 2018 年 X 月 X 日。(2)樣品信息到位時間為 2018 年 X 月 X 日。(3)項目啟動時間為 2018 年 X 月X 日。(4)項目分析完成時間為 2018 年 X 月 X 日。1.6分析結(jié)果概述(拉丁名)選擇組序列為參考組序列進行電子酶切,最的序列定義為 SLAF終確定使用酶切,酶切片段長度在,到個SLAF。%,實際獲得的 SLAF酶的酶切效率為長度范圍為-bp,共得到Mreads。個 SLAF,其中多
7、態(tài)性的 SLAF通過生物信息學(xué)分析,獲得實驗中-XX個 SNP。對 XX 個性狀進行全共有個,包含組關(guān)聯(lián)分析,共獲得個性狀的關(guān)聯(lián)區(qū)域,其中找到了個關(guān)聯(lián)。XX2項目流程2.1酶切方案設(shè)計2.1.1 參考組確定根據(jù)的組大小以及 GC 含量等信息,最終選取組作為參考組進行酶切。具體信息如下所示:1.物種信息:(拉丁名),實際組大小為,GC 含量為;2.參考物種組具體信息如下表格所示,地址:n。表 2 參考組具體信息物種組大小N50GC 含量重復(fù)序列比例版本號2.1.2 酶切方案確定利用研發(fā)的酶切對參考組進行酶切,選擇最適酶切方案,選擇原則如下:1.位于重復(fù)序列的酶切片段比例盡可能低;2.酶切片段在組
8、上盡量均勻分布;酶切片段長度與具體實驗體系的吻合程度3;3.4.最終獲得酶切片段(SLAF)數(shù)滿足預(yù)期數(shù)。XX%XXG2.2實驗流程根據(jù)選定的最適酶切方案,對檢測合格的各樣品組 DNA 分別進行酶切。)進行 3端加 A 處理、連接 Dual-index4對得到的酶切片段(SLAF接頭、PCR 擴增、純化、混樣、切膠選取目的片段,文庫質(zhì)檢合格后用 Illumina序。 為評 估酶 切實 驗的 準(zhǔn)確 性 , 選用 擬南 芥 5 ( Arabidopsis進lianaecotypeColumbia)作為對照(Control)進序。實驗流程見圖 1:圖 1 SLAF 實驗流程2.3信息分析流程利用 D
9、ual-index 對得到的原始數(shù)據(jù)進行識別,得到各個樣品的 reads。過濾reads 的接頭后,進序質(zhì)量和數(shù)據(jù)量的評估。通過 Control 數(shù)據(jù)評估的酶切效率,以此判斷實驗過程的準(zhǔn)確性和有效性。根據(jù)生物信息學(xué)分析,在群體中開發(fā)全組范圍的 SNP 標(biāo)記,利用群體內(nèi)具有代表性的高質(zhì)量SNP 進行群體多態(tài)性分析,包括進化樹的構(gòu)建,群體結(jié)構(gòu)分析,PCA分析,連鎖不平衡分析和全組關(guān)聯(lián)分析。具體生物信息分析流程見圖 2:圖 2 生物信息分析流程2.4SLAF開發(fā)方法概述本項目產(chǎn)生的reads 來源于同一限制性內(nèi)切酶對不同樣品作用產(chǎn)生的長度相同的酶切片段,根據(jù)序列相似性將各樣品的 reads 進行聚類
10、,聚類到一起的reads 來源于一個SLAF 片段(SLAF)。同一 SLAF在不同樣品間的序列相似度遠高于不同SLAF間的相似度;一個 SLAF在不同樣品間序列有差異(即有多態(tài)性),即可定義為多態(tài)性 SLAF和Indel6。序列多態(tài)性主要包括 SNP多態(tài)性SLAF開發(fā)流程圖見圖 3:圖 3 SLAF開發(fā)流程圖3生物信息學(xué)分析方法和結(jié)果3.1酶切方案評估3.1.1 酶切方案對的參考組序列進行電子酶切,根據(jù)酶切方案選擇原則(見2.1.2),確定限制性內(nèi)切酶為-bp 的序列定義為,酶切片段長度在SLAF個SLAF,具體信息見表 3。,到表 3 酶切確定的酶切方案信息統(tǒng)計InsertSLAFRepe
11、titive SLAFEnzymeSizeNumberpercentage(%)HaeIII注:Enzyme:酶切確定的限制性內(nèi)切酶;Insert Size:酶切確定的酶切片段長度范圍;SLAFNumber:酶切確定的酶切方案在參考物種組中可以得到的SLAF數(shù);Repetitive SLAF percentage:位于重復(fù)序列的SLAF比例。3.1.2 酶切均勻性評估統(tǒng)計 SLAF上的數(shù)量(見表 4),繪制 SLAF在各在上的分布圖(見圖 4),評價 SLAF表 4 SLAF在組中分布的均勻性。上的數(shù)量統(tǒng)計在各Chromosome IDChromosome lengthExpected SLA
12、F numberAverage SLAF distanceGm01Gm02Gm03Gm04Gm05Gm06Gm07Total注:Chromosome ID:;Expected SLAF number:在相應(yīng)上SLAF數(shù);Chromosome length:長度;Average SLAF distance:平均SLAF 間距。圖 4 SLAF在參考組各上的分布注:橫坐標(biāo)為window 內(nèi)的SLAF長度,每一個黃色條帶代表一條數(shù)越多,顏色越深,SLAF,按照 1M 的大小對組進行了劃分,每個數(shù)越少,顏色越淺;圖中顏色越深的區(qū)域即SLAF集中分布的區(qū)域。由表 3 和圖 4 可知,SLAF案可行。在組
13、各上分布基本均勻,酶切方酶進行酶切,SLAF總結(jié):本項目通過大豆組進行方案,選擇-bp,個 SLAF,SLAF長度選擇在到在組上基本分布均勻,位于重復(fù)序列區(qū)的 SLAF%。比例為3.2數(shù)據(jù)統(tǒng)計與評估為保證項目分析質(zhì)量,本項目采用讀長 PE析數(shù)據(jù)。作為后續(xù)的數(shù)據(jù)評估和分3.2.1質(zhì)量值分布檢查質(zhì)量值(Q)是評估高通量單堿基錯誤率的重要指標(biāo),質(zhì)量值越高對應(yīng)的堿基錯誤率越低。堿基錯誤率 e 和質(zhì)量值 Q 的對應(yīng)公式:Q = log10 e,如果某堿基應(yīng)該為 30。本項目所有數(shù)據(jù)出錯的概率為 0.001,則該堿基的質(zhì)量值質(zhì)量值分布見圖 5:Q圖 5質(zhì)量值分布圖注:橫坐標(biāo)為reads 的堿基位置,縱坐標(biāo)
14、為單堿基的質(zhì)量值。前 80bp 為雙端序列的第一端reads所有reads 的每個堿基,同一的質(zhì)量值分布,后 80bp 為另一端reads 的質(zhì)量值分布。每個bp 代表位置的各個質(zhì)量顏色越深表示在數(shù)據(jù)中這個質(zhì)量值得比例越高。如第一個bp 即表示該項目所有reads的第一個堿基在時的質(zhì)量值分布。150bp3.2.2 堿基分布檢查SLAF-seqreads 為組 DNA 的酶切片段,其堿基分布會受到酶切位reads 的前 2 個堿基會呈現(xiàn)與酶切位點一致的堿基分點和PCR 擴增的影響離,后續(xù)堿基分布會呈現(xiàn)不同程度的波動。本項目堿基分布情況見圖 6:圖 6 堿基含量分布圖注:橫坐標(biāo)為 reads 的堿
15、基位置,縱坐標(biāo)為堿基所占的比例;不同顏色代表不同的堿基類型,綠色代表堿基A,藍色代表堿基T,紅色代表堿基C,橙色代表堿基G,灰色代表中識別不出的堿基N。前 80bp 為雙端序列的第一端Reads 的堿基分布,后 80bp 為另一端reads 的堿基分布。每個 bp 代表的分布情況。的每個堿基,如第一bp 即表示該項目所有reads 在第一個堿基的3.2.3數(shù)據(jù)產(chǎn)出和質(zhì)量統(tǒng)計對各樣品的數(shù)據(jù)進行統(tǒng)計,包括 reads 數(shù)量、Q30 和 GC 含量,前 5 個樣本的具體結(jié)果見表 5,其余樣本的結(jié)果統(tǒng)計見FTP:表 5 前 50 個樣品數(shù)據(jù)統(tǒng)計表SleBMKIDTotalReadsQ30Percent
16、age(%)GCPercentage(%)ID1aa2ab3ac4ad5aeArabControl2,777,06980.4146.82注:Sle ID:項目樣品;BMK ID:百邁客對項目樣品的;Total Reads:各樣品的reads 數(shù);Q30 percentage:質(zhì)量值大于或等于 30 的堿基所占百分比;GC percentage:結(jié)果中G 和C 兩種堿基所占總堿基的百分比;Control:用于評估實驗建庫的擬南芥數(shù)據(jù)。Mreads(Gbp)數(shù)據(jù),數(shù)據(jù)總結(jié):本項目共獲得平均Q30 為%,平均 GC 含量為%。用于評估實驗建庫的準(zhǔn)確性的擬南芥ControlMreads(Gbp)的數(shù)據(jù)
17、量。獲得3.3實驗建庫評估通過對 Control(擬南芥)數(shù)據(jù)的評估實驗過程是否正常,確定酶切方案實施的有效性。本項目中 Control 所用擬南芥為 Arabidopsisliana(ecotypeColumbia) ,組 大 小 為119.48M ,地址 :。3.3.1 比對效率統(tǒng)計通過SOAP11將Control 的reads 與參考組進行比對,比對結(jié)果見表 6。結(jié)果顯示本次實驗雙端比對效率在%。表 6 Controlreads 比對結(jié)果統(tǒng)計表Paired-endSingle-endSleUnmap readsmapped readsmapped readsControl注:Paired
18、-end mapped reads:一條序列兩端在參考例;組上的比對跨度介于 50bp1kb 的reads 占總 reads 的比Single-end mapped reads:一條序列兩端在參考的比例;組上的比對跨度小于 50bp,或大于 1kb 的reads 占總 readsUnmap reads:未比對到組上的reads 占總reads 的比例;Single-end mapped reads 和Unmap reads 來源:由于接頭過濾不全,reads 中堿基錯配,異常的等類似情況導(dǎo)致的比對結(jié)果。片段大小3.3.2 酶切效率評估統(tǒng)計酶切效率是評價簡化組實驗是否成功的一個關(guān)鍵指標(biāo)組上的復(fù)雜
19、結(jié)構(gòu)區(qū)域(如環(huán)狀結(jié)構(gòu)域、連續(xù)酶切位點等)、組 DNA 樣品純度較低、酶切時間等通過統(tǒng)計越好6。都可能影響限制性內(nèi)切酶的活性,導(dǎo)致部分酶切位點未被切開。reads片段中殘留酶切位點的比例,統(tǒng)計比例越高,酶切效率Control 數(shù)據(jù)的酶切效率統(tǒng)計結(jié)果見表 7:表 72 Control 數(shù)據(jù)酶切效率評估統(tǒng)計表Digestion NormallyDigestion PartlyTotalNumberPercentage(%)注:Digestion Normally:reads 中不存在完整的限制性內(nèi)切酶識別序列;Digestion Partly:reads 中存在完整的限制性內(nèi)切酶識別序列;Total
20、:reads 總數(shù)。從表 6 中可知,本項目 Control 數(shù)據(jù)的酶切效率為%,表明酶切反應(yīng)正常。3.3.3 片段選擇評估根據(jù)Controlpair-end mapped reads 在組中的位置計算SLAF的實際長度,繪制 Control reads片段的長度分布圖,并估測實際片段選擇范圍。實際片段選擇范圍評估方法:以所有reads 的片段大小的平均值為片段范圍的中心,以中心值向兩側(cè)以 1bp 為同步延伸,累計 reads 數(shù)達到所有reads的 85%時的范圍即為實際的SLAF片段范圍。Controlreads片段分布見圖 7:圖 7 Control reads片段分布圖注:橫坐標(biāo)表示片
21、段長度,縱坐標(biāo)表示相應(yīng)長度的 reads 數(shù)。兩條紅線之間的區(qū)間范圍為 SLAF 方案的片段范圍。如圖 7 所示,reads 占所有reads 的%。切膠范圍內(nèi)實驗建庫評估總結(jié):Control%,酶切效率為數(shù)據(jù)的雙端比對效率為%。3.4SLAF 標(biāo)記開發(fā)3.4.1 SLAF統(tǒng)計個SLAF,前 5本項目共開發(fā),每個樣品的平均深度為個樣本的信息統(tǒng)計見表 8,其余樣本的具體統(tǒng)計見FTP:表 8 SLAF統(tǒng)計SleIDBMK IDSLAF numberTotal depverage depth1aa2ab3ac4ad5ae注:Sle ID:項目樣品;BMK ID:百邁客對項目樣品的;SLAF numb
22、er:對應(yīng)樣品所含有的SLAF數(shù);Total depth:對應(yīng)樣品的在SLAF中的總深度,即總reads 數(shù);Average depth:平均每個SLAF 上對應(yīng)樣品的reads 數(shù)。3.4.2 SLAF 多態(tài)性分析個SLAF針對所有樣品共開發(fā)得到的,根據(jù)等位數(shù)和序列之間的差異進行多態(tài)性分析,共得到 3 種類型的SLAF:Polymorphic 型,No Polymorphic 型,Repetitive 型。各類型SLAF結(jié)果統(tǒng)計見表 9:表 9 SLAF類型統(tǒng)計XXPolymorphicNo PolymorphicRepetitiveTotalTypeSLAFSLAFSLAFSLAFNumb
23、erPercentage注:Polymorphic SLAF:表示在一個SLAF中找到多態(tài)性位點,多態(tài)性位點主要包括SNP 和Indel;No Polymorphic SLAF:表示在SLAF中沒有找到多態(tài)性位點;Repetitive SLAF:指位于重復(fù)序列區(qū)的SLAF;Total SLAF:所有的SLAF。從表 8 可以看出,在開發(fā)得到的個 SLAF中,多態(tài)性 SLAF共有個,多態(tài)性比例達到。分析其中多態(tài)性 SLAF個 SNP 標(biāo)記,個 InDel 標(biāo),共獲得記。通過SOAP10將SLAF定位到參考組上,統(tǒng)計不同上的SLAF和多態(tài)性SLAF表 10 SLAF,詳細數(shù)據(jù)見表 10:和多態(tài)性
24、SLAF分布統(tǒng)計Chromosome IDSLAF Numbolymorphic SLAFGm01Gm02Gm03Gm04Gm05Total注:Chromosome ID:;SLAF Number:位于相應(yīng)上的SLAF數(shù);XX%3.4.3 SLAF在上的分布(此步為有參組才能做)PolymorphicSLAF:位于相應(yīng)上的多態(tài)性SLAF數(shù)。根據(jù)SLAF 在上的分布,繪制 SLAF和多態(tài)性SLAF的染色體分布圖,如圖 8 所示:圖 8 SLAF和多態(tài)性 SLAF 在上的分布,按照 1M 的大小對注:橫坐標(biāo)為window 內(nèi)的SLAF長度,每一個黃色條帶代表一條數(shù)越多,顏色越深,SLAF組進行了劃
25、分,每個數(shù)越少,顏色越淺;圖中顏色越深的區(qū)域即SLAF集中分布的區(qū)域。左圖為SLAF的分布圖,右圖為多態(tài)性SLAF的分布圖。3.4.4 SNP 信息統(tǒng)計個SLAF 標(biāo)記統(tǒng)計SNP 信息,根據(jù) MAF0.05 和完整根據(jù)開發(fā)得到的度0.8 進行篩選,共得到個群體的 SNP。前 5 個樣本的 SNP 信息統(tǒng)計見表 11,其余樣本的 SNP 信息見FTP:表 3 前 5 個樣品 SNP 信息統(tǒng)計Sle IDTotal SNPSNP numegrityHeter ratioaaabacadaeTotal注:Sle ID:樣品;Total SNP:檢測到的SNP 總數(shù);SNP num:對應(yīng)樣品中檢測到的
26、SNP 個數(shù);egrity:樣品中檢測到的SNP 完整度;Heter ratio:樣品中SNP 的雜合率。根據(jù)SNP 在上的分布,繪制 SNP 在上的分布圖,如圖 9 所示。圖 9 SNP 在上的分布注:橫坐標(biāo)為長度,每一個黃色條帶代表一條,按照 1M 的大小對組進行了劃分,每個window 內(nèi)的SNP 標(biāo)記數(shù)越多,顏色越深,SNP 標(biāo)記數(shù)越少,顏色越淺;圖中顏色越深的區(qū)域即SNP 標(biāo)記集中分布的區(qū)域。多態(tài)性 SLAF開發(fā)總結(jié):本項目共獲得個 SLAF,樣品平均個 SNP。深度為,多態(tài)性 SLAF有個,共獲得3.5系統(tǒng)發(fā)育分析系統(tǒng)發(fā)育樹用來表示物種之間的進化關(guān)系,根據(jù)各類生物間的親緣關(guān)系的遠近
27、,把各類生物安置在有分枝的樹狀的圖表上,簡明地表示生物的進化歷程和親緣關(guān)系。基于SNP,通過 MEGA57,neighbor-joining8算法,構(gòu)建個樣品群體進化樹。進化樹見圖 10:(進化樹要有顏色的區(qū)分)XX圖 10個樣品進化樹注:圖中每個分枝為一個樣品。個樣品分為 XX 個亞群。如圖中所示,通過進化樹分析將3.6群體結(jié)構(gòu)分析3.6.1 遺傳結(jié)構(gòu)分析群體遺傳結(jié)構(gòu)分析能夠提供的血統(tǒng)來源及其組成信息,是一種重要的遺傳關(guān)系分析工具。基于 SNP,通過 admixture9,分析個樣品的群體結(jié)構(gòu),分別假設(shè)個樣品的分群數(shù)(K 值)為 1-20,進行聚類。根據(jù) K 峰值的位置來確定分群數(shù)為 3。反
28、映了值為 1-20 的 structure 情況見圖 11:所有的樣品可能來自于 3 個原始的祖先。KXXXX圖 10 XX 個樣品分群數(shù)為 1-20 的聚類圖注:上圖圖中每種顏色代表一個群,每行代表一個分群值的情況,例如 K=2 是表示每個樣品在兩個群體結(jié)構(gòu)中分別占的比例;圖中展示了 XX 個樣品分群值從 1-20 的聚類情況。下圖中為每個K 值對應(yīng)的K 值,K 為 3 的時候K 最小。如圖 14 所示,本項目的12 所示:個樣品可以分為 3 個群,樣品與群體關(guān)系如表表 12 樣品分群對應(yīng)關(guān)系表Sle IDQ1Q2Q3aa0.999980.000010.00001ab0.000010.837
29、3750.162615ac0.000010.6882190.311771ad0.6203580.0152240.364418ae0.7967070.2032830.00001注:Sle ID:樣品;Q1:樣本來自第一個原始祖先的可能性;Q2:樣本來自第二個原始祖先的可能性;Q3:樣本來自第三個原始祖先的可能性。例如 aa 樣品,Q1 的值最大,可以確定aa 來自于第一個群。XX3.6.2 PCA 分析基于 SNP,通過 cluster10,進行主成分分析(Principal components個樣品的主成分聚類情況。通過 PCA 分析,ysis11,PCA)分析,得到能夠得知哪些樣品相對比較
30、接近,哪些樣品相對比較疏遠,可以輔助進化分析。PCA 聚類見圖 12,前 5 個樣本的具體數(shù)據(jù)見表 13,其余樣本的數(shù)據(jù)統(tǒng)計見 FTP:圖 12個樣品 PCA 聚類圖注:圖中通過PCA 分析將樣品聚為三維,pca1 代表第一主成分,pca2 代表第二主成分;pca3 代表第三主成分。一個點代表一個樣品,一種顏色代表一個分組。表 4 前 5 個樣品分群對應(yīng)關(guān)系表Sle IDPC1PC2PC3aa0.215104-0.092310.026573ab-0.061980.1639050.111522ac0.0245210.4477280.045192ad0.079814-0.08282-0.04613
31、ae0.157891-0.098550.049204注:Sle ID:樣品;PC1:第一主成分;PC2:第二主成分;PC3:第三主成分。3.7群體選擇分析3.7.1 連鎖不平衡分析在某一群體中,不同座位上某兩個同時遺傳的頻率明顯高于預(yù)期的隨機頻率的現(xiàn)象,稱連鎖不平衡(linkage disequilibrium)。進行連鎖不平衡分析,可以獲得物種的最小的遺元。的SNP 組合,分析SNP 在所有樣品中的連鎖情況;自通過在同一個然群體中用連鎖平衡系數(shù)(D)和連鎖不平衡系數(shù)(r2)表示。D或r2 越接近于 1,代表連鎖關(guān)系越強。將 組上SNP 間距與r2 進行擬合,一般來說,SNP 間距離越接近,r
32、2 越大,SNP 間距越遠,r2 越小。一般用 r2 大于 0.1 的數(shù)據(jù)作為連鎖不平衡的衰減(LD-decay)的數(shù)值,LD-decay 越長,即 LD 衰減越慢,代表物種的 SNP 間發(fā)生連鎖的概率越大,LD-decay 越短,即 LD 衰減越快,代表物種的SNP 間發(fā)生連鎖的概率越小,一般認(rèn)為 LD 衰減快的物種比較原始。本項目的 LD-decay 長度為,本項目的 LD-decay 衰減圖如圖 14 所示:圖 11 LD-decay 分布圖注:橫坐標(biāo)代表SNP 的間距,縱坐標(biāo)代表r2 值。r2=0.1 時的SNP 間距即為 LD-decay3.7.2 選擇清除分析選擇性清除是指由于最近
33、的較強的正向自然選擇,一個突變位點相鄰 DNA上的核苷酸之間的差異下降或消除。當(dāng)一個新的突變產(chǎn)生,使相對于其他群體成員的適應(yīng)性增加,就可能產(chǎn)生選擇性清除。自然選擇有利于適應(yīng)性強的生存,隨著時間的推移,新突變的等位頻率逐漸增加。隨著增加變的越來越多,中性遺傳變異與新的突變連鎖遺傳越來越多。組上的選擇性清除區(qū)域逐漸形成正選擇的單體型。使這一段區(qū)域的遺傳變異大量減少。主要分析方法包括XXKb了基于群體分化(Fst)和群體雜合性分布,通過 Z 轉(zhuǎn)換(Z-transform 指將符合正態(tài)分布的數(shù)據(jù)轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布)來檢測受選擇的區(qū)域。Fst 分析Fst 是傳統(tǒng)衡量種群遺傳分化、種群遺傳結(jié)果的基本指標(biāo),
34、最初是由 Wright12提出。基于群體中亞種間 SNP 分析,得到亞種之間的分化區(qū)域,計算公式如下:WithinFst = 1 BetnBetn代表抽樣自兩個不同亞群的樣品的平均成對差異,Within代表抽樣自兩個相同亞群的樣品間平均成對差異。在中性進化條件下,F(xiàn)st 的大小主要決定于遺傳漂變和遷移等的影響,如果種群中一個等位因為對于特定生境的適合度較高而經(jīng)歷適應(yīng)性選擇,那么其頻率的升高會增大種群分化水映常用的指標(biāo)。最終得到 XX 與XX 之間的分化區(qū)域,XX結(jié)果見圖 15,具體結(jié)果見表 14,提取分化區(qū)域內(nèi)的,注釋結(jié)果見FTP。圖 15 注:橫坐標(biāo)表示,縱坐標(biāo)表示。Tajimas D 檢驗
35、Tajimas D 檢驗通過比較群體突變率的兩個估計值 和 的差異檢測正向選擇效應(yīng)。如果 Tajimas D 值為正,即 , 表明存在大量的中等頻率的等位,這可能是由于群體瓶頸效應(yīng),群體結(jié)構(gòu),或者平衡選擇引起的。如果Tajimas D 值為負,即 表明存在大量的低頻等位位點,可能了選群體的分析結(jié)果見圖 16:擇清除效應(yīng)。XX在數(shù)據(jù)上就是選擇區(qū)域有較大的Fst 值。 分析 表示的是核苷酸多態(tài)性,一般不受群體大小的影響,是選擇清除分析時最圖 16 Tajimas D 檢驗注:橫坐標(biāo)表示,縱坐標(biāo)為計算的Tajimas D 的值通過Tajimas D 檢驗,發(fā)現(xiàn)有個位點為負值,個位點為正值。Hp 檢驗
36、Hp 是表示一個群體雜合度的參數(shù),Hp 越小,表示雜合低,該位點可能是受選擇的位點。基于群體雜合性:通過計算窗口內(nèi) SNP 位點的雜合性,進而對選擇清除進行評估。具體方法:以指定步長滑動窗口,分布計算每個位點最大,最小等位個數(shù)(Nmax,Nmin),每個窗口的雜合性分?jǐn)?shù)為:其中 Nmax 表示每個位點最大等位個數(shù)。個數(shù),Nmin 表示每個位點最小等位通過計算窗口內(nèi) SNP 位點的雜合性,進而對 Selective sp 進行評估,具體方法為以指定步長滑動窗口,分別計算每個位點最大、最小等位個數(shù)( Nmax, Nmin),每個窗口的雜合性分?jǐn)?shù)為 Hp。對HP 進行Z 轉(zhuǎn)換,公式為:結(jié)合群體雜合差
37、異以及群體分化分布,選擇(參數(shù)可調(diào))區(qū)域為候選選擇性清除區(qū)域。最終得到 XX 群體受選擇的區(qū)域,XX結(jié)果見圖 17,具體結(jié)果見表16,提取分化區(qū)域內(nèi)的,注釋結(jié)果見FTP。圖 17 選擇清除分析注:橫坐標(biāo)為位置,縱坐標(biāo)為每個窗口計算得到的 Hp 的Z 轉(zhuǎn)換值。ZHp-2XXXX表 5 群體受選擇區(qū)域信息統(tǒng)計表Region IDPop1Pop2ChrStartEndGene注:Pop1,Pop2:兩個亞群;Start,END:分化區(qū)域的起始位置;Gene:關(guān)聯(lián)區(qū)域的Gene 數(shù);Region ID:表示區(qū)域的ID3.7.3功能注釋(此步主要針對有參考組的物種;無參考組的物種如果想要進行信息可能不理
38、想)注釋,則通過 blast 與 Nt 數(shù)據(jù)庫進行比對,只是注釋的表 6 群體受選擇區(qū)域信息統(tǒng)計表Region IDGoNRSwissProtCOGKEGG注:Region ID 表示區(qū)域的ID,對應(yīng)表 14 里的內(nèi)容4項目信息表 18 SLAF-遺傳進化信息表分析內(nèi)容名稱版本對分化區(qū)域進行功能注釋,具體結(jié)果見表 15聯(lián)合分析酶切Call SNP進化樹群體結(jié)構(gòu)PCA連鎖不平衡Fst 分析選擇清除分析5數(shù)據(jù)5.1用戶登錄及數(shù)據(jù)直接在瀏覽器中輸入ftp:/,但是這種方法可能會因為網(wǎng)速.cn,然后輸入用戶名和進行而出現(xiàn)打不開頁面,無法的情況。一個FTP 客戶端好之后直接解壓縮,然后雙擊文件夾中的圖標(biāo)
39、,打開Filezilla 界面,在主機欄中輸入x,然后點擊快速連接進入到服務(wù)器,在就可以了。.cn,輸入用戶名站點中對想x,的文件5.2結(jié)果文件查看說明上傳目錄中有Readme.txt 說明,詳細介紹了每個文件所代表的內(nèi)容。上傳的結(jié)果數(shù)據(jù)文件多以文本格式為主(fa 文件、txt 文件、detail 文件、xls 文件等)。在Windows 系統(tǒng)下查看文件使用Editplus 或 UltraEdit 作為文本瀏覽程序,否則會因文件過大造成死機。在 Unix 或Linux 系統(tǒng)下可以瀏覽較大的文本文件,用Less 等操作命令可以順利地查看。5.3SVG 文件格式的查看文件含有SVG 格式的文件,S
40、VG 是矢量化的文件,可以隨意放大而不失真。要查看SVG 格式的文件,請先安裝SVG 插件。【參考文獻】1.Crow, James F., and Motoo Kimura. Anroduction to population genetics theory. Anroduction to population genetics theory. (1970).2.Sun X, Liu D, Zhang X, et al. SLAF-seq: an efficient method of large-scale De novo SNPdiscovery and genotye58700.usin
41、g high-throughput sequencingJ. PloS one, 2013, 8(3):3.Project I R G S. The map-based sequence of the rice genomeJ. Nature, 2005, 436(7052):793-800.4.Davey J W, Cezard T, FuentesUtrilla P, et al. Spel features of RAD Sequencing data:implications fenotyJ. Molecular ecology, 2013, 22(11): 3151-3164.5.K
42、ozich J J, Westcott S L, Baxter N T, et al. Development of a dual-index sequencing strategyand curation pipeline foryzinglicon sequence data on the MiSeqIlluminasequencing platformJ. Appd and environmental microbiology, 2013, 79(17): 5112-5120.6.Arabidopsis Genome Initiative.ysis of the genome seque
43、nce of the flowering plantArabidopsislianaJ. Nature, 2000, 408(6814): 796.7.Koichiro T,Daniel P, Glen S,Masatoshi N, Sudhir K,MEGA5: Molecular EvolutionaryGeneticsysis Usingum Likelihood, Evolutionary Distance, andumParsimony Methods.2011, 28 (10): 2731-2739.8.N Saitou and M Nei, The neighbor-joinin
44、g method: a new method for reconstructingphylogenetic trees.Molecular Biology and Evolution,1987, 4(4):406-425.9.Alexander D H, Novembre J, Lange K. Fast m-based estimation of antry in unrelatedindividualsJ. Genome research, 2009, 19(9): 1655-1664.10.de Hoon M J L, Imoto S, Nolan J, et al. Open sour
45、ce clustering softwareJ. Bioinformatics,2004, 20(9): 1453-1454.11.Dunteman G H. Principal componentsysisM. Sage, 1989.12.Brown A H D. The estimation of Wrights fixation index from genotypic frequenciesJ.Genetica, 1970, 41(1): 399-406.13.Bradbury P J, Zhang Z, Kroon D E, et al. TA: software for assot
46、ion mapofcomplex traits in diverse slesJ. Bioinformatics, 2007, 23(19): 2633-2635.附件 1 多態(tài)性 SLAF后續(xù)檢驗方法1. CAPS 標(biāo)記開發(fā)酶切擴增多態(tài)性序列(Cleavedlified Polymorphism Sequen,CAPS)標(biāo)記又稱為 PCR-RFLP,是 PCR 技術(shù)與 RFLP 技術(shù)結(jié)合的法。它的基本步驟是利用己知位點的 DNA 序列設(shè)計出特異性 PCR 引物,PCR 擴增,擴增產(chǎn)物用限制性內(nèi)切酶酶切,瓊脂糖凝膠電泳分離酶切片段,EB 染色并進行 RFLP分析。與 RFLP 技術(shù)一樣,CAP
47、S 技術(shù)檢測的多態(tài)性其實是酶切片段大小的差異。在酶切前進行PCR產(chǎn)物檢測,其多態(tài)性稱ALP(slified length polymorphisms)。CAPS 是一類共顯性分子標(biāo)記,其優(yōu)點是避免了 RFLP 分析中膜轉(zhuǎn)印這一步驟,又能保持RFLP 分析的精確度。SNP 正好處于限制性內(nèi)切酶位點上,可將它轉(zhuǎn)化為 CAPS 標(biāo)記,即在 SNP兩側(cè)設(shè)計引物,經(jīng)限制性內(nèi)切酶對 PCR 產(chǎn)物進行酶切后,電泳檢測產(chǎn)物的多態(tài)性。2. dCAPS 標(biāo)記開發(fā)當(dāng) SNP 所處的位置不是限制性內(nèi)切酶識別位點時,可以通過在引物 3端引入錯配堿基將 SNP 位點改造成酶切位點,將其轉(zhuǎn)化為衍生的酶切擴增多態(tài)性序列(de
48、rived Cleavedlified Polymorphism Sequen,dCAPS)標(biāo)記。可用dCAPS Finder、SNP2CAPS 等來設(shè)計引物;或者憑經(jīng)驗對序列進行目測來設(shè)計引物。其基本原則是先確定引入錯配堿基的正向引物,以距 SNP 位點約 20bp的序列作為正向引物,僅靠 SNP 位點的堿基作為正向引物 3端,在此引入 12個錯配堿基,使在親本之一的 PCR 擴增產(chǎn)物上產(chǎn)生一個常用限制性內(nèi)切酶識別位點,而在另一個親本的 PCR 擴增產(chǎn)物上沒有新增的這個酶切位點,即雙親的 PCR 產(chǎn)物具有酶切長度差異。然后再按引物設(shè)計的一般原則確定方向引物。產(chǎn)物大小應(yīng)控制在 500bp 以下
49、。3. 等位特異 PCR(AS-PCR)組中只有 30%40% SNP 能轉(zhuǎn)化為CAPS 或dCAPS 標(biāo)記,其他SNP 經(jīng)改造后也不能成為常用限制性內(nèi)切酶識別位點,但可用 AS-PCR 的方法來檢測。同 CAPS 和 dCAPS 標(biāo)記一樣,用 AS-PCR 方法檢測的 SNP 標(biāo)記也是共顯性標(biāo),而且此法同樣經(jīng)濟實用、易于操作。AS-PCR 方法需設(shè)計兩條特異的正向引物和一條反向引物,兩條正向引物僅在 3端最后一個堿基不同。其中一條正向特異引物與一個親本能完全匹配,與反向引物一起擴增出 PCR 產(chǎn)物,而與另一親本不能完全匹配,也不能擴增出 PCR產(chǎn)物。這兩種引物組合都能從雜合體中擴增出 PCR
50、 產(chǎn)物。為了提高檢測效率,可在其中一條正向引物的 5端加上 20bp 的M13 等序列,使兩條正向引物與反向引物配對擴增出的 PCR 產(chǎn)物具有長度差異,這樣 3 條引物可以同時在一個 PCR反應(yīng)中檢測樣品的標(biāo)記值。由于特異引物、Taq 酶等反應(yīng)體系和 PCR 反應(yīng)程序的原因,AS-PCR 并不能完全抑制由于錯配引起的非特異性擴增而出現(xiàn)假陽性的結(jié)果。為了克服這個缺點,可在正向特異引物 3端的 3bp 范圍內(nèi)引入 1 個錯配堿基來提高 AS-PCR 反應(yīng)的特異性。在兩個 SNP 位點相隔不遠的情況下,可將兩條特異引物分別設(shè)計在不同親本的兩個 SNP 位點上,這樣既可以保證三條引物在同一 PCR 反
51、應(yīng)體系中的反應(yīng)特異性,又提高了檢測效率。同樣,可以在一條正向特異引物 5端加M13 等序列用PCR 長度做區(qū)分,在 3端引入錯配堿基提高反應(yīng)特異性。為了增加 AS-PCR 的特異性,在引物設(shè)計和 PCR 反應(yīng)時需遵循以下原則:由于在正向引物 3端引入錯配堿基的種類和數(shù)量不同,AS-PCR 的特異性也不同,需要用不同的 PCR 反應(yīng)條件來檢測引物的特異性,選擇特異性高的引物。每個 SNP 可設(shè)計 24 組引物,在PCR 反應(yīng)中設(shè)立不同退火溫度、不同 DNA 模板濃度(相差 10 倍以上)、不同循環(huán)數(shù)(38 個和 28 個)的對比試驗,選擇在各對比試驗中都表現(xiàn)有特異性的引物組,即根據(jù)一個親本設(shè)計的
52、特異引物只能在這個親本中擴增出產(chǎn)物,而在另一個親本在不能擴增出產(chǎn)物。4. 單鏈構(gòu)象多態(tài)性SSCP(single strand conformation polymorphism,SSCP)是基于單鏈 DNA片段構(gòu)象差異來檢測 PCR 產(chǎn)物單鏈堿基微小差異的方法。PCR 產(chǎn)物變性后,單鏈產(chǎn)物經(jīng)中性聚丙烯酰胺凝膠電泳,靶 DNA 中含單堿基置換,或數(shù)個堿基或缺失等改變時,因遷移率變化會出現(xiàn)泳動變位,從而可將變異 DNA 與正常 DNA 區(qū)分開。主要實驗步驟包括:根據(jù)目的序列設(shè)計引物,PCR 擴增目的DNA片段,瓊脂糖凝膠電泳鑒定 PCR 產(chǎn)物,PCR 產(chǎn)物熱變性后立即置于冰上冷卻以復(fù)性,聚丙烯酰胺
53、凝膠低溫電泳分離,銀染或溴化乙錠染色后檢測。由于該方法的實驗結(jié)果受多種的影響,如:PCR 產(chǎn)物、溫度、電壓、PAGE膠的濃度和交聯(lián)度等,重復(fù)性比較差,因此在做 SSCP 時要注意各種條件的一致性。由于核酸片段越小,SSCP 檢測的敏感性越高,因此,在設(shè)計引物時盡量選擇長度300bp 的片段,尤其是 150bp 左右的核酸片段更適于 SSCP 分析;對于大于 400bp 的PCR 產(chǎn)物可以用限制性酶消化,產(chǎn)生小于 400bp 的 DN段,再進行 SSCP 分析。此外,因為游離引物可能同 PCR 產(chǎn)物結(jié)合而改變其泳動率,因此在具體實驗時還應(yīng)采用不對稱引物擴增、PCR 產(chǎn)物過柱或磁珠純化、或稀釋PC
54、R 產(chǎn)物等方法減少游離引物的干擾。【參考文獻】1.,等. 2010. 現(xiàn)代植物育種學(xué).:科學(xué)附件 2 分子標(biāo)記輔助選擇(MAS)分子標(biāo)記輔助選擇是通過分析與目標(biāo)緊密或完全連鎖的分子標(biāo)記的基因型來判斷目標(biāo)是否存在。分子標(biāo)記輔助選擇的效果受群體大小,性狀的遺傳結(jié)構(gòu),選用分子標(biāo)記數(shù)目,標(biāo)記與因或 QTL 之間的遺傳距離),世代等幾種方法方法間的連鎖方式,連鎖強度(即標(biāo)記與基的影響。分子標(biāo)記輔助選擇主要有以下1. 標(biāo)記輔助回交MABC 是把分子標(biāo)記技術(shù)與回交育種相結(jié)合,借助連鎖分子標(biāo)記將供體親本中有用(即目標(biāo))快速轉(zhuǎn)移或滲入到受體親本遺傳背景中,從而達到改良受體親本個別性狀的目的。研究表明,早期世代利用更大群體,后期世代利用更大群體,MABC 效率更高。MABC 基本程序:(1)找到與或 QTL 緊密連鎖的標(biāo)記;(2)證實或
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 江蘇省海門市2025年高三模擬試題數(shù)學(xué)試題試卷解析
- 2019-2025年二級注冊建筑師之建筑結(jié)構(gòu)與設(shè)備通關(guān)提分題庫(考點梳理)
- 2025深圳市設(shè)備供應(yīng)合同范本
- 2025租房合同協(xié)議書樣本參考
- 餐飲外出營銷方案范本
- 光伏 項目 合同樣本
- 2025光纖買賣合同范本
- 2025中外合作開發(fā)合同(電子產(chǎn)品)
- 商場鋼網(wǎng)架施工方案
- 提升團隊協(xié)作效率的措施計劃
- 經(jīng)歷是流經(jīng)裙邊的水
- 河南2023年河南省農(nóng)村信用社(農(nóng)商銀行)員工招聘考試參考題庫含答案詳解
- 法蘭西喜劇院
- 電力市場交易體系規(guī)則培訓(xùn)PPT
- 2022年新改版教科版五年級下冊科學(xué)全冊實驗記錄單(實驗必備)
- 醫(yī)學(xué)檢驗心壁的組織結(jié)構(gòu)
- 江蘇省南京市聯(lián)合體2022-2023八年級初二下學(xué)期道德與法治期中試卷+答案
- 《小池》說課稿 小學(xué)一年級語文教案PPT模板下載
- 112尿道肉阜臨床路徑
- WIS測井?dāng)?shù)據(jù)格式
- 中考歷史復(fù)習(xí)策略98課件
評論
0/150
提交評論