群體遺傳學-單核苷酸多態(tài)及等位頻率_第1頁
群體遺傳學-單核苷酸多態(tài)及等位頻率_第2頁
群體遺傳學-單核苷酸多態(tài)及等位頻率_第3頁
群體遺傳學-單核苷酸多態(tài)及等位頻率_第4頁
群體遺傳學-單核苷酸多態(tài)及等位頻率_第5頁
已閱讀5頁,還剩49頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、群體遺傳學的基本概念與原理 單核苷酸多態(tài)與等位頻率基本內(nèi)容基因頻率與基因型頻率 12345遺傳物質(zhì)染色體的基本概況單核苷酸多態(tài)單核苷酸多態(tài)的測定及數(shù)據(jù)格式全基因組范圍內(nèi)分析SNP應注意的問題人類基因組的構成人類基因組包含23對染色體,其中22對常染色體(按照染色體長短編碼1-22),一對性染色體(男性為X+Y;女性為X+X)。同源染色體的一條來自于父親,另一條來自于母親。一、染色體的基本概況一、染色體的基本概況一、染色體的基本概況一、染色體的基本概況一、染色體的基本概況一、染色體的基本概況一、染色體的基本概況同源染色體與DNA雙鏈同源染色體(homologous chromosomes):是指

2、在二倍體生物細胞中,形態(tài)、結構基本相同的染色體,并在減數(shù)第一次分裂的四分體時期中彼此聯(lián)會,最后分開到不同的生殖細胞(即精子、卵細胞)的一對染色體,在這一對染色體中一個來自母方,另一個來自父方。DNA雙鏈:一對同源染色體共包含兩條染色體,每一條都是由兩條鏈構成的,每一條鏈都是由四種堿基排列而成,兩條鏈之間堿基互補配對。這四種堿基為:腺嘌呤(A)、鳥嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)。其中配對規(guī)則是A與T配對、G與C配對,也稱之為堿基對(base pair)。一、染色體的基本概況一、染色體的基本概況同源染色體數(shù)據(jù)的抽象表述我們通常用A、G、C、T的組合來抽象的表述染色體的堿基排列。由于DNA

3、是雙螺旋結構,因此一對同源染色體共包含四條鏈,即兩對互補配對的DNA鏈。對于其中的一對互補鏈,只要我們知道一條鏈的序列堿基排列,就可以依據(jù)互補原則確定另一條鏈的堿基排列。因此對于一對互補鏈來說,我們只要檢測一條鏈的序列信息即可。這樣,一對同源染色體(原本四條序列)就可以用兩條序列來表述。以后,我們將用兩條由A、G、C、T組合而成的序列代表一對同源染色體。一、染色體的基本概況染色體物理位置與人類堿基對的數(shù)目 物理位置:是將染色體短臂端在上,長臂端在下放置,至上而下計算堿基對的個數(shù),第一個堿基對處為1bp,第二個堿基處為2bp,依次類推。(注:此時假定一對同源染色體等長)。每個位置也成為一個位點。

4、單位換算:1kb=1000bp;1mb=1000kb。一、染色體的基本概況表1.1 人類染色體上堿基對的數(shù)目染色體序號堿基對數(shù)目染色體序號堿基對數(shù)目1247,249,71913114,142,9802242,951,14914106,368,5853199,501,82715100,338,9154191,273,0631688,827,2545180,857,8661778,774,7426170,899,9921876,117,1537158,821,4241963,811,6518146,274,8262062,435,9649140,273,2522146,944,32310135,3

5、74,7372249,691,43211134,452,384X154,913,75412132,349,534Y57,772,954合計:3,080,419,480從上表中,我們大致可以看出,人類基因組中約30億個堿基。AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT1chr6個體序列AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT2chr6AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT

6、AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT3chr6AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT4chr6無變異+祖先AGATACGGCTAAACTTGGGGGTTTTTAAACCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT1chr6個體序列AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT2chr6AGATACGGCTAAACTTGGGGGTTTT

7、TAAGCCCCTTAGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTT3chr6AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT4chr6二、單核苷酸多態(tài)(多為2態(tài)SNP)突變率低,一次突變,自然選擇使得等位擴增單核苷酸多態(tài)性(single nucleotide polymorphism,SNP) 主要是指在基因組水平上由單個核苷酸的變異所引起的DNA序列多態(tài)性。它是人類可遺傳的變異中最常見的一種。二、單核苷酸多態(tài)(多為2態(tài)SNP)單核苷酸多態(tài)的統(tǒng)計學描述 為了加深理解,可以理解為:

8、突變是一次性歷史事件,自然選擇使得突變堿基在群體擴張。另外,為了描述方便,我們通過一個示例來進行闡述。 例:假定某個人群中有N個個體、某位點原有的堿基為G,則初始狀態(tài)中任何個體在該位點處均為純合子G/G,如果該位點發(fā)生了一次突變(假設核輻射引起),使得部分個體的G突變?yōu)锳,則突變個體具有的基因型狀態(tài)為G/A或者A/A,如果A能夠使得個體更適應外部環(huán)境(也就是說含有A的個體更容易生存),則A將會在群體中擴張,含有A的個體所占的比例會越來越多。二、單核苷酸多態(tài)(多為2態(tài)SNP)SNP等位(Allele)從上例中,我們可以看出包含該位點的染色單體共2N條(因為同源染色體,所以乘以2),這2N個染色單

9、體一共有兩種堿基類型G和A,每個堿基類型成為一個等位(Allele)。野生型:上例中,G為群體初始狀態(tài)具有的等位,稱為野生型。突變型:上例中,A為突變后新產(chǎn)生的等位,稱為突變型。二、單核苷酸多態(tài)(多為2態(tài)SNP)SNP基因型(genotype)對于群體中的每個個體,一對同源染色體中的每條在該位點處的取值為G或A。因此,每個個體的同源染色體在該位點處的相型為G/G(野生型純合)或G/A(雜合)或A/A(突變型純合)。SNP基因型:同源染色體在同一位點的兩個等位組成的相型。二、單核苷酸多態(tài)(多為2態(tài)SNP)大多數(shù)的單核苷酸多態(tài)都是二態(tài)的 從表1.1中,我們可以看出,人類大約有30億個堿基,如果突變

10、的發(fā)生是隨機的,則某個位點處突變一次的可能性為1/30億。在該位點再突變一次的概率為(1/30億)*(1/30億)=1/900億。而到目前為止只有約1%的位點發(fā)生一次突變,還未有足夠的時間發(fā)生第二次突變,因此絕大部分的單堿基突變?yōu)槎B(tài)。因此,我們可以二態(tài)的SNP進行數(shù)學抽象。二、單核苷酸多態(tài)(多為2態(tài)SNP)SNP等位的數(shù)學抽象:通常用A、a或1、2表示兩個等位。SNP基因型的數(shù)學抽象:通常用AA,Aa,aa,或0,1,2來表示三個基因型。SNP的數(shù)學編碼在后面的分析中會經(jīng)常用到。二、單核苷酸多態(tài)(多為2態(tài)SNP)注:理論上講,SNP既可能是二等位多態(tài)性,也可能是3個或4個等位多態(tài)性,但實際上

11、,后兩者非常少見,幾乎可以忽略。占所有已知多態(tài)性的90%以上。SNP數(shù)目:人類基因組中SNP的數(shù)目還是個未知數(shù),據(jù)估計人類所有群體中存在大約3000 萬個SNP 位點(平均約每300 600 bp ) 存在一個堿基突變。 SNP以其分布廣、易于分型、檢查速度快和頻率易于估計的特性,作為第三代遺傳標記已被廣泛的應用。二、單核苷酸多態(tài)(多為2態(tài)SNP)非同義SNP與同義SNP從對生物的遺傳性狀的影響上來看,SNP又可分為2種:同義SNP(synonymous SNP):即SNP所致的編碼序列的改變并不影響其所翻譯的蛋白質(zhì)的氨基酸序列,突變堿基與未突變堿基的含義相同。非同義SNP(non-synon

12、ymous SNP):指堿基序列的改變可使以其為藍本翻譯的蛋白質(zhì)序列發(fā)生改變,從而影響了蛋白質(zhì)的功能。二、單核苷酸多態(tài)(多為2態(tài)SNP)非多態(tài)SNP(Nonpolymorphic SNP) 在理解SNP的概念需要注意的一個問題是,SNP是一個群體上的定義。對于多個群體而言,同一個SNP位點在所有的個體中存在兩種等位,但在單獨的某一個群體中只存在一個等位,此時我們稱這個SNP為這個群體中的非多態(tài)SNP。例如(找個實例進行補充),某個SNP位點在全世界范圍內(nèi)有兩個等位A、T,而 在亞洲人群中卻只有1一個等位A,也就是說所有的亞洲個體都是純和子AA,這時,我們我們稱這個SNP是亞洲群體中的非多態(tài)SN

13、P。二、單核苷酸多態(tài)(多為2態(tài)SNP)dbSNP中SNP數(shù)據(jù)的格式:二、單核苷酸多態(tài)(多為2態(tài)SNP)三、單核苷酸多態(tài)的測定及數(shù)據(jù)格式(1)傳統(tǒng)檢測方法(2)SNP芯片(3)新一代測序技術三、單核苷酸多態(tài)的測定及數(shù)據(jù)格式假定,某個SNP兩個等位為T和A,PCR產(chǎn)物大小是:427bp,Kpnl限制性內(nèi)切酶識別T并將序列切斷,對于含有A的序列不切斷,經(jīng)過酶切后的產(chǎn)物是246bp+171bp兩個片段。然后片段通過瓊脂糖凝膠就會產(chǎn)生一些條帶信息,條帶信息分為3類:1個條帶、2個條帶和3個條帶。具體表示的分型信息如下(見下圖):三、單核苷酸多態(tài)的測定及數(shù)據(jù)格式(1)如果個體是T/T純合子,同源染色體PC

14、R產(chǎn)物相同,都含有T,都被酶切斷,共形成246bp長度和171bp長度的段,經(jīng)過擴增后開始電泳,由于長度不同、質(zhì)量不同導致運動速度不同(短的速度快,長度速度慢),經(jīng)過一段時間后會形成兩個條帶。三、單核苷酸多態(tài)的測定及數(shù)據(jù)格式(2)如果個體是T/A雜合子,同源染色體PCR產(chǎn)物為不同的兩個,其中含有T的被酶切斷,形成246bp長度和171bp長度的段,而含有A的則沒有被酶切,長度仍然是427bp,最后的片段共三個長度:246bp、171bp和427bp。經(jīng)過擴增后開始電泳,經(jīng)過一段時間后會形成三個條帶。三、單核苷酸多態(tài)的測定及數(shù)據(jù)格式(3)如果個體是A/A雜合子,同源染色體PCR產(chǎn)物相同,都含有A

15、,而含有A的沒有被酶切斷,長度仍然是427bp,最后的片段共一個,長度:427bp。經(jīng)過擴增后開始電泳,經(jīng)過一段時間后會形成一個條帶。三、單核苷酸多態(tài)的測定及數(shù)據(jù)格式SNP芯片這樣可以在芯片上打上30萬500萬個探針,一次性的檢測出一個個體的幾十萬的SNP,為全基因組范圍內(nèi)變異的掃描帶來方便。三、單核苷酸多態(tài)的測定及數(shù)據(jù)格式3.新一代測序技術新一代測序技術指的是高通量測序技術(High-throughput sequencing)又稱“下一代”測序技術(Next-generation sequencing technology),以能一次并行對幾十萬到幾百萬條DNA分子進行序列測定和一般讀長較

16、短等為標志。對無參考序列的物種,進行重頭測序(de novo sequencing),獲得該物種的參考序列,為后續(xù)研究奠定基礎;對有參考序列的物種,進行全基因組重測序(resequencing),在全基因組水平上掃描并檢測突變位點,發(fā)現(xiàn)個體差異的分子基礎。三、單核苷酸多態(tài)的測定及數(shù)據(jù)格式refTGACAATGGCTCCCGTCCGGGAGGGGAGGGTGGGGGGGTCGTGTCCCCGCCGGACAATGGCTCCCGTCCGGGAGGGGAGTCCGGGAGGGGAGGGTGGGGGGGTCGAATGGCTCCCGTCCGGGAGGGGAGGGCGGGAGGGGAGGGTGGGGGGGT

17、CGTGGGGAGGGGAGGGTGGGGGGGTCGTGTGGAGGGTGGGGGGGTCGTGTCCCCGCGAGGGTGGGGGGGTCGTGTCCCCGCCA/A三、單核苷酸多態(tài)的測定及數(shù)據(jù)格式refTGACAATGGCTCCCGTCCGGGAGGGGAGGGTGGGGGGGTCGTGTCCCCGCCGGACAATGGCTCCCGTCCGGGAGGGGGGTCCGGGAGGGGAGGGTGGGGGGGTCGAATGGCTCCCGTCCGGGAGGGGAGGGCGGGAGGGGGGGGTGGGGGGGTCGTGGGGAGGGGAGGGTGGGGGGGTCGTGTGGGGGGTGGGGGG

18、GTCGTGTCCCCGCGAGGGTGGGGGGGTCGTGTCCCCGCCA/G三、單核苷酸多態(tài)的測定及數(shù)據(jù)格式refTGACAATGGCTCCCGTCCGGGAGGGGAGGGTGGGGGGGTCGTGTCCCCGCCGGACAATGGCTCCCGTCCGGGAGGGGGGTCCGGGAGGGGGGGGTGGGGGGGTCGAATGGCTCCCGTCCGGGAGGGGGGGGCGGGAGGGGGGGGTGGGGGGGTCGTGGGGAGGGGGGGGTGGGGGGGTCGTGTGGGGGGTGGGGGGGTCGTGTCCCCGCGGGGGTGGGGGGGTCGTGTCCCCGCCG/G三

19、、單核苷酸多態(tài)的測定及數(shù)據(jù)格式新一代測序的一個優(yōu)點是不用事先已知一些SNP,可以通過多個個體的序列比對從而發(fā)現(xiàn)新的SNP位點。三、單核苷酸多態(tài)的測定及數(shù)據(jù)格式三種SNP檢測方法共同的缺點 三種SNP檢測方法有個共同的缺點,就是均無法對同源染色體中的每條的相形進行準確的估計 三、單核苷酸多態(tài)的測定及數(shù)據(jù)格式AGATACGGCTAAACTTGGGGGTTTTTAAACCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT1chr6AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT2c

20、hr6AGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTT3chr6AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT4chr6SNP1AGATAA/CGGCTAAACdbSNP&array:A/CdataPCRorGTTTTTAAA/GCCCCTTSNP2A/GPCRorPCR和芯芯片技術AGATACGGCTAAACTTGGGGGTTTTTAAACCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAGC

21、CCCTT1chr21AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT2chr21AGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTT3chr21AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT4chr211234C/AA/AC/CA/AG/GA/AA/GA/G等位1:A2:C1:A2:G野生型和突變型PCR和芯片技術,將染色

22、體割裂,導致恢復原來真實相形困難SNP數(shù)據(jù)的存儲格式1、家系數(shù)據(jù)2、群體數(shù)據(jù)三、單核苷酸多態(tài)的測定及數(shù)據(jù)格式家系數(shù)據(jù) 家系圖 (pedigree)表明親緣與婚姻關系的圖。 三、單核苷酸多態(tài)的測定及數(shù)據(jù)格式一般男用表示,女用表示;、以橫線連結的稱為婚姻線,表示為夫婦;從婚姻線的近中點向下作垂線,下端連上子女記號,子女如在二人以上,可按出生順序從左向右排列,世代數(shù)在圖左端以羅馬數(shù)字標出先證者,附以箭頭或手指圖等記號。完全的家系圖應一個不漏地包括死亡者、流產(chǎn)者和性別不明者。具有特別性狀的人以表示,或加斜線、縱線等以示區(qū)別; 三、單核苷酸多態(tài)的測定及數(shù)據(jù)格式家系圖數(shù)據(jù)存儲格式 在實際數(shù)據(jù)分析中,常常以

23、表格的形式對家系圖進行存儲,具體轉(zhuǎn)換成表格后每列的含義如下:第一列:家庭ID;第二列:個體ID;第三列:父親ID,沒有用0表示;第四列:母親ID,沒有用0表示;第五列:性別,1代表男性,2代表女性;第六列:受累狀態(tài):1代表未受累,2代表受累 三、單核苷酸多態(tài)的測定及數(shù)據(jù)格式將下圖所示家系轉(zhuǎn)化為六列進行數(shù)據(jù)存儲三、單核苷酸多態(tài)的測定及數(shù)據(jù)格式家庭ID個體ID父親ID母親ID性別受累狀態(tài)1100211200121300211421111521211600121743211843121965221106511三、單核苷酸多態(tài)的測定及數(shù)據(jù)格式如何從家系數(shù)據(jù)中制作群體數(shù)據(jù)可以在家系數(shù)據(jù)中將父母為0的個體抽取出來作為無關個體進行群體分析。三、單核苷酸多態(tài)的測定及數(shù)據(jù)格式SNP數(shù)據(jù)說明:三、單核苷酸多態(tài)的測定及數(shù)據(jù)格式四、基因頻率與基因型頻率1、群體的遺傳結構 孟德爾群體(Mendelian population): 一個孟德爾群體,是一群能夠相互繁殖的個體,它們享有一個共同的基因庫。在有性繁殖的生物中,一個物種

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論