


版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第一個(gè)要給大家講的, 是它這個(gè) flowcell 。Flowcell 翻成中文,就叫“流動(dòng)池”。 我們來看這個(gè)圖片。 圖片當(dāng)中, 我們看到一個(gè)象載玻片大小的芯片。 這個(gè)芯片里 面,是做了 8 條通道。 在這個(gè)通道的內(nèi)表面,是做了專門的化學(xué)修飾。 它的化學(xué) 修飾,主要是用 2 種 DNA 引物,把它( 2 種 DNA 引物)種在玻璃表面。 這兩種( DNA 引物的)序列是和接下來要測(cè)序的 DNA 文庫(kù)的接頭序列相互補(bǔ) 的。而且這 2 種引物是通過共價(jià)鍵,連到 Flowcell 上去。之所以要用共價(jià)鍵連 到 Flowcell 上去,是因?yàn)榻酉聛碛写罅康囊后w要流過這個(gè) Flowcell ,只有有共
2、價(jià)鍵連接的這些 DNA ,才不會(huì)被沖掉。這就是 Flowcell 。文庫(kù)制作 再接下來,講一下文庫(kù)、和文庫(kù)的制作(過程) 所謂的 DNA 文庫(kù),實(shí)際上是許多個(gè) DNA 片段,在兩頭接上了特定的 DNA 接 頭,型成的 DNA 混合物。文庫(kù)有 2 個(gè)特點(diǎn),第 1 個(gè)特點(diǎn),是當(dāng)中這一段插入的 DNA ,它的序列是各種各 樣的。第2 個(gè)特點(diǎn),它的兩頭的接頭序列, 是已知的,而且是人工特地加上去的。 要做這個(gè)文庫(kù),首先是把基因組 DNA ,用超聲波打斷。然后打斷之后,兩頭用 酶把它補(bǔ)平,再用 Klenow 酶在 3 端加上一個(gè) A 堿基。然后,再用連接酶把這 個(gè)接頭給連上去。連好了接頭的 DNA 混合
3、物,我們就稱為一個(gè) “文庫(kù)” 。英文也稱作“l(fā)ibrary ”。 橋式 PCR做好了 Library 之后,就要做橋式 PCR 了。橋式 PCR,實(shí)際上是把文庫(kù)種到芯 片上去,然后進(jìn)行擴(kuò)增,這樣的一個(gè)過程。這個(gè)過程,首先是把文庫(kù)加入到芯片上,因?yàn)槲膸?kù)兩頭的 DNA 序列,和芯片上 引物是互補(bǔ)的,所以,就會(huì)產(chǎn)生互補(bǔ)雜交。雜交完了之后,我們?cè)谶@里面加入 dNP 和聚合酶。聚合酶會(huì)從引物開始,延著 模板合成出一條全新的 DNA 鏈來。新的這條鏈,和原來的序列是完全互補(bǔ)的。接下來,我們?cè)偌尤?NaOH 堿溶液。 DNA 雙鏈在 NaOH 堿溶液存在下,就解 鏈了。而且被液流一沖,原來的那個(gè)(模板)鏈,
4、也就是沒有和芯片共價(jià)連接的 鏈,就被沖走了。而和芯片共價(jià)連接的鏈,就被保留下來。然后,我們?cè)僭谝毫鞒乩锛尤胫行砸后w, 主要是為了中和這個(gè)堿液, 在加入中和 液之后,整個(gè)環(huán)境變成中性了。這時(shí)侯, DNA 鏈上的另外一端,就會(huì)和玻璃板 上的第二種引物,發(fā)生互補(bǔ)雜交。接下來,我們加入酶和 dNTP ,聚合酶就延著第二個(gè)引物,合成出一條新鏈來; 然后,我們?cè)偌訅A, 把 2 條鏈解鏈解開; 然后,我們?cè)偌又泻鸵海?這時(shí)侯, DNA 鏈會(huì)和新的引物雜交。再加酶,再加 dNTP ,又從新引物合成出新的鏈來。 連續(xù)重復(fù)這一過程, DNA 鏈的數(shù)量,就會(huì)以指數(shù)方式增長(zhǎng)。制備單鏈在橋式 PCR 完成之后,接下來要
5、做的工作,就是要把合成的雙鏈,變成可以測(cè) 序的單鏈。辦法是通過一個(gè)化學(xué)反應(yīng),把其中一個(gè)引物上的一個(gè)特定的基團(tuán)給切斷掉。 然后,再用堿溶液來洗這個(gè)芯片。這時(shí)侯,堿讓 DNA 的雙鏈解鏈,那根被切斷 了根的 DNA 鏈就被水沖掉了。留下那根共價(jià)鍵連在(芯片)上面的鏈。 接下來,再加入中性溶液,然后在這個(gè)中性溶液里面加入測(cè)序引物。正式測(cè)序好,接下來正式的測(cè)序工作就開始了。 那么,在測(cè)序的時(shí)侯,加入進(jìn)去的,最主要是 2 個(gè)東西:一個(gè)是 帶熒光標(biāo)記的 dNTP 。而這個(gè) dNTP ,它還有一個(gè)特點(diǎn), 它的 3 末端是被一個(gè)疊氮基堵住的。 然后,再加一個(gè)聚合酶,聚合酶就會(huì)選擇:哪一個(gè) dNTP 是和原來位
6、置上的那 個(gè)堿基是互補(bǔ)的,根據(jù)互補(bǔ)性原理,把這個(gè) dNTP 合成到新的這個(gè) DNA 鏈上去。 因?yàn)檫@個(gè) dNTP 的 3端是被一個(gè)疊氮基團(tuán)堵住了,所以,它一個(gè)循環(huán)只能延長(zhǎng) 一個(gè)堿基。然后,它就停在那兒了。合成完了之后,就用水把多余的 dNTP 和酶給沖掉。沖掉之后, 就放到顯微鏡下, 去進(jìn)行激光掃描。 根據(jù)發(fā)出來的熒光來判斷它是哪 個(gè)堿基。因?yàn)?4 種 dNTP ,它每一種 dNTP 上面標(biāo)的熒光素都不一樣, 根據(jù)紅、 黃、藍(lán)、 綠,它出來的哪種顏色,那么,就可以倒過來推出來,這個(gè)新合成上去的堿基, 是哪種堿基。因?yàn)樾潞铣傻膲A基,是和原來位置(的堿基)是互補(bǔ)的,所以,又推出模板上那 個(gè)堿基是哪
7、個(gè)。這一個(gè)循環(huán)完成之后, 就加入一些化學(xué)試劑, 把疊氮基團(tuán)和旁邊標(biāo)記的熒光基團(tuán) 切掉。切完了之后, 3端的羥基就暴露出來。再接下來,加入新的 dNTP 和新的酶,然后,又延長(zhǎng)一個(gè)堿基。新延長(zhǎng)完一個(gè) 堿基之后,把多余的酶和 dNTP 沖掉,再進(jìn)行一輪顯微的激光掃描,再讀一下 這個(gè)堿基是什么。不斷重復(fù)這個(gè)過程,可以重復(fù)上百次,到幾百次,就可以把上百個(gè)堿基,甚至更 多堿基的序列讀出來。讀 Index那么,什么是 Index 哪?是因?yàn)?Illumina 的評(píng)委會(huì)個(gè)測(cè)序量很大,往往一個(gè)樣 本,用不了那么幾億條 DNA 。所以,科學(xué)家就想了一個(gè)辦法。在文庫(kù)的接頭上 做了一些標(biāo)記,每一個(gè)樣本,它有一個(gè)特定
8、的接頭,每個(gè)接頭里面,它有一段特 定的序列。這段特定的序列,我們就稱為 Index 。也有人把它叫做 Barcode ,反正,表達(dá)的 是一個(gè)意思:這么一段特定的序列,標(biāo)記了樣本的來源。那么,要讀這個(gè) Index 的序列,先用堿把上面這根測(cè)完“ Read 1 ”的序列,把 上面這根 DNA 鏈給解鏈掉。解鏈掉之后,再加入中性液,然后,加入“ Read 2 ”這個(gè)測(cè)序引物。 Read 2 測(cè) 序引物結(jié)合的位點(diǎn),正好,就在這個(gè) Index 序列的旁邊。接下來,就進(jìn)行第 2 輪測(cè)序,一般來說,是讀 6 到 8 個(gè)堿基。把這 6 到 8 個(gè)堿 基讀下來,我們就可以知道,這某一個(gè)具體的一段 DNA ,它來
9、自于原始的哪個(gè) 樣本。雙端測(cè)序這是 Illumina 的最核心的另外一個(gè)技術(shù),就是雙端測(cè)序。那么雙端測(cè)序,就是說,一根 DNA 鏈,除了從正向讀一遍,還可以從 DNA 的 負(fù)向,再讀一遍。這一下子就把 Illumina 測(cè)序的有效長(zhǎng)度加了一倍。這是非常有實(shí)際用途的。 那么這個(gè)倒鏈的過程,是這樣,先讓這個(gè) DNA 先合成,合成出來這根互補(bǔ)鏈。 有了這個(gè)互補(bǔ)鏈之后,用一個(gè) 化學(xué)試劑 ,在原來這根鏈的根上切一下。切一下, 原來這根模板鏈就掉了,剩下那根互補(bǔ)鏈。再接下來,就進(jìn)行第 2 端的測(cè)序。第 2 端的測(cè)序原理,和第一端的測(cè)序原理是 一樣的。加上了“ Read 3 ”的這個(gè)引物,依次往下,一個(gè)一個(gè)
10、堿基地往下讀。 大規(guī)模平行測(cè)序 那么最重要的事情是什么呢?一個(gè)點(diǎn),經(jīng)過幾百個(gè)循環(huán),就讀出了幾百個(gè)堿基。 但實(shí)際上,這個(gè)芯片上可以有上億個(gè)點(diǎn),上億個(gè)“ cluster ”,也就是“簇”。 那么上億個(gè)“ cluster ”,每個(gè)循環(huán),它都可以讀出地么多序列,這是 Illumina 測(cè)序非常強(qiáng)大的原因。 因?yàn)槭浅汕先f, 準(zhǔn)確說是上億上鏈都在合成, 這個(gè)就得 到了很大的一個(gè)測(cè)序數(shù)據(jù)量。Illumina HiSeq 測(cè)序儀的工作原理。也就是芯片上發(fā)生了這么多變化, HiSeq 是如何把這些信息給讀出來, 并且把掃 描出來的熒光信號(hào), 又通過怎樣一系列的加工, 變成可以識(shí)別的 “ A、C、G、T” 的堿
11、基序列的。HiSeq 首先是一臺(tái)高精度的顯微光學(xué)掃描儀。然后再配上了一整套的液流系統(tǒng), 和計(jì)算機(jī)軟硬件,再加溫控系統(tǒng),組成這樣一臺(tái)測(cè)序儀。其中最核心,也是結(jié)構(gòu)最復(fù)雜的,是它的光學(xué)系統(tǒng)。前一期,我們講了, Illumina 測(cè)序儀主要是靠 4 種 dNTP 分別帶有不同的熒光 基團(tuán),在被激光照了之后,發(fā)出不同顏色的熒光。再通過對(duì)光的顏色的分辯,可 以判斷出到底是哪個(gè)堿基。光路結(jié)構(gòu)這里,我們要說明一下:感光元件 CCD ,它本身是色盲。所以,它一定要配合 濾光片,才能分辯出顏色來。那我們先來看一下, HiSeq 的光路圖。 左邊這兩個(gè)元器件,就是激光器。一個(gè)發(fā)出紅色激光,另一個(gè)發(fā)出綠色激光。 其中
12、紅色激光主要是激發(fā) A 和 C,這兩種堿基上的熒光基團(tuán);而綠色激光主要 是激發(fā) G 和 T,這兩種堿基上的熒光基團(tuán)。 紅色和綠色這兩束光,通過一面半透半反鏡,組成一道激光。這道激光打在 Flowcell 上。那么請(qǐng)注意, Flowcell 就放在這個(gè)位置。在 Flowcell 里面,結(jié)合在 DNA 上的那個(gè)熒光基團(tuán)在激光的照射下, 就發(fā)出熒光。 熒光通過 3 面半透半反鏡,和 1 面全反鏡,被分成 4 條光路,這 4 道光線,分 別通過一道濾光片,這 4 張濾光片的濾過波長(zhǎng)不一樣。這樣,這 4 道光在經(jīng)過 了濾光片之后,就變成了 4 種顏色不同的光線。然后,這4條顏色不同的光線,各自照在一面反
13、射鏡上, 通過反射鏡進(jìn)入到 CCD。 這4個(gè) CCD就記錄到不同顏色的光線。TDI 線掃描HiSeq 的光線掃描是“線掃描”,和傳統(tǒng)的相機(jī)不一樣,傳統(tǒng)的相機(jī)是面掃描。HiSeq 采取了一種特定的叫 “TDI ”線掃描方式, TDI 是 Time delayintegration 的縮寫。在 HiSeq 上之所以采取 TDI 掃描方式,因?yàn)樗蟹浅C黠@的優(yōu)點(diǎn)。第一個(gè)優(yōu)點(diǎn),就是它的掃描速度非常快,在 HiSeq 2500 上,從 Flowcell 的一 個(gè) Lane 的一頭掃到另外一頭, 也就是一個(gè) “ Swath ”的掃描時(shí)間,大概只有 20 秒種不到。第二個(gè)好處,就是它的掃描精度非常高。在最新
14、的 HiSeq V4 版試劑上,它的光 點(diǎn)密度,大概可以達(dá)到每平方毫米 90 萬個(gè)點(diǎn),要掃描清楚這么高密度的光點(diǎn), 掃描儀的掃描精度是可想而知的。TDI 掃描的第三個(gè)好處,是這種方式,可以把 Flowcell 的上表面、和下表面都 掃描到。Flowcell (測(cè)序芯片)接下來,我們?cè)僖敿?xì)介紹這張 Flowcell 。那么,先來看一下,這張 flowcell 有點(diǎn)象一張載玻片,在這一張片子里面,我們可以看到,它做了 8 條通道。每條通道,我們稱為一個(gè) Lane 。這 8 個(gè) Lane 之間,相互是隔絕的。每個(gè) Lane 的兩端各有一個(gè)小孔。這兩個(gè)小也孔,就是液流流進(jìn)、流出的地方。每個(gè) Lane
15、 的上表面和下表面,都分別以共價(jià)鍵的方式,種了 2 種 DNA 引物。這兩種 DNA 引物,是與文庫(kù)接頭的兩頭序列相互補(bǔ)的。上一期(節(jié)目)我們已 經(jīng)說明了這一點(diǎn)。一個(gè) Lane 里面,分成 2 個(gè)面,上表面、和下表面。上表面和下表面,都種了DNA 引物,也都是可以產(chǎn)生測(cè)序數(shù)據(jù)的。在每一條 Lane 的每一個(gè)面,又被分成了 3 個(gè)掃描通道,每個(gè)道被稱為一個(gè)“ swath ”。每條 Swath 是從頭到底被連續(xù)掃描的。但是它的數(shù)據(jù),在進(jìn)行數(shù) 據(jù)分析的時(shí)侯,是被分割成 16 個(gè)小方塊。這每一個(gè)小方塊, 被稱為一個(gè)“ tile ”。這樣一張 Flowcell ,總共就是 768 個(gè) Tile 。每個(gè)
16、Tile 在掃描的時(shí)侯,會(huì)根據(jù) 4 種顏色,產(chǎn)生 4 張照片。圖像處理掃描完了之后,就要進(jìn)行圖像處理。 掃描出來的最原始的文件, 它的格式是“.tiff ” 文件。 Tiff 文件記錄了每個(gè)像素點(diǎn)上采集到的光強(qiáng)度。 Tiff 文件的優(yōu)點(diǎn)是它是完 全無損, 保留了所有的原始信息。 但它也有它的不足之處。 它的不足之處就是它 的這個(gè)文件太大了。 它的數(shù)據(jù)量很大, 既不便于數(shù)據(jù)的傳輸, 也不便于數(shù)據(jù)的存 儲(chǔ)。接下來,計(jì)算機(jī)軟件就把圖像文件轉(zhuǎn)化成光點(diǎn)文件。光點(diǎn)文件叫“ .BCL”文件。也就是“ Base calling ”的英文縮寫。要把圖像文件,轉(zhuǎn)化成 BCL 文件,就是把4 種顏色的 4 張照片,
17、組合在一起,變成一張有 4 種顏色的彩色照片。這其中首先要解決的,是 4 張照片在空間位置上的匹配問題,因?yàn)?4 張照片是通過 4 個(gè) CCD 分別拍下來的,所以,會(huì)有一定的空間上的偏差。軟件要通過對(duì)4 張照片上,亮點(diǎn)相互比對(duì),找到最合適的、匹配的位置。這里,我們要說明一下, 如果被測(cè)的文庫(kù)是堿基不平衡的文庫(kù), 在這個(gè)空間匹配 上就會(huì)遇到問題。什么叫堿基平衡呢?也就是說,在測(cè)序過程當(dāng)中,每個(gè)循環(huán), A、C、G、T 四種 堿基,都是比較均勻在存在的。最典型是人全基因組文庫(kù),這是一個(gè)典型的堿基平衡文庫(kù)。那什么是堿基不平衡文庫(kù)呢?最典型的,就是 PCR擴(kuò)增子產(chǎn)生的文庫(kù)。 PCR 擴(kuò) 增子的特點(diǎn): P
18、CR 是有特定的起始位點(diǎn)的,一個(gè)特定的測(cè)序循環(huán)中,幾乎所有 的片段都是同一種堿基,而剩下的 3 種堿基,就特別少。這在反映到照片上去的時(shí)侯,就變成:一張照片特別亮,光點(diǎn)很多。而其它的三 張照片就特別暗,上面的光點(diǎn)就很少。這時(shí)侯,要軟件做空間上的比對(duì), 軟件就會(huì)覺得困難, 因?yàn)閷?duì)于那幾張暗的照片, 軟件很難判斷上面的光點(diǎn), 是否與那張亮的照片上的光點(diǎn)真正對(duì)得上。 結(jié)果,就 是判斷出來的可靠性變差。 最后, 就是測(cè)序的數(shù)據(jù)質(zhì)量變差, 有效數(shù)據(jù)量也會(huì)變 少。要解決這個(gè)問題, 辦法是在測(cè)序過程中摻入一些堿基平衡的文庫(kù)。 例如摻人全基 因組文庫(kù)。 或者也可以摻 Illumina 提供的標(biāo)準(zhǔn)的 PhiX
19、文庫(kù),這些都是堿基平衡 文庫(kù)。它的作用,是在每個(gè)循環(huán)當(dāng)中,為每一種顏色的照片,都提供足夠多的亮點(diǎn)。這 樣,它可以彌補(bǔ)那些不平衡的文庫(kù)當(dāng)中缺亮點(diǎn)的問題。BCL 文件當(dāng)把 4 種顏色的光點(diǎn)組成一個(gè)文件之后,軟件就會(huì)生成一個(gè)“ .BCL”文件“.BCL”文件就是光點(diǎn)文件,它對(duì)每個(gè)光點(diǎn),記錄了以下的內(nèi)容。首先一個(gè)光點(diǎn)處在哪個(gè) Lane 里面。其次,這個(gè)光點(diǎn)在這個(gè) Lane 的哪個(gè) Tile 里 面。第 3,就是這個(gè)亮點(diǎn)在這個(gè) Tile 的 X 軸和 Y 軸的座標(biāo)位置。第 4 ,是記錄了 這個(gè)光點(diǎn)當(dāng)中“紅、黃、藍(lán)、綠”四種光的對(duì)應(yīng)的光強(qiáng)。這個(gè)圖是 BCL 文件的 一個(gè)示意圖。實(shí)際上, BCL 文件是二進(jìn)
20、制文件,無法拿來直接閱讀。也正是因?yàn)?BCL 文件難于閱讀,并且很難改動(dòng),所以, BCL 文件幾乎不存在做假的可能。 在測(cè)序過程當(dāng)中, 有許多客戶會(huì)要求測(cè)序公司提供原始的測(cè)序數(shù)據(jù), 如果客戶是 包 Lane 、或者包 Flowcell 的,一般測(cè)序公司是可以提供 BCL 文件的。客戶在拿到 BCL文件之后,可以用“ BCL2FASTQ ”這個(gè)軟件,把 BCL 文件轉(zhuǎn) 化成 FASTQ 序列語文件。以此,客戶可以來驗(yàn)證,測(cè)序公司提供的數(shù)據(jù)是否是 原始的,是否是真實(shí)的。再說一下最初生成的那個(gè) tiff 文件。 tiff 文件實(shí)在太大了,所以,測(cè)序儀在測(cè)序 過程中,只把 tiff 文件作為中間文件。
21、最后是把這個(gè) tiff 文件刪掉的。如果客戶想要原始的圖像文件, 在 HiSeq V4 之前,可以讓測(cè)序公司保留 “.CIF” 文件。 CIF 文件是一種彩色圖案的向量文件,它的優(yōu)點(diǎn)是比 tiff 文件的數(shù)據(jù)量小 很多。測(cè)序公司把 CIF 文件給客戶之后,客戶就可以看到原始的圖像文件了 但是,請(qǐng)注意:在 HiSeq 升級(jí)到 V4 之后,保留 CIF 文件的這個(gè)選項(xiàng)是被取消掉了。所以,對(duì)于要測(cè) V4 Lane 的客戶來說,是拿不到 CIF 文件了。 堿基識(shí)別接下來,我們講一下堿基識(shí)別。我們之前講: 4 種 dNTP ,各標(biāo)一種熒光基團(tuán), 紅、黃、藍(lán)、綠,四種顏色,根據(jù)顏色來判斷堿基種類。這個(gè)實(shí)際
22、上是一種簡(jiǎn)化 了的說法。實(shí)際情況,要比這個(gè)復(fù)雜得多。來看這個(gè)圖, 這是 2 種熒素的熒光的 波長(zhǎng)圖。我們會(huì)發(fā)覺,這兩種熒光色,它發(fā)出來的發(fā)射光,它在波長(zhǎng)上是有交疊的。在 X 的這個(gè)位置,主要是綠色熒光素的貢獻(xiàn),但是藍(lán)色熒光素,也有少許貢獻(xiàn)。而在 Y這個(gè)波長(zhǎng)位置,藍(lán)色熒光素是做了主要貢獻(xiàn), 但是綠色熒光素, 也有少量 供獻(xiàn)。在實(shí)際測(cè)序過程中,是 4 種熒光素發(fā)出的亮,相互有交疊,相互之間的交 系,變得更加復(fù)雜。那么,現(xiàn)在我們要做的事情,是把 A、C、G、 T, 4 種熒光 素的貢獻(xiàn)給拆開。首先,我們就要確定 4種熒光素在 4 個(gè)被測(cè)波長(zhǎng)處的貢獻(xiàn)率。我們可以看一下,這個(gè)表,就是4種熒光素,在4 個(gè)
23、波長(zhǎng)分別有不同的貢獻(xiàn)率。 這樣就組成一個(gè) 4X4 的貢獻(xiàn)率表格。我們?cè)趯?shí)際的分析當(dāng)中,等于解一個(gè) 4 元 1 次、4 聯(lián)方程。因?yàn)槭?4 個(gè)未知數(shù),又是 4 個(gè)方程,所以肯定是可以解出來的。說解方程,有點(diǎn)復(fù)雜。那么我們來打一個(gè)比方。讓大家來理解這個(gè)事情。假設(shè)有一家飯店,它有 4 個(gè)熟客:甲、乙、丙、丁。它日常又提供 4 道菜:豬 肉、白菜、黃瓜、花生。大廚知道:甲最愛吃豬肉、乙最愛吃白菜、丙最愛吃黃 瓜、丁最愛吃花生,每個(gè)人來了飯店之后,主要吃自己最愛吃的,也會(huì)吃些別的 菜,但別的菜都吃得不是太多。那么這個(gè)大廚不到前臺(tái), 看不到今天來的客人。 如果, 這個(gè)大廚想要知道今天來 的客人是誰, 他有
24、什么辦法呢?看今天哪個(gè)菜被吃掉得最多。 如果今天的菜被吃 掉的最多的是豬肉, 那他可以大致地判斷, 今天是甲來過了; 如果他看到今天被 吃掉的菜,最多的是白菜,很可能是乙來過了;那么其它的,道理也是一樣的。 希望這個(gè)例子可以幫大家來理解一下,這 4 個(gè)熒光和 4 種堿基的判讀的關(guān)系。Phasing 和 Prephasing接下來,我們?cè)僦v一下, Phasing 和 Prephasing 。在 Illumina 的測(cè)序過程當(dāng)中,一個(gè)簇,大概有 5 千個(gè)到 1 萬個(gè)分子。但是在邊 合成、邊測(cè)序的過程當(dāng)中,每一步酶反應(yīng),理想情況下, 應(yīng)該這 5 千個(gè)分子都延 長(zhǎng) 1 個(gè)堿基。但實(shí)際情況, 總有少量分
25、子沒有完成延長(zhǎng)反應(yīng)。 也就是說, 總有少量的分子會(huì)掉 隊(duì),我們稱這種掉隊(duì)的現(xiàn)象叫“ phasing ”。 Phasing 主要是由于酶活性不足, 所引起的。如圖所示, 掉隊(duì)的這個(gè)分子, 它所發(fā)出的熒光信號(hào), 和大部隊(duì)所發(fā)出的熒光信號(hào) 是不一樣的。這個(gè)循環(huán)的次數(shù)越多,掉隊(duì)的分子就越多。所以,測(cè)序越到后面, 它 Phasing 的分子數(shù)就越多。最后,信號(hào)的可靠性就越差。除了掉隊(duì)的分子,還會(huì)有一部分分子,會(huì)跑得超前,也就是在一個(gè)循環(huán)中,它延 長(zhǎng)了 2 個(gè)堿基。在一個(gè)循環(huán)中延長(zhǎng)了 2 個(gè)堿基的最主要的原因,是 dNTP 上標(biāo) 記的那個(gè)疊氮基團(tuán) (N3)掉了。我們知道,疊氮基團(tuán)是非常容易從有機(jī)化合物上掉
26、落的。當(dāng)疊氮基團(tuán)掉落之后, dNTP 的 3端的羥基就暴露出來了。當(dāng)丟失了疊氮基團(tuán)的 dNTP 加到(合成鏈 的) 3端之后,它的聚合反應(yīng)不會(huì)終止,而是會(huì)繼續(xù)往前走。當(dāng)再加上了一個(gè) 帶疊氮基團(tuán)的 dNTP 之后,這個(gè)聚合反應(yīng)才停下來。這樣的后果,就是一個(gè)循環(huán),某些分子,會(huì)合成了 2 個(gè)堿基。也就是說比大部隊(duì) 多走了一步。 那么這個(gè)多走了一步的堿基, 它所發(fā)出來的熒光顏色, 也是和大部 隊(duì)不一樣的。在 Illumina 測(cè)序過程當(dāng)中, Phasing 和 Prephasing 是限制測(cè)長(zhǎng)的最主要原因。 也就是說,隨著循環(huán)不斷進(jìn)行,越來越多的分子掉隊(duì), 還有越來越多的分子超前。 然后,它們所產(chǎn)生的
27、噪音, 掩蓋了大部隊(duì)的信號(hào)的時(shí)侯, 也就是測(cè)序開始測(cè)不準(zhǔn) 的時(shí)侯。在 HiSeq 測(cè)序當(dāng)中,從第 12 個(gè)循環(huán)開始,在計(jì)算某個(gè)光點(diǎn)是哪種堿基的時(shí)侯,就要把 Phasing 和 Prephasing 的影響,納入考慮。Chastity 和 Pass filter為了對(duì)光點(diǎn)當(dāng)中熒光素的純粹程度進(jìn)行描述, Illumina 公司定義了個(gè)標(biāo)準(zhǔn),叫“ chastity ”, Chastity 的定義,就是濃度最高的那個(gè)熒光素的量,去除以“它自己 + 排名第二的熒光素的量的和”。大于 0.6 是一個(gè)好堿基。用更加通俗的話來說, 也就是“老大”比“老二”,如果大于、 等于“1.5倍”, 這就是個(gè)“好”堿基。
28、如果“老大”比“老二”不足“ 1.5 倍”,這就是個(gè)“壞 堿基”。Illumina 對(duì)每個(gè) read 的質(zhì)量都要做一個(gè)檢驗(yàn),這個(gè)檢驗(yàn)就叫“ pass filter ”檢 驗(yàn)。檢驗(yàn)的標(biāo)準(zhǔn),是看前 25 個(gè)堿基當(dāng)中,有幾個(gè)是“壞堿基” 。如果只有一個(gè)、 或者沒有壞堿基,則 Pass filter 就通過;如果有超過一個(gè)以上的壞堿基, Pass filter 就不能通過。那我們平時(shí)說,測(cè)序服務(wù)保證多少“ PF data ”,指的就是 Pass Filter(PF) 的數(shù) 據(jù)。Pass Filter 最主要的作用,就是把那些一個(gè)光點(diǎn)當(dāng)中,含了幾個(gè) cluster 的那些 點(diǎn),給去掉。只剩下那些純粹的單
29、克隆的 read ,作為合格的數(shù)據(jù), 提交給客戶。 我們平時(shí)說“PF率”,指的就是 Pass Filter 的 Reads 數(shù),占總的、測(cè)到的 Reads 數(shù)的比例。PF 率可以從一個(gè)側(cè)面反映測(cè)序的質(zhì)量。一般來說,如果上樣密度過高, PF 率就 可能會(huì)下降。Quality Score ,Q 值一個(gè)堿基的 Quality Score ,也就是這個(gè)堿基的質(zhì)量分?jǐn)?shù)( Q 值)。這個(gè)是通過 這個(gè)堿基被誤判的可能性,換算出以 10 為底的對(duì)數(shù),再乘以“ -10 ”得到的這 樣一個(gè)數(shù)字。這個(gè) Q 值,有點(diǎn)象我們說黃金的純度,我們說“三九金”,或者說“四九金”, 就是指 99.9%的純度的金子,或者是 99
30、.99% 的純度的金子。我們平時(shí)說 Q30 ,就是指一個(gè)堿基的可靠性達(dá)到 99.9% 。或者說,它的出錯(cuò)的 可能性小于千分之一。同樣道理,我們說 Q40 ,就是指一個(gè)堿基的可靠性是 99.99% 。或者說,它的出 錯(cuò)的可能性是萬分之一。那么,我們經(jīng)常說 Q30 比例,所謂的“Q30 比例”,就是在全部 PF 數(shù)據(jù)當(dāng)中, 達(dá)到、或者超過 Q30 質(zhì)量標(biāo)準(zhǔn)以上的數(shù)據(jù),占所有 PF 數(shù)據(jù)的比例,叫 Q30 比 例。Q30 比例,可以表征一個(gè)測(cè)序過程的質(zhì)量的好壞。一個(gè)堿基的質(zhì)量分?jǐn)?shù),不是 以數(shù)字方式,直接記錄到最后的 Fastq 文件的。而是把它的 Q 值,加上 33 ,再 用 ASCII 碼表轉(zhuǎn)換成
31、一個(gè)字母,把這個(gè)字母錄入 Fastq 文件。這樣做,有 2 個(gè)好處。如果我記 2 位數(shù)字,那么就占 2 個(gè)字節(jié),現(xiàn)在用一個(gè)字 母來記錄,只占一個(gè)字節(jié)。那(數(shù)據(jù)存儲(chǔ))空間就節(jié)省了很多。第二個(gè)好處,用 ASCII 碼字母表,一個(gè)堿基,只對(duì)應(yīng)一個(gè)字母;如果是用 2 位 數(shù)字來記錄,就有可能發(fā)生移碼錯(cuò)誤。而用 ASCII 碼,一個(gè)字母來記錄,就不太 容易發(fā)生移碼錯(cuò)誤。Fastq 文件在軟件做完上述所有的數(shù)據(jù)處理之后,就會(huì)生成一個(gè) Fastq 文件。Fastq 文件里,主要包含了 3 部分內(nèi)容。第一個(gè)部分,是每個(gè) Read 的目錄信息。也就是這個(gè) Read 來自于哪臺(tái) HiSeq 、 第幾個(gè) run 、
32、第幾個(gè) Lane 、和第幾個(gè) Tile ,以及在這個(gè) Tile 的 X、Y 的什么位 置。接下來,就是所測(cè)到的堿基的序列。 最后,是這些堿基序列對(duì)應(yīng)的質(zhì)量分?jǐn)?shù)信息。這個(gè),就是 Fastq 文件。到 Fastq 文件之后,測(cè)序儀所要完成的工作,就完全完成了。Pacbio 是目前讀長(zhǎng)最長(zhǎng)的測(cè)序技術(shù)公司。它的讀長(zhǎng),最長(zhǎng)可以達(dá)到 2 萬到 3 萬 個(gè)堿基,平均可以達(dá)到 8 千多個(gè)堿基。相比于 llumina 和 Ion Torrent 的幾百 個(gè)堿基的讀長(zhǎng)來說,有著明顯的優(yōu)勢(shì)。PacBio 測(cè)序過程PacBio 的測(cè)序原理,和別的高通量測(cè)序的原理,基本上也是一樣的。也是邊合 成,邊測(cè)序。首先,這個(gè)聚合
33、酶是固定在測(cè)序小孔的玻璃底板上。 這個(gè)聚合酶又和 DNA 模板、 測(cè)序引物是結(jié)合在一起的。然后加入帶 4 色熒光的 dNTP 底物,這些 dNTP 都在其磷酸基團(tuán)上被標(biāo)上了熒 光基團(tuán),四種堿基、各標(biāo)一種顏色。當(dāng)一種與聚合酶正要合成的堿基一致的 dNTP 被酶抓住的時(shí)候,酶就會(huì)長(zhǎng)時(shí)間 地抓住這個(gè) dNTP, 不讓這個(gè) dNTP 漂走。 這時(shí)侯,激發(fā)光從小孔的底部照進(jìn)來,打在這個(gè)被抓住的 dNTP 上,就會(huì)在較 長(zhǎng)時(shí)間內(nèi)發(fā)出熒光。 儀器根據(jù)所拍到的熒光的顏色, 就可以來判斷, 這個(gè)堿基是 哪種堿基。一個(gè)循環(huán)的聚合反應(yīng)發(fā)生完畢之后,焦磷酸基團(tuán)就從原來的 dNTP 上掉下來, 因?yàn)闊晒饣鶊F(tuán)是連到這個(gè)焦
34、磷酸上的, 所以這個(gè)熒光基團(tuán)也就一起掉下來了, 在 溶液中就會(huì)漂走。接下來,進(jìn)行第二、第三個(gè)循環(huán),一直進(jìn)行下去。 一張芯片上有幾萬個(gè)孔, 同時(shí)進(jìn)行測(cè)序,這樣一次就可以得到幾億個(gè)堿基的序列。 接下來,分幾個(gè)要點(diǎn),來說明這個(gè)測(cè)序的過程。化學(xué)方法的標(biāo)記和 Illumina 的標(biāo)記有所不同, PacBio 的熒光基團(tuán)直接是標(biāo)在 dNTP 的 3端的磷酸基團(tuán)的末端的。這樣標(biāo)記的好處是:當(dāng)一個(gè)聚合反應(yīng)的循環(huán)完成的時(shí)侯, dNTP 上的那兩個(gè)磷酸基團(tuán)就掉下,連在這個(gè)磷酸基團(tuán)上的熒光基團(tuán)也隨一塊兒掉下來。 它掉下來之后, 就在溶液中漂走,不會(huì)影響接下來的測(cè)序過程了。測(cè)序微孔 然后,我們說一下這個(gè)測(cè)序小孔的設(shè)計(jì)
35、。這個(gè)測(cè)序小孔叫 Zero Model Waveguide ,簡(jiǎn)稱 ZMW 。小孔的直徑很小,光只能在小孔中傳輸很短的距離。這個(gè)特點(diǎn)對(duì) PacBio 的測(cè)序 很重要。因?yàn)槊甘潜还潭ㄔ诓AУ装迳系模裕挥谢パa(bǔ)的 dNTP 被酶抓到 的時(shí)侯,這個(gè) dNTP 才會(huì)較長(zhǎng)時(shí)間地停留在離玻璃底板很近的位置。也只有這 樣,才會(huì)被激發(fā)光照到,并且發(fā)出它的熒光。PacBio 的光學(xué)設(shè)計(jì)中,入射光是幾百納米波長(zhǎng)的可見光 ,光從小孔的底部的玻璃 處照到小孔中來。這個(gè),只有 70 納米。其它游離的 dNTP ,只會(huì)非常短暫地進(jìn)入小孔,又很快漂走。所以,這些游離 dNTP 帶來的的噪音(信號(hào)),就被抑制在很低的水平
36、。啞鈴狀的文庫(kù)接下來,我們說一下 PacBio 的建庫(kù)。 PacBio 的建庫(kù)是比較特別的。它的庫(kù)是 在 DNA 片段的兩段各接一下發(fā)夾型的接頭。接好了發(fā)夾形的接頭之后,形成的 文庫(kù)是一個(gè)啞鈴形的文庫(kù)。這種啞鈴形狀的文庫(kù)有個(gè)好處, 那它整個(gè)分子實(shí)際上是一個(gè)圓環(huán)。 在測(cè)序的過程中它可以周而復(fù)始地進(jìn)行測(cè)序,這對(duì)于發(fā)揮 PacBio 的長(zhǎng)讀長(zhǎng)的優(yōu)勢(shì)是很有益處長(zhǎng)讀長(zhǎng)的根本原因單分子測(cè)序接下來,我們說一下 PacBio 它測(cè)序長(zhǎng)度優(yōu)勢(shì)的來源。這個(gè)來源,是因?yàn)樗鼫y(cè)的 是個(gè)單個(gè)分子 相比之下, Illumina 或者 Ion Torrent 測(cè)的都是一簇分子。 或者說它們測(cè)的都是 一大堆分子。當(dāng)它測(cè)一大堆分
37、子的時(shí)侯,每個(gè)循環(huán),多多少少,總有一些分子落 后;也多多少少,有些分子超前。這些落后、或者超前的分子,在每個(gè)循環(huán)里面就會(huì)給出噪音。而且,隨著循環(huán)次 數(shù)越來越多,落后、和超前的分子也會(huì)越來越多,達(dá)到一定程度的時(shí)侯,噪音就 會(huì)很大,大到會(huì)掩蓋掉信號(hào)。當(dāng)噪音大到掩蓋掉信號(hào)的時(shí)侯,實(shí)際上測(cè)序就測(cè)不準(zhǔn)了。相比之下, PacBio 它只有一個(gè)分子,所以,它不存在同步問題。 這就讓它可以測(cè)到幾千、基至上萬個(gè) BP 都可以達(dá)成。堿基判讀準(zhǔn)確率: 87.5%接下來,我們要說一下 PacBio 測(cè)序的缺點(diǎn)。 最大的缺點(diǎn)是對(duì)堿基的判讀不準(zhǔn)。它的錯(cuò)誤率是 12.5% 。也就是說,它每讀 8 個(gè)堿基,就有一個(gè)是讀錯(cuò)的。
38、那么它主要的錯(cuò)誤類型是 插入 。也就是說,它會(huì)多讀一個(gè)堿基。好在,它的這種錯(cuò)誤是隨機(jī)的。也就是說,你在這個(gè)地方再讀一遍,它不一定會(huì) 發(fā)生同樣的錯(cuò)誤。那么,對(duì)于同一個(gè)序列,多測(cè)幾遍之后,這些偶然誤差,可以 被校正過來。讀長(zhǎng)限制因素 接下來,我們說一下限制 PacBio 讀長(zhǎng)的因素。 第一個(gè)因素,就是 DNA 鏈上出現(xiàn)了缺口。測(cè)序過程中是用激光照射來發(fā)出熒光 的,所以當(dāng)強(qiáng)光長(zhǎng)時(shí)間照射 DNA 鏈的時(shí)侯, DNA 鏈就有可能被照斷掉,出現(xiàn) 缺口。 當(dāng)酶讀到這個(gè)缺口的時(shí)侯,酶就從模板鏈上掉下來。這時(shí)侯,測(cè)序就終止了。這 是第一種可能。 第二種可能,是光線照射情況下,酶有可能會(huì)變性,當(dāng)酶發(fā)生了變性之后,失去 了聚合酶的功能,這時(shí)侯,測(cè)序也會(huì)終止。 第三個(gè)限制因素,是文庫(kù)本身的長(zhǎng)度。 因?yàn)橐銎伍L(zhǎng)度大于 2030K 的文庫(kù), 是有相當(dāng)大的困難的, 所以,文庫(kù)本身的質(zhì)量, 在一定程度上, 也限制了 PacBio 的讀長(zhǎng)。 數(shù)據(jù)通量 在高通量測(cè)序當(dāng)中,測(cè)序的通量,是一個(gè)很重要的技術(shù)指標(biāo)。那 PacBio 大根一 張芯片一次可以測(cè)到 0.30.4G 的數(shù)據(jù)。在 PacBio 測(cè)序中,芯片上的小孔數(shù)是 第一個(gè)絕對(duì)的、限制性的因素。目前的芯片,是有 15 萬個(gè)小孔。但這 15 萬個(gè)小孔中,并不是每一個(gè)都能產(chǎn)生有效數(shù)據(jù)的。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 精通營(yíng)養(yǎng)師考試的關(guān)鍵試題及答案
- 2012年1月國(guó)家開放大學(xué)漢語言文學(xué)本科《心理學(xué)》期末紙質(zhì)考試試題及答案
- 縣城任教招考題及答案大全
- 物理中考題及答案江蘇
- 吉林省延邊州安圖縣聯(lián)考2023-2024學(xué)年中考數(shù)學(xué)押題試卷含解析
- 融資面試試題及答案
- 江蘇旅游職業(yè)學(xué)院《城鄉(xiāng)社會(huì)綜合調(diào)查與研究》2023-2024學(xué)年第二學(xué)期期末試卷
- 伊通滿族自治縣2024-2025學(xué)年三下數(shù)學(xué)期末考試模擬試題含解析
- 四川省廣元天立國(guó)際學(xué)校2024-2025學(xué)年高三下學(xué)期第一次月考文綜試卷含解析
- 蘇州百年職業(yè)學(xué)院《醫(yī)學(xué)細(xì)胞及分子生物學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 停運(yùn)損失費(fèi)賠償協(xié)議書模板
- 2024年工作目標(biāo)和計(jì)劃新年工作計(jì)劃目標(biāo)
- 昌江縣燕窩嶺水泥用石灰?guī)r礦礦產(chǎn)資源開發(fā)利用與保護(hù)方案
- 2024年《認(rèn)證基礎(chǔ)》真題及答案
- 數(shù)字營(yíng)銷對(duì)消費(fèi)者購(gòu)買決策的影響-洞察分析
- 網(wǎng)絡(luò)評(píng)論的意識(shí)形態(tài)邊界及治理
- ZHF形勢(shì)與政策(2024年秋)-考試題庫(kù)
- TCUWA50054-2023鋼結(jié)構(gòu)裝配式污水處理設(shè)施技術(shù)規(guī)程
- 淤地壩應(yīng)急處置
- 鸚鵡介紹課件教學(xué)課件
- 汽車檢測(cè)技術(shù)課件 任務(wù)一 認(rèn)識(shí)汽車檢測(cè)站
評(píng)論
0/150
提交評(píng)論