




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
同濟大學(xué)李亦學(xué)王海蕓第七章基因芯片數(shù)據(jù)分析MicroarrayDataAnalysis第一節(jié)引言Introduction基因芯片(DNA微陣列)是上世紀九十年代,隨著計算機技術(shù)和基因組測序技術(shù)的發(fā)展而發(fā)展起來的一種新型的生物技術(shù),它能夠平行、高通量地監(jiān)測成千上萬基因轉(zhuǎn)錄本的表達水平,從而為系統(tǒng)地監(jiān)測細胞內(nèi)mRNA分子的表達狀態(tài)進而推測細胞的功能狀態(tài)提供了可能。第二節(jié)芯片平臺及數(shù)據(jù)庫GeneralMicroarrayPlatformandDatabase一、cDNA微陣列芯片寡核苷酸芯片類似于cDNA芯片,但是在探針的設(shè)計上優(yōu)于cDNA芯片,它的探針并不是來源于cDNA克隆,而是預(yù)先設(shè)計并合成的代表每個基因特異片段的約50mer左右長度的序列,然后將其點樣到特定的基質(zhì)上制備成芯片,從而克服了探針序列太長導(dǎo)致的非特異性交叉雜交和由于探針雜交條件變化巨大導(dǎo)致的數(shù)據(jù)結(jié)果的不可靠。二、寡核苷酸芯片
三、原位合成芯片
四、光纖微珠芯片(BeadArray)五、基因表達倉庫
GeneExpressionOmnibus,GEO六、斯坦福微陣列數(shù)據(jù)庫
TheStanfordMicroarray
Database,SMD七、其他常用基因表達數(shù)據(jù)庫
ArrayExpress、CGED第三節(jié)基因芯片數(shù)據(jù)預(yù)處理
GeneralMicroarrayDataTypeandDatabase一、基因芯片數(shù)據(jù)提取(一)
cDNA微陣列芯片(二)
原位合成芯片定性信息提取:P/A/M(Present/Absent/Marginal)定量信息提取:基于探針集匯總后的基因水平的熒光信號強度值二、對數(shù)轉(zhuǎn)換對芯片數(shù)據(jù)做對數(shù)化轉(zhuǎn)換后,數(shù)據(jù)可近似正態(tài)分布三、數(shù)據(jù)過濾
數(shù)據(jù)過濾的目的是去除表達水平是負值或很小的數(shù)據(jù)或者明顯的噪聲數(shù)據(jù)。過閃耀現(xiàn)象物理因素導(dǎo)致的信號污染雜交效能低點樣問題其他四、補缺失值(一)數(shù)據(jù)缺失類型非隨機缺失基因表達豐度過高或過低隨機缺失與基因表達豐度無關(guān),數(shù)據(jù)補缺主要針對隨機缺失情況(二)數(shù)據(jù)補缺方法1.簡單補缺法missingvalues=0expressionmissingvalues=1expression(arbitrarysignal)missingvalues=row(gene)averagemissingvalues=column(array)average2.k近鄰法選擇與具有缺失值基因的k個鄰居基因用鄰居基因的加權(quán)平均估計缺失值參數(shù):鄰居個數(shù)距離函數(shù)3.回歸法4.其他方法五、數(shù)據(jù)標準化(一)為什么要進行數(shù)據(jù)標準化存在不同來源的系統(tǒng)誤差染料物理特性差異(熱光敏感性,半衰期等)染料的結(jié)合效率點樣針差異數(shù)據(jù)收集過程中的掃描設(shè)施不同芯片間的差異實驗條件差異(二)運用哪些基因進行標準化處理芯片上大部分基因(假設(shè)芯片上大部分基因在不同條件下表達量相同)不同條件間穩(wěn)定表達的基因(如持家基因)控制序列(spikedcontrol)
在不同條件下表達水平相同的合成DNA序列或外源的DNA序列。1.片內(nèi)標化(within-slidenormalization)
(1)全局標化(globalnormalization)(三)cDNA芯片數(shù)據(jù)標準化處理假設(shè):R=k*G方法:c=log2k:中值或均值
(2)熒光強度依賴的標化(intensitydependentnormalization)為什么方法:scatter-plotsmootherlowess擬合
c(A)為M
對A的擬合函數(shù)標化后的數(shù)據(jù)
(3)點樣針依賴的標化(within-print-tip-groupnormalization)
為什么一張芯片的不同區(qū)域運用不同的點樣針點樣,從而引入點樣針帶來的系統(tǒng)誤差。method(4)尺度調(diào)整(scaleadjustment)為什么調(diào)整不同柵格(grids)間的數(shù)據(jù)離散度方法:計算不同柵格的尺度因子
2.片間標化(multiple-slidenormalization)線性標化法(linearscalingmethods)
與芯片內(nèi)標化的尺度調(diào)整(scaleadjustment)方法類似非線性標化法(non-linearmethods)分位數(shù)標化法(quantilenormalization)
兩張芯片的表達數(shù)據(jù)的分位數(shù)標化至相同,即分布于對角線上3.染色互換實驗(dye-swapexperiment)
的標化
實驗組對照組芯片1cy5(R)cy3(G’)
芯片2cy3(G)cy5(R’)前提假設(shè):c︽c’方法:
1.提取定性信號(1)對每個探針對計算R
R=(PM
–
MM)/(PM+MM)(2)比較R與定義的閾值Tau(小的正值,默認值為0.015).(3)單側(cè)的Wilcoxon’sSignedRanktest產(chǎn)生p值,根據(jù)p值定義定量信號值
PresentcallMarginalcallAbsentcall(四)芯片數(shù)據(jù)標準化2.提取定量信號(1)分析步驟獲取探針水平數(shù)據(jù)背景值效正標準化處理探針特異背景值效正探針集信號的匯總
(2)分析方法M=log2R-log2GA=(log2R+log2G)/2
前面提及的標準化方法僅效正了數(shù)據(jù)分布的中心,在不同的柵格間log-Ratios的方差也不同。第四節(jié)差異表達分析
AnalysisofDifferentiallyExpressionGene一、倍數(shù)法實驗條件下的表達值對照條件下的表達值通常以2倍差異為閾值,判斷基因是否差異表達二、t檢驗法
運用t檢驗法可以判斷基因在兩不同條件下的表達差異是否具有顯著性三、方差分析
方差分析可用于基因在兩種或多種條件間的表達量的比較,它將基因在樣本之間的總變異分解為組間變異和組內(nèi)變異兩部分。通過方差分析的假設(shè)檢驗判斷組間變異是否存在,如果存在則表明基因在不同條件下的表達有差異。四、SAM
(significanceanalysisofmicroarrays)(一)多重假設(shè)檢驗問題Ⅰ型錯誤(假陽性)即在假設(shè)檢驗作推斷結(jié)論時,拒絕了實際上正確的檢驗假設(shè),即將無差異表達的基因判斷為差異表達。Ⅱ型錯誤(假陰性)即不拒絕實際上不正確的,即將有差異表達的基因判斷為無差異表達。在進行差異基因挑選時,整個差異基因篩選過程需要做成千上萬次假設(shè)檢驗,導(dǎo)致假陽性率的累積增大。對于這種多重假設(shè)檢驗帶來的放大的假陽性率,需要進行糾正。常用的糾正策略有Bonferroni效正,控制FDR(falsediscoveryrate)值等。(二)分析步驟計算統(tǒng)計量擾動實驗條件,計算擾動后的基因表達的相對差異統(tǒng)計量計算擾動后的平均相對差異統(tǒng)計量確定差異表達基因閾值:以最小的正值和最大的負值作為統(tǒng)計閾值,運用該閾值,統(tǒng)計在值中超過該閾值的假陽性基因個數(shù),估計假陽性發(fā)現(xiàn)率FDR值。通過調(diào)整FDR值的大小得到差異表達基因。五、信息熵
運用信息熵進行差異基因挑選時,不需要用到樣本的類別信息,所以運用信息熵找到的差異基因是指在所有條件下表達波動比較大的基因。
第五節(jié)基因芯片數(shù)據(jù)的聚類分析
ClusterAnalysisofMicroarrayData
一、聚類目的基于物體的相似性將物體分成不同的組二、基因表達譜數(shù)據(jù)的聚類對基因進行聚類
識別功能相關(guān)的基因識別基因共表達模式對樣本進行聚類
質(zhì)量控制檢查樣本是否按已知類別分組發(fā)現(xiàn)亞型
樣本基因基因表達譜三、距離尺度函數(shù)幾何距離線性相關(guān)系數(shù)非線性相關(guān)系數(shù)互信息其他
四、聚類算法
(一)層次聚類層次聚類算法將研究對象按照它們的相似性關(guān)系用樹形圖進行呈現(xiàn),進行層次聚類時不需要預(yù)先設(shè)定類別個數(shù),樹狀的聚類結(jié)構(gòu)可以展示嵌套式的類別關(guān)系。在對含非單獨對象的類進行合并或分裂時,常用的類間度量方法2000年Alizadeh等運用基因芯片數(shù)據(jù),基于層次聚類算法證實了DLBCL腫瘤病人在mRNA層面確實存在兩種亞型(二)k均值聚類基本思想(三)自組織映射聚類基本思想:在不斷的學(xué)習(xí)過程中,輸出層的神經(jīng)元根據(jù)輸入樣本的特點進行權(quán)重調(diào)整,最后拓樸結(jié)構(gòu)發(fā)生了改變(四)雙向聚類雙向聚類就是識別基因表達譜矩陣中同質(zhì)的子矩陣,運用特定的基因子類識別樣本子類。第六節(jié)基因芯片數(shù)據(jù)的
分類分析
ClassificationofMicroarrayData一、線性判別分類器二、k近鄰分類法
基本思想三、PAM分類法
PredictionAnalysisforMicroarray基因1基因2
基本思想每類樣本的質(zhì)心向所有樣本的質(zhì)心進行收縮,即收縮每個基因的類均值,收縮的數(shù)量由值決定。當(dāng)收縮過程發(fā)生時,某些基因在不同類中將會有相同的類均值,這些基因就不具有類間的區(qū)別效能。計算統(tǒng)計量對公式經(jīng)過變換得到收縮各類的均值分析步驟判斷新樣本類別
當(dāng)四、決策樹(一)基本思想決策樹又稱為多級分類器,利用決策樹分類可以把一個復(fù)雜的多類別分類問題轉(zhuǎn)化為若干個簡單的分類問題來解決決策樹的結(jié)構(gòu):一個樹性的結(jié)構(gòu),內(nèi)部節(jié)點上選用一個屬性進行分割,每個分叉都是分割的一個部分,葉子節(jié)點表示一個分布(二)分析步驟:提取分類規(guī)則,進行分類預(yù)測在構(gòu)造決策樹的過程中最重要的一點是在每一個分割節(jié)點確定用哪個屬性來分類(或分裂)這就涉及到關(guān)于使用什么準則來衡量使用A屬性比使用B屬性更合理決策樹分類算法output訓(xùn)練集決策樹input(三)衡量準則信息增益——informationgain基尼指數(shù)——Giniindex(四)決策樹的修剪消除決策樹的過適應(yīng)問題消除訓(xùn)練集中的異常和噪聲所涉及的方法很多,比如先剪枝算法(print)與后剪枝(sprint算法)等等五、分類效能評價(一)構(gòu)建訓(xùn)練集和檢驗集n倍交叉驗證(n-foldcrossvalidation)Bagging(bootstrapaggregation)無放回隨機抽樣留一法交叉驗證(leave-one-outcrossvalidation,LOOCV)(二)分類效能靈敏度(sensitivity,recall)特異性(specificity)陽性預(yù)測率(positivepredictivevalue,precision)陰性預(yù)測率(negativepredictivevalue)均衡正確率(balancedaccuracy)正確率(correctoraccuracy)第七節(jié)基因芯片數(shù)據(jù)的其他分析
ComplementaryAnalysisofMicroarrayData一、降維處理(主成分分析)新指標是原來基因的線性組合二、時間序列的表達譜分析(一)擴大的基因表達譜矩陣(二)時間點
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學(xué)二年級美術(shù)上冊教學(xué)總結(jié)模版
- 2025年婦幼年終工作總結(jié)模版
- 區(qū)塊鏈技術(shù)構(gòu)建透明化社會的關(guān)鍵
- 辦公自動化與醫(yī)療大數(shù)據(jù)的整合應(yīng)用
- 醫(yī)療AI技術(shù)在教育領(lǐng)域的道德考量
- 健康信息學(xué)中的醫(yī)療AI安全技術(shù)應(yīng)用
- 廠辦主任克盡職守工作總結(jié)模版
- 智慧城市背景下住宅地下車庫項目可行性分析
- 柴油降凝劑實驗項目總結(jié)模版
- 鄉(xiāng)村振興產(chǎn)業(yè)基地項目可行性分析報告
- 砼構(gòu)件預(yù)制件的模具設(shè)計與制造技術(shù)考核試卷
- 《跨行業(yè)并購問題研究的理論基礎(chǔ)與文獻綜述》6300字
- 2025中煤鄂爾多斯能源化工有限公司高校畢業(yè)生招聘98人筆試參考題庫附帶答案詳解
- 2025年保密觀考試題庫及答案
- 導(dǎo)游知識培訓(xùn)課件
- 西師大版小學(xué)五年級數(shù)學(xué)(下)期中測試題(1-4單元)(2)(含答案)
- 用戶思維在產(chǎn)品創(chuàng)新中的應(yīng)用案例
- 2025《四川省建設(shè)工程施工總包合同》示范文本
- 2025年遼寧省沈陽市和平區(qū)九年級中考零模數(shù)學(xué)試卷(原卷版+解析版)
- 【初中化學(xué)】常見的鹽-2024-2025學(xué)年九年級化學(xué)科粵版(2024)下冊
- 施工入場考試題及答案
評論
0/150
提交評論