




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第七章 基因芯片數據分析Microarray Data Analysis生物信息學基因芯片數據分析第1頁第一節 引言 Introduction 基因芯片(DNA微陣列)是上世紀九十年代,伴隨計算機技術和基因組測序技術發展而發展起來一個新型生物技術,它能夠平行、高通量地監測成千上萬基因轉錄本表示水平,從而為系統地監測細胞內mRNA分子表示狀態進而推測細胞功效狀態提供了可能。生物信息學基因芯片數據分析第2頁第二節 芯片平臺及數據庫 General Microarray Platform and Database 一、cDNA微陣列芯片生物信息學基因芯片數據分析第3頁 寡核苷酸芯片類似于cDNA芯片
2、,不過在探針設計上優于cDNA芯片,它探針并不是起源于cDNA克隆,而是預先設計并合成代表每個基因特異片段約50mer左右長度序列,然后將其點樣到特定基質上制備成芯片,從而克服了探針序列太長造成非特異性交叉雜交和因為探針雜交條件改變巨大造成數據結果不可靠。 二、寡核苷酸芯片 生物信息學基因芯片數據分析第4頁三、原位合成芯片 生物信息學基因芯片數據分析第5頁四、光纖微珠芯片(Bead Array)生物信息學基因芯片數據分析第6頁五、基因表示倉庫 Gene Expression Omnibus,GEO六、斯坦福微陣列數據庫 The Stanford Microarray Database,SMD
3、七、其它慣用基因表示數據庫 ArrayExpress、CGED生物信息學基因芯片數據分析第7頁第三節 基因芯片數據預處理General Microarray Data Type and Database 一、基因芯片數據提取(一) cDNA微陣列芯片生物信息學基因芯片數據分析第8頁(二) 原位合成芯片定性信息提取:P/A/M(Present/Absent/Marginal) 定量信息提取:基于探針集匯總后基因水平熒光信號強度值 生物信息學基因芯片數據分析第9頁二、對數轉換對芯片數據做對數化轉換后,數據可近似正態分布 生物信息學基因芯片數據分析第10頁三、數據過濾 數據過濾目標是去除表示水平是負
4、值或很小數據或者顯著噪聲數據。過閃耀現象 物理原因造成信號污染 雜交效能低點樣問題其它生物信息學基因芯片數據分析第11頁四、補缺失值(一)數據缺失類型非隨機缺失 基因表示豐度過高或過低隨機缺失 與基因表示豐度無關,數據 補缺主要針對隨機缺失情況生物信息學基因芯片數據分析第12頁(二)數據補缺方法1. 簡單補缺法missing values = 0 expressionmissing values = 1 expression (arbitrary signal)missing values = row (gene) averagemissing values = column (array)
5、average生物信息學基因芯片數據分析第13頁2. k近鄰法選擇與含有缺失值基因k個鄰居基因用鄰居基因加權平均預計缺失值參數:鄰居個數距離函數生物信息學基因芯片數據分析第14頁3. 回歸法4. 其它方法生物信息學基因芯片數據分析第15頁五、數據標準化(一)為何要進行數據標準化存在不一樣起源系統誤差染料物理特征差異(熱光敏感性,半衰期等)染料結合效率點樣針差異數據搜集過程中掃描設施不一樣芯片間差異試驗條件差異生物信息學基因芯片數據分析第16頁(二)利用哪些基因進行標準化處理芯片上大部分基因(假設芯片上大部分基因在不一樣條件下表示量相同) 不一樣條件間穩定表示基因(如持家基因)控制序列(spik
6、ed control) 在不一樣條件下表示水平相同合成DNA序列或外源DNA序列。生物信息學基因芯片數據分析第17頁1. 片內標化(within-slide normalization) (1) 全局標化(global normalization)(三) cDNA芯片數據標準化處理假設: R=k*G方法:c=log2k:中值或均值生物信息學基因芯片數據分析第18頁 (2) 熒光強度依賴標化(intensity dependent normalization)為何方法: scatter-plot smoother lowess擬合 c(A) 為M 對A 擬合函數標化后數據生物信息學基因芯片數據分
7、析第19頁 (3) 點樣針依賴標化(within-print-tip-group normalization) 為何 一張芯片不一樣區域利用不一樣點樣針點樣,從而引入點樣針帶來系統誤差。method生物信息學基因芯片數據分析第20頁(4) 尺度調整(scale adjustment)為何 調整不一樣柵格(grids)間數據離散度 方法:計算不一樣柵格尺度因子 生物信息學基因芯片數據分析第21頁2. 片間標化(multiple-slide normalization)線性標化法(linear scaling methods) 與芯片內標化尺度調整(scale adjustment) 方法類似非線
8、性標化法(non-linear methods)分位數標化法(quantile normalization) 兩張芯片表示數據分位數標化至相同,即分布于對角線上生物信息學基因芯片數據分析第22頁3. 染色交換試驗(dye-swap experiment ) 標化 試驗組 對照組 芯片1 cy5(R) cy3(G) 芯片2 cy3(G) cy5(R)前提假設:cc方法:生物信息學基因芯片數據分析第23頁 1. 提取定性信號(1)對每個探針對計算R R = (PM MM ) / (PM + MM )(2)比較R與定義閾值Tau(小正值,默認值為0.015 ).(3) 單側Wilcoxons Sig
9、ned Rank test產生p值,依據p值定義定量信號值 Present call Marginal call Absent call (四) 芯片數據標準化生物信息學基因芯片數據分析第24頁2. 提取定量信號(1)分析步驟獲取探針水平數據背景值效正標準化處理探針特異背景值效正探針集信號匯總生物信息學基因芯片數據分析第25頁(2)分析方法生物信息學基因芯片數據分析第26頁生物信息學基因芯片數據分析第27頁生物信息學基因芯片數據分析第28頁生物信息學基因芯片數據分析第29頁生物信息學基因芯片數據分析第30頁生物信息學基因芯片數據分析第31頁M = log2R - log2GA = (log2R
10、 + log2G)/2生物信息學基因芯片數據分析第32頁生物信息學基因芯片數據分析第33頁生物信息學基因芯片數據分析第34頁 前面提及標準化方法僅效正了數據分布中心,在不一樣柵格間log-Ratios 方差也不一樣。生物信息學基因芯片數據分析第35頁生物信息學基因芯片數據分析第36頁第四節 差異表示分析Analysis of Differentially Expression Gene 一、倍數法試驗條件下表示值對照條件下表示值通常以2倍差異為閾值,判斷基因是否差異表示生物信息學基因芯片數據分析第37頁二、t檢驗法 利用t檢驗法能夠判斷基因在兩不一樣條件下表示差異是否含有顯著性 生物信息學基因
11、芯片數據分析第38頁三、方差分析 方差分析可用于基因在兩種或各種條件間表示量比較,它將基因在樣本之間總變異分解為組間變異和組內變異兩部分。經過方差分析假設檢驗判斷組間變異是否存在,假如存在則表明基因在不一樣條件下表示有差異。生物信息學基因芯片數據分析第39頁四、SAM (significance analysis of microarrays)(一) 多重假設檢驗問題型錯誤(假陽性)即在假設檢驗作推斷結論時,拒絕了實際上正確檢驗假設,即將無差異表示基因判斷為差異表示。型錯誤(假陰性)即不拒絕實際上不正確,即將有差異表示基因判斷為無差異表示。在進行差異基因挑選時,整個差異基因篩選過程需要做成千上
12、萬次假設檢驗,造成假陽性率累積增大。對于這種多重假設檢驗帶來放大假陽性率,需要進行糾正。慣用糾正策略有Bonferroni效正,控制FDR(false discovery rate)值等。生物信息學基因芯片數據分析第40頁(二) 分析步驟計算統計量擾動試驗條件,計算擾動后基因表示相對差異統計量計算擾動后平均相對差異統計量生物信息學基因芯片數據分析第41頁確定差異表示基因閾值:以最小 正值和最大負值作為統計閾 值,利用該閾值,統計在值中超 過該閾值假陽性基因個數,估 計假陽性發覺率FDR值。經過調整FDR值大小得到差異 表示基因。生物信息學基因芯片數據分析第42頁五、信息熵 利用信息熵進行差異基
13、因挑選時,不需要用到樣本類別信息,所以利用信息熵找到差異基因是指在全部條件下表示波動比較大基因。 生物信息學基因芯片數據分析第43頁第五節 基因芯片數據聚類分析Cluster Analysis of Microarray Data 一、聚類目基于物體相同性將物體分成不一樣組生物信息學基因芯片數據分析第44頁二、基因表示譜數據聚類對基因進行聚類 識別功效相關基因 識別基因共表示模式對樣本進行聚類 質量控制 檢驗樣本是否按已知 類別分組發覺亞型 樣本基因基因表示譜生物信息學基因芯片數據分析第45頁三、距離尺度函數幾何距離線性相關系數非線性相關系數互信息其它 生物信息學基因芯片數據分析第46頁四、聚
14、類算法(一)層次聚類層次聚類算法將研究對象按照它們相同性關系用樹形圖進行展現,進行層次聚類時不需要預先設定類別個數,樹狀聚類結構能夠展示嵌套式類別關系。生物信息學基因芯片數據分析第47頁在對含非單獨對象類進行合并或分裂時,慣用類間度量方法生物信息學基因芯片數據分析第48頁Alizadeh等利用基因芯片數據,基于層次聚類算法證實了DLBCL腫瘤病人在mRNA層面確實存在兩種亞型生物信息學基因芯片數據分析第49頁(二)k均值聚類基本思想生物信息學基因芯片數據分析第50頁(三)自組織映射聚類基本思想:在不停學習過程中,輸出層神經元依據輸入樣本特點進行權重調整,最終拓樸結構發生了改變 生物信息學基因芯
15、片數據分析第51頁(四)雙向聚類雙向聚類就是識別基因表示譜矩陣中同質子矩陣,利用特定基因子類識別樣本子類。 生物信息學基因芯片數據分析第52頁第六節 基因芯片數據分類分析Classification of Microarray Data 一、線性判別分類器生物信息學基因芯片數據分析第53頁二、k 近鄰分類法 基本思想生物信息學基因芯片數據分析第54頁三、PAM分類法Prediction Analysis for Microarray基因1基因2 基本思想 每類樣本質心向全部樣本質心進行收縮,即收縮每個基因類均值,收縮數量由值決定。當收縮過程發生時,一些基因在不一樣類中將會有相同類均值,這些基因
16、就不含有類間區分效能。 生物信息學基因芯片數據分析第55頁計算統計量對公式經過變換得到 收縮各類均值分析步驟生物信息學基因芯片數據分析第56頁判斷新樣本類別 當生物信息學基因芯片數據分析第57頁四、決議樹(一)基本思想決議樹又稱為多級分類器,利用決議樹分類能夠把一個復雜多類別分類問題轉化為若干個簡單分類問題來處理決議樹結構:一個樹性結構,內部節點上選取一個屬性進行分割,每個分叉都是分割一個部分,葉子節點表示一個分布生物信息學基因芯片數據分析第58頁(二)分析步驟:提取分類規則,進行分類預測在結構決議樹過程中最主要一點是在每一個分割節點確定用哪個屬性來分類(或分裂) 這就包括到關于使用什么準則來
17、衡量使用A屬性比使用B屬性更合理決議樹分類算法output訓練集決議樹input生物信息學基因芯片數據分析第59頁(三)衡量準則信息增益information gain基尼指數Gini index生物信息學基因芯片數據分析第60頁(四)決議樹修剪消除決議樹過適應問題消除訓練集中異常和噪聲所包括方法很多,比如先剪枝算法(print)與后剪枝(sprint 算法)等等生物信息學基因芯片數據分析第61頁五、分類效能評價(一)構建訓練集和檢驗集n倍交叉驗證(n-fold cross validation)Bagging(bootstrap aggregation)無放回隨機抽樣留一法交叉驗證(leav
18、e-one-out cross validation,LOOCV)(二)分類效能靈敏度(sensitivity,recall)特異性(specificity)陽性預測率(positive predictive value,precision)陰性預測率(negative predictive value)均衡正確率(balanced accuracy)正確率(correct or accuracy)生物信息學基因芯片數據分析第62頁第七節 基因芯片數據其它分析Complementary Analysis of Microarray Data 一、降維處理(主成份分析)新指標是原來基因線性組合 生物信息學基因芯片數據分析第63頁二、時間序列表示譜分析(一)擴大基因表示譜矩陣(二
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 修理溝渠施工方案
- 多晶硅磁控濺射靶材戰略市場規劃報告
- 憲法、刑法、民法、勞動法關于安全生產的規定:宣講課件
- 大學課件之機械原理:機械原理學習與考研輔導
- 消控室-中控室消防業務培訓
- 人力資源資料-人才盤點佳實踐人才盤點的流程與方法
- 2025出版讀物及電子資源訂購合同
- 救生員專業考試試題及答案指南
- 2025建筑工程施工合同土方挖掘與回填協議范本
- 目標明確的裁判員試題及答案
- 2024ESC心房顫動管理指南解讀-完整版
- 砂石場生產線承包合同
- DB51T 2943-2022 四川省一體化政務服務平臺系統接入規范
- 飛機空氣動力學課件:翼型的空氣動力特性
- 《地方鐵路運輸企業安全生產標準化建設規范》
- 農業科技的智能灌溉
- GB/T 44770-2024智能火電廠技術要求
- 森林防火護林員聘用合同
- 人教版中職數學拓展模塊一:6.1.1復數的相關概念課件
- 云梯高空作業車的施工方案
- 視覺設計基礎
評論
0/150
提交評論