




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1化學信息學化學模式識別 (一)數據挖掘(Data Mining,DM)數據挖掘(Data Mining,DM)是從大量的數據中提取隱含的或隱藏的信息,是一種新的信息處理技術,其目的在于找到外在物理、化學、生物或生理表征與內在結構如化學組成、分子構型、構象、形態等之間的相互關系,并從中提取輔助決策的關鍵信息。2數據挖掘一般包含以下步驟:3圖 10-1 數據挖掘全過程數據的標準化模式識別中將需作處理的樣本集X一般用如下矩陣形式表示: 4為了消除量綱和變化幅度不同帶來的影響,原始數據可作標準化處理,有關計算公式如下:5 (10-2)(10-3)(10-4)其中 為所有樣本第j個特征的平均值, 為所
2、有樣本第j個特征的方差,xij為經標準化處理后的數據,各變量權重相同,均值為0,方差為1。特征提取與優化主成分分析偏最小二乘法逐步回歸分析遺傳算法6主成分分析(Principal Component Analysis,PCA)主成分分析也稱主分量分析,是多元統計的一部分重要內容。在統計學中,主成分分析是一種簡化數據集的技術。主成分分析的一般目的是對變量降維或對主成分解釋。 7主成分分析是將數據原來的p個指標作線性組合,作為新的綜合指標( )。其中 是“信息最多”的指標,即原指標所有線性組合中使 最大的組合所對應的指標, 稱為第一主成分; 為除 外信息最多的指標,即 且 最大,稱為第二主成分;依
3、次類推。8主成分分析(Principal Component Analysis,PCA)求主成分的一般步驟如下:1.對樣本數據的標準化2.計算相關矩陣3.求特征值和特征向量4.求主成分(取線性組合)5.定義9主成分分析(Principal Component Analysis,PCA)10 圖 10-2 主成分的空間投影圖(PC1是第一主成分,PC2是第二主成分,PC3是第3主成分)主成分分析(Principal Component Analysis,PCA)偏最小二乘法(Partial Least Squares, PLS)偏最小二乘法是在20世紀60年代末由Wold提出的,80年代開始應用
4、于化學研究,該方法具有簡單穩健、計算量小、預測精度高、無需剔除任何解釋變量或樣本點、所構造的潛變量較確定、易于定性解釋等優點。學測量和數據挖掘中得到廣泛應用。11偏最小二乘法PLS是對每個X 矩陣的潛變量方向進行修改,使它與Y矩陣間的協方差最大,即在原回歸方程中刪去那些特征值近似為零的項,其X和Y矩陣分別按式10-16和10-17分解為較小的矩陣:12 (10-16)(10-17)式中:T為X的得分矩陣, 為得分向量,P為X的載荷矩陣, 為相應的載荷向量,E是殘差矩陣,是X中無法用 個潛變量t反映的部分。U為Y的得分矩陣,為得分向量,Q為Y的載荷矩陣, 為相應的載荷向量,F是殘差矩陣,是Y中無
5、法用 個潛變量u反映的部分。逐步回歸分析最佳回歸方程:最佳回歸方程應該包括所有對因變量作用顯著的變量13逐步回歸分析法就是從一個預報因子開始,按自變量對因變量作用的顯著程度,從大到小地依次逐個地引入回歸方程,另一方面是當先引入的自變量由于后面自變量的引入變得不顯著時,就將前者從回歸方程中剔除。顯著性檢驗F檢驗法14相關系數檢驗法顯著性檢驗,以確定自變量X與因變量Y之間確實線性相關。兩種常用的回歸方程檢驗方法:F檢驗法首先將觀測值和擬合值差值的平方和(SS)分解為回歸平方和(SSE)和殘差平方和(SSR),用以下統計量進行檢驗: (10-18)式中:n為數據組數。當F值大于一定的臨界值時,拒絕原
6、假設,認為因變量與自變量之間是相關的。15相關系數檢驗法相關系數R反映了回歸平方和在總平方和中的比例,即反映了X與Y之間線性相關的密切程度,|R|愈接近0,X與Y之間的線性相關程度愈小,反之,|R|愈大,愈接近1,X與Y之間的線性相關程度愈大。16(10-19)對于一個具體問題,只有當|R|大到一定程度時才可以認為X與Y之間有線性相關關系。遺傳算法遺傳算法(Genetic Algorithms, GA)最早由Holland教授于20世紀70年代創建的。它以達爾文進化論和孟德爾遺傳學說為理論基礎,通過模擬自然界生物“遺傳變異適者生存”的進化過程,對優化空間進行隨機搜索,從而得到全局最優解。17遺
7、傳算法18圖10-3 遺傳算法基本流程遺傳算法遺傳算法的具體實施需要以下步驟:染色體的編碼、初始化操作、染色體適應度的計算和遺傳操作。19染色體的編碼和適應度的確定方法(1)染色體的編碼和形成:直接采用二進制編碼,用0代表某個變量未被選中,1代表選中。染色體的長度為待選變量的個數。(2)染色體適應度的確定:Hasegawa等人提出了用平方預測相關系數作為染色體適應度,其計算公式為:20其中,yi為實際值,y(-i),pred為用除掉第i個樣本的數據建立的模型對yi的預測值, 為yi的平均值,h為公式(10-18)獲得最大值時的主元個數。染色體的編碼和適應度的確定方法(3)確定最佳的主元個數:交
8、叉有效性驗證是最常用的確定主元個數的方法,式(10-21)中的最佳主元個數的確定為:如果PRESSj/RSSj-10.952,則增加一個主元是有益的。21基于GA-PLS算法的變量選擇步驟(1)用隨機方法來初始化種群,指定最大迭代次數、交叉率和變異率;(2)根據式(10-19)計算種群各個個體的適應度值,再從當前種群中選擇出優良的個體,使它們隨機兩兩配對;(3)根據指定的交叉率,對以上各對染色體進行交叉處理;(4)根據指定的變異率,對染色體進行變異處理;(5)如果循環終止條件滿足,則算法結束,否則轉到第(2)步。22信號處理方法信號處理的目的就是對數字信息進行準確的分析、診斷、編碼壓縮和量化、
9、快速傳遞或存儲、精確重構(或恢復)。將信號處理的方法結合到蛋白質序列分析中,能發揮其特有的信息提取優勢,已成為生物信息學研究領域的一個重要的發展方向。23信號處理方法信號分成兩大類確知信號和隨機信號。確知信號具有一定的變化規律,因而容易分析,而隨機信號無準確的變化規律,需要用統計特性進行分析。在工程技術中,一般采用描述隨機過程的主要平均統計特性的幾個函數,包括均值、方差、相關函數、頻譜及功率譜密度等來描述。24協方差與相關系數若兩個隨機變量x和y相互獨立,則 =0,若上述數學期望不為零,則x和y必不是相互獨立的,即它們之間存在著一定的關系。因而定義 稱為隨機變量x和y的協方差,記作COV(x,
10、y),即:25(10-26)其中E表示數學期望設隨機變量x、y的數學期望和方差都存在,則變量x和y之間的相關程度常用相關系數 表示:26其中, 、 ,隨機變量x、y的均值; 、 ,隨機變量x、y的方差。(10-27)協方差與相關系數自、互相關分析設x(t)是各態歷經隨機過程的一個樣本函數,x(t+)是x(t)時移后的樣本如圖10-4所示。兩個樣本的相關程度可以用相關系數來表示。27圖10-4 自相關函數自相關函數若用 表示自相關函數,其定義為:28(10-28)自相關函數的性質如下:(1)自相關函數為實偶函數,即 = 。(2)值不同, 不同,當=0時, 值最大,并等于信號的均方值。(3)值的限
11、制范圍為: 。(4)當時 ,x(t)和x(t+)之間不存在內在聯系,彼此無關。(5)周期函數的自相關函數認為同頻率的周期函數。互相關函數對于各態歷經隨機過程,兩個隨機信號x(t)和y(t)的互相關函數 定義為:29(10-29)互相關函數30互相關函數的性質如下:(1)互相關函數是可正可負的實函數。(2)互相關函數非偶函數,亦非奇函數,而是 = (3) 的峰值不在=0處,其峰值偏離原點的位置 反映了兩信號時移的大小,相關程度最高。(4) 限制范圍為: (5)兩個統計獨立的隨機信號,當均值為零時, =0(6)兩個不同頻率的周期信號,其互相關函數為零。(7)兩個同頻率正余弦函數不相關。(8)周期信
12、號與隨機信號的互相關函數為零。功率譜密度31隨機過程的功率譜密度為:隨機信號的功率譜密度是隨機信號的各個樣本在單位頻帶內的頻譜分量統計均值,是從頻域描述隨機信號的平均統計參量,表示x(t)的平均功率在頻域上的分布。它表示功率信號x(t)中以角頻率為中心的單位帶寬內所具有的功率。(10-30)功率譜密度隨機信號的功率譜密度具有以下四個性質:(1)功率譜密度為非負值,即功率譜密度大于等于0。(2)功率譜密度是的實函數。(3)對于實隨機信號來說,功率譜密度是的偶函數,即S()= S(-)。(4)功率譜密度可積。功率譜密度曲線下的總面積(即隨機信號的全部功率)等于隨機信號的均方值。32傅立葉變換傅立葉
13、變換(Fourier Transform, FT)是將分析信號在測量的時域變換到頻域,這樣分析工作者有可能獲得特殊的信息以提高信噪比或可使計算能較為方便地進行。33小波變換小波變換 (Wavelet Transform, WT)是給出時間域和頻率域方面信息的另外一種技術,類似于傅立葉變換,小波變換將測量信號分解為一組稱之為小波基的基函數,這種小波基函數稱為分析小波(analyzing wavelet)。34小波變換35圖10-5 常用的小波函數類型小波變換小波函數的定義為:設(t)為一平方可積函數,若其傅立葉變換()滿足條件:36(10-33)則稱(t)為一個基本小波或小波母函數。上述條件也稱
14、為小波函數的可容許條件。將小波母函數(t)進行平移和伸縮,就可以得到一系列小波基函數:a0, bR (10-34)其中a和b分別稱為 的伸縮因子和平移因子。小波變換的應用小波變換在蛋白質頻譜分析中的應用小波變換在基因組序列分析中的應用小波變換在蛋白質序列分析中的應用小波變換在基因芯片數據分析中的應用37機器學習方法K最近鄰法概率神經網絡分類回歸樹助推法人工神經網絡支持向量機38數據庫挖掘技術聚類算法決策樹算法39聚類算法聚類是一種常見的數據分析工具,其目的是把大量數據點的集合分成若干類,使得每個類中的數據之間最大程度的相似,而不同類中的數據最大程度的不同。常見的聚類算法主要包括層次聚類算法(H
15、ierarchical Clustering Method)、分割聚類算法 (Partitioning Clustering Method)、基于密度的方法(Density-Based Methods)、基于網格的方法(Grid-Based Methods)等。40決策樹算法常見的決策樹算法主要有ID3 算法、C4.5算法、CART算法、SPRINT算法等。41Web數據挖掘技術Web挖掘是從Internet網絡資源上挖掘有趣的、潛在的、有用的模式及隱藏信息的過程,它是數據挖掘技術應用于網絡資源進行挖掘的一個新興研究領域。42圖10-16 Web挖掘分類Web內容挖掘Web內容挖掘是對Web上大量文檔的集合進行總結、分類、聚類與關聯分析來獲取有用信息,Web頁面的內容主要
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高端家居智能設備采購協議
- 川教版2025九年級下學期英語口語提升計劃
- 三年級線上語言藝術表演計劃
- 六年級性教育與健康計劃
- 人力資源派遣與管理協議
- 商業合作協議簽署事項及細節說明
- 個人借款協議合同與個人借款合同
- 小學二年級下學期班主任工作計劃分享
- 幼兒園小班新學期藝術活動計劃
- 青少年田徑隊短跑訓練計劃改進
- 部隊網絡安全常識授課
- 員工職業晉升規劃計劃
- 倉庫人員安全教育培訓
- DB14-T 1737-2024 醫療護理員培訓機構服務規范
- 尼康COOLPIXL120用戶手冊
- 功角搖擺與新能源低穿控制切換耦合誘導的同步機暫態功角多擺失穩機理
- 全國飛盤運動競賽規則(試行)
- ICT測試設備簡介
- 2025年貴州高速集團有限公司招聘筆試參考題庫含答案解析
- 2025版融資租賃合同履行監管服務合同3篇
- 2025年長沙水業集團有限公司招聘筆試參考題庫含答案解析
評論
0/150
提交評論