第八章生物信息學技術_第1頁
第八章生物信息學技術_第2頁
第八章生物信息學技術_第3頁
第八章生物信息學技術_第4頁
第八章生物信息學技術_第5頁
已閱讀5頁,還剩68頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第一節生物信息學的概述目前一頁\總數七十三頁\編于十六點一、生物信息學(Bioinformatics)這一名詞的來由

八十年代末期,林華安博士認識到將計算機科學與生物學結合起來的重要意義,開始留意要為這一領域構思一個合適的名稱。起初,考慮到與將要支持他主辦一系列生物信息學會議的佛羅里達州立大學超型計算機計算研究所的關系,他使用的是“CompBio”;之后,又將其更改為兼具法國風情的“bioinformatique”,看起來似乎有些古怪。因此不久,他便進一步把它更改為“bio-informatics(或bio/informatics)”。但由于當時的電子郵件系統與今日不同,該名稱中的-或/符號經常會引起許多系統問題,于是林博士將其去除,今天我們所看到的“bioinformatics”就正式誕生了,林博士也因此贏得了“生物信息學之父”的美譽。目前二頁\總數七十三頁\編于十六點生物信息學的發展歷史生物信息學基本思想的產生生物信息學的迅速發展二十世紀50年代二十世紀80-90年代生物科學和技術的發展人類基因組計劃的推動目前三頁\總數七十三頁\編于十六點二、生物信息學的概念HGP生物數據的激增(每15個月翻一番)生物學家數學家計算機科學家生物信息學(bioinfomatics)的誕生目前四頁\總數七十三頁\編于十六點三種科學文化的融合生物學家(生物學問題)數學物理學家計算機科學家(基礎理論問題)工程師(技術應用)目前五頁\總數七十三頁\編于十六點

生物信息學(bioinformatics)是80年代未隨著人類基因組計劃(Humangenomeproject)的啟動而興起的一門新的交叉學科。它涉及生物學、數學、計算機科學和工程學,依賴于計算機科學、工程學和應用數學的基礎,依賴于生物實驗和衍生數據的大量儲存。目前六頁\總數七十三頁\編于十六點概念(廣義)生物體系和過程中信息的存貯、傳遞和表達細胞、組織、器官的生理、病理、藥理過程的中各種生物信息信息科學生命科學中的信息科學

基因組信息,如基因的DNA序列、染色體定位;基因組信息的獲取、處理、貯存、傳遞、分析和解釋;基因產(蛋白質或RNA)的結構和功能及各生物種間的進化關系等其他信息資源;蛋白質組信息學,如蛋白質的序列、結構、功能及定位分類、蛋白質連鎖圖、蛋白質數據庫的建立、相關分析軟件的開發和應用等;基因與蛋白質的關系,如蛋白質編碼基因的識別及算法研究、蛋白質結構、功能預測等;新藥研制、生物進化也是生物信息學研究的熱點。目前七頁\總數七十三頁\編于十六點概念(狹義)分子生物信息學MolecularBioinformatics挖掘獲取生物分子信息的獲取、存貯、分析和利用生物分子數據深層次生物學知識將計算機科學和數學應用于生物大分子信息的獲取、加工、存儲、分類、檢索與分析,以達到理解這些生物大分子信息的生物學意義的交叉學科。目前八頁\總數七十三頁\編于十六點三、生物分子信息主要研究兩種信息載體DNA分子蛋白質分子目前九頁\總數七十三頁\編于十六點生物分子至少攜帶著三種信息遺傳信息與功能相關的結構信息進化信息目前十頁\總數七十三頁\編于十六點(1)遺傳信息的載體——DNA

遺傳信息的載體主要是DNA

控制生物體性狀的基因是一系列DNA片段生物體生長發育的本質就是遺傳信息的傳遞和表達目前十一頁\總數七十三頁\編于十六點DNA通過自我復制,在生物體的繁衍過程中傳遞遺傳信息基因通過轉錄和翻譯,使遺傳信息在生物個體中得以表達,并使后代表現出與親代相似的生物性狀。

基因控制著蛋白質的合成DNARNA蛋白質轉錄翻譯目前十二頁\總數七十三頁\編于十六點基因的DNA序列DNA前體RNAmRNA多肽鏈蛋白質序列對應關系遺傳密碼目前十三頁\總數七十三頁\編于十六點(2)蛋白質的結構決定其功能蛋白質功能取決于蛋白質的空間結構

蛋白質結構決定于蛋白質的序列(這是目前基本共認的假設),蛋白質結構的信息隱含在蛋白質序列之中。目前十四頁\總數七十三頁\編于十六點(3)DNA分子和蛋白質分子

都含有進化信息

通過比較相似的蛋白質序列,如肌紅蛋白和血紅蛋白,可以發現由于基因復制而產生的分子進化證據。通過比較來自于不同種屬的同源蛋白質,即直系同源蛋白質,可以分析蛋白質甚至種屬之間的系統發生關系,推測它們共同的祖先蛋白質。目前十五頁\總數七十三頁\編于十六點生物分子信息DNA序列數據蛋白質序列數據生物分子結構數據生物分子功能數據最基本直觀復雜生物分子數據類型目前十六頁\總數七十三頁\編于十六點

DNA核酸序列蛋白質氨基酸序列蛋白質結構蛋白質功能最基本的生物信息維持生命活動的機器第一部遺傳密碼第二部遺傳密碼?生命體系千姿百態的變化生物分子數據及其關系目前十七頁\總數七十三頁\編于十六點第一部遺傳密碼已被破譯,但對密碼的轉錄過程還不清楚,對大多數DNA非編碼區域的功能還知之甚少對于第二部密碼,目前則只能用統計學的方法進行分析無論是第一部遺傳密碼,還是第二部遺傳密碼,都隱藏在大量的生物分子數據之中。生物分子數據是寶藏,生物信息數據庫是金礦,等待我們去挖掘和利用。目前十八頁\總數七十三頁\編于十六點生物分子信息的特征生物分子信息數據量大生物分子信息復雜生物分子信息之間存在著密切的聯系目前十九頁\總數七十三頁\編于十六點第二節生物信息學主要研究內容目前二十頁\總數七十三頁\編于十六點生物信息學主要研究內容1、

生物分子數據的收集與管理2、數據庫搜索及序列比較3、基因組序列分析4、基因表達數據的分析與處理5、蛋白質結構預測目前二十一頁\總數七十三頁\編于十六點基因組數據庫蛋白質序列數據庫蛋白質結構數據庫DDBJEMBLGenBankSWISS-PROT

PDBPIR1、生物分子數據的收集與管理目前二十二頁\總數七十三頁\編于十六點2、數據庫搜索及序列比較搜索同源序列在一定程度上就是通過序列比較尋找相似序列序列比較的一個基本操作就是比對(Alignment),即將兩個序列的各個字符(代表核苷酸或者氨基酸殘基)按照對應等同或者置換關系進行對比排列,其結果是兩個序列共有的排列順序,這是序列相似程度的一種定性描述多重序列比對研究的是多個序列的共性。序列的多重比對可用來搜索基因組序列的功能區域,也可用于研究一組蛋白質之間的進化關系。目前二十三頁\總數七十三頁\編于十六點發現同源分子目前二十四頁\總數七十三頁\編于十六點3、基因組序列分析

遺傳語言分析——天書基因組結構分析基因識別基因功能注釋基因調控信息分析基因組比較目前二十五頁\總數七十三頁\編于十六點4、基因表達數據的分析與處理基因表達數據分析是目前生物信息學研究的熱點和重點目前對基因表達數據的處理主要是進行聚類分析,將表達模式相似的基因聚為一類,在此基礎上尋找相關基因,分析基因的功能所用方法主要有:相關分析方法模式識別技術中的層次式聚類方法人工智能中的自組織映射神經網絡主元分析方法目前二十六頁\總數七十三頁\編于十六點基因芯片目前二十七頁\總數七十三頁\編于十六點目前二十八頁\總數七十三頁\編于十六點目前二十九頁\總數七十三頁\編于十六點層次式聚類目前三十頁\總數七十三頁\編于十六點二維電泳圖目前三十一頁\總數七十三頁\編于十六點5、蛋白質結構預測

蛋白質的生物功能由蛋白質的結構所決定,蛋白質結構預測成為了解蛋白質功能的重要途徑蛋白質結構預測分為:二級結構預測空間結構預測蛋白質折疊目前三十二頁\總數七十三頁\編于十六點二級結構預測在一定程度上二級結構的預測可以歸結為模式識別問題

在二級結構預測方面主要方法有:立體化學方法圖論方法統計方法最鄰近決策方法基于規則的專家系統方法分子動力學方法人工神經網絡方法預測準確率超過70%的第一個軟件是基于神經網絡的PHD系統目前三十三頁\總數七十三頁\編于十六點空間結構預測在空間結構預測方面,比較成功的理論方法是同源模型法

該方法的依據是:相似序列的蛋白質傾向于折疊成相似的三維空間結構運用同源模型方法可以完成所有蛋白質10-30%的空間結構預測工作目前三十四頁\總數七十三頁\編于十六點第三節生物信息學當前的主要任務

目前三十五頁\總數七十三頁\編于十六點

縱觀當今生物信息學界的現狀,可以發現,大部分人都把注意力集中在基因組、蛋白質組、蛋白質結構以及與之相結合的藥物設計上目前三十六頁\總數七十三頁\編于十六點1.基因組

1.1新基因的發現

通過計算分析從EST(ExpressedSequenceTags)序列庫中拼接出完整的新基因編碼區,也就是通俗所說的“電子克隆”;通過計算分析從基因組DNA序列中確定新基因編碼區,經過多年的積累,已經形成許多分析方法,如根據編碼區具有的獨特序列特征、根據編碼區與非編碼區在堿基組成上的差異、根據高維分布的統計方法、根據神經網絡方法、根據分形方法和根據密碼學方法等。目前三十七頁\總數七十三頁\編于十六點1.2非蛋白編碼區生物學意義的分析

目前三十八頁\總數七十三頁\編于十六點

非蛋白編碼區約占人類基因組的95%,其生物學意義目前尚不是很清楚,但從演化觀點來看,其中必然蘊含著重要的生物學功能,由于它們并不編碼蛋白,一般認為,它們的生物學功能可能體現在對基因表達的時空調控上。對非蛋白編碼區進行生物學意義分析的策略有兩種,一種是基于已有的已經為實驗證實的所有功能已知的DNA元件的序列特征,預測非蛋白編碼區中可能含有的功能已知的DNA元件,從而預測其可能的生物學功能,并通過實驗進行驗證;另一種則是通過數理理論直接探索非蛋白編碼區的新的未知的序列特征,并從理論上預測其可能的信息含義,最后同樣通過實驗驗證。目前三十九頁\總數七十三頁\編于十六點1.3基因組整體功能及其調節網絡的系統把握

把握生命的本質,僅僅掌握基因組中部分基因的表達調控是遠遠不夠的,因為生命現象是基因組中所有功能單元相互作用共同制造出來的。基因芯片技術由于可以監測基因組在各種時間斷面上的整體轉錄表達狀況,因此成為該領域中一項非常重要和關鍵的實驗技術,對該技術所產生的大量實驗數據進行高效分析,從中獲得基因組運轉以及調控的整體系統的機制或者是網絡機制,便成了生物信息學在該領域中首先要解決的問題。目前四十頁\總數七十三頁\編于十六點1.4基因組演化與物種演化

目前四十一頁\總數七十三頁\編于十六點

盡管已經在分子演化方面取得了許多重要的成就,但僅僅依靠某些基因或者分子的演化現象,就想闡明物種整體的演化歷史似乎不太可靠。例如,智人與黑猩猩之間有98%-99%的結構基因和蛋白質是相同的,然而表型上卻具有如此巨大的差異,這就不能不使我們聯想到形形色色千差萬別的建筑樓群,它們的外觀如此不同,但基礎的部件組成卻是幾乎一樣的,差別就在于這些基礎部件的組織方式不同,這就提示我們基因組整體組織方式而不僅僅是個別基因在研究物種演化歷史中的重要作用。由于基因組是物種所有遺傳信息的儲藏庫,從根本上決定著物種個體的發育和生理,因此,從基因組整體結構組織和整體功能調節網絡方面,結合相應的生理表征現象,進行基因組整體的演化研究,將是揭示物種真實演化歷史的最佳途徑。目前四十二頁\總數七十三頁\編于十六點2、蛋白質組

目前四十三頁\總數七十三頁\編于十六點

基因組對生命體的整體控制必須通過它所表達的全部蛋白質來執行,由于基因芯片技術只能反映從基因組到RNA的轉錄水平上的表達情況,由于從RNA到蛋白質還有許多中間環節的影響,因此僅憑基因芯片技術我們還不能最終掌握生物功能具體執行者——蛋白質的整體表達狀況;因此,近幾年在發展基因芯片的同時,人們也發展了一套研究基因組所有蛋白質產物表達情況——蛋白質組研究技術,從技術上來講包括二維凝膠電泳技術和質譜測序技術。通過二維凝膠電泳技術可以獲得某一時間截面上蛋白質組的表達情況,通過質譜測序技術就可以得到所有這些蛋白質的序列組成。這些都是技術實現問題,最重要的就是如何運用生物信息學理論方法去分析所得到的巨量數據,從中還原出生命運轉和調控的整體系統的分子機制。目前四十四頁\總數七十三頁\編于十六點

基因組和蛋白質組研究的迅猛發展,使許多新蛋白序列涌現出來,然而要想了解它們的功能,只有氨基酸序列是遠遠不夠的,因為蛋白質的功能是通過其三維高級結構來執行的,而且蛋白質三維結構也不一定是靜態的,在行使功能的過程中其結構也會相應的有所改變。因此,得到這些新蛋白的完整、精確和動態的三維結構就成為擺在我們面前的緊迫任務。目前除了通過諸如X射線晶體結構分析、多維核磁共振(NMR)波譜分析和電子顯微鏡二維晶體三維重構(電子晶體學,EC)等物理方法得到蛋白質三維結構之外3、蛋白質結構

目前四十五頁\總數七十三頁\編于十六點

另外一種廣泛使用的方法就是通過計算機輔助預測的方法,目前,一般認為蛋白質的折疊類型只有數百到數千種,遠遠小于蛋白質所具有的自由度數目,而且蛋白質的折疊類型與其氨基酸序列具有相關性,這樣就有可能直接從蛋白質的氨基酸序列通過計算機輔助方法預測出蛋白質的三維結構目前四十六頁\總數七十三頁\編于十六點4、新藥設計

目前四十七頁\總數七十三頁\編于十六點

近年來隨著結構生物學的發展,相當數量的蛋白質以及一些核酸、多糖的三維結構獲得精確測定,基于生物大分子結構知識的藥物設計成為當前的熱點。生物信息學的研究不僅可提供生物大分子空間結構的信息,還能提供電子結構的信息,如能級、表面電荷分布、分子軌道相互作用等以及動力學行為的信息,如生物化學反應中的能量變化、電荷轉移、構象變化等。理論模擬還可研究包括生物分子及其周圍環境的復雜體系和生物分子的量子效應。目前四十八頁\總數七十三頁\編于十六點

但生物信息學的任務遠不止于此。在以上工作的基礎上,最重要的是如何運用數理理論成果對生物體進行完整系統的數理模型描述,使得人類能夠從一個更加明確的角度和一個更加易于操作的途徑來認識和控制自身以及所有其他的生命體目前四十九頁\總數七十三頁\編于十六點生物信息學不僅僅是一門科學學科,它更是一種重要的研究開發工具。

從科學的角度來講,它是一門研究生物和生物相關系統中信息內容物和信息流向的綜合系統科學,只有通過生物信息學的計算處理,我們才能從眾多分散的生物學觀測數據中獲得對生命運行機制的詳細和系統的理解。從工具的角度來講,它是今后幾乎進行所有生物(醫藥)研究開發所必需的舵手和動力機,只有基于生物信息學通過對大量已有數據資料的分析處理所提供的理論指導和分析,我們才能選擇正確的研發方向,同樣,只有選擇正確的生物信息學分析方法和手段,我們才能正確處理和評價新的觀測數據并得到準確的結論。目前五十頁\總數七十三頁\編于十六點生物信息學研究意義生物信息學將是21世紀生物學的核心

認識生物本質了解生物分子信息的組織和結構,破譯基因組信息,闡明生物信息之間的關系改變生物學的研究方式改變傳統研究方式,引進現代信息學方法在醫學上的重要意義為疾病的診斷和治療提供依據為設計新藥提供依據目前五十一頁\總數七十三頁\編于十六點第三節生物信息學所用的方法和技術

1、數學統計方法2、動態規劃方法3、機器學習與模式識別技術4、數據庫技術及數據挖掘5、人工神經網絡技術6、專家系統7、分子模型化技術8、量子力學和分子力學計算9、生物分子的計算機模擬10、因特網(Internet)技術目前五十二頁\總數七十三頁\編于十六點1、數學統計方法生物活動常常以大量、重復的形式出現,既受到內在因素的制約,又受到外界環境的隨機干擾。因此概率論和數學統計是現代生物學研究中一種常用的分析方法數據統計、因素分析、多元回歸分析是生物學研究必備的工具隱馬爾科夫模型(HiddenMarkovModels)在序列分析方面有著重要的應用。與隱馬爾科夫模型相關的技術是馬爾科夫鏈(MarkovChain)目前五十三頁\總數七十三頁\編于十六點2、動態規劃方法動態規劃(DynamicProgramming)是一種解決多階段決策過程的最優化方法或復雜空間的優化搜索方法動態規劃解決問題的基本過程是:將一個問題的全局解分解為局部解,逆序遞推求出局部最優解,隨著執行過程的推進,“局部”逐漸接近“全局”,最終獲得全局最優解目前五十四頁\總數七十三頁\編于十六點3、機器學習與模式識別技術機器學習機器學習是模擬人類的學習過程,以計算機為工具獲取知識、積累經驗1、遺傳算法采用隨機搜索方法,具有自適應能力和便于并行計算2、神經網絡的理論是基于人腦的結構,其目的是揭示一個系統是如何向環境學習的,這一種方法被稱為聯接主義。模式識別模式識別是機器學習的一個主要任務。模式是對感興趣客體定量的或者結構的描述,而模式識別就是利用計算機對客體進行鑒別,將相同或者相似的客體歸入同種類別中模式識別主要有兩種方法:根據對象的統計特征進行識別,根據對象的結構特征進行識別

目前五十五頁\總數七十三頁\編于十六點環境學習知識庫執行機器學習系統的基本結構

反饋目前五十六頁\總數七十三頁\編于十六點4、數據庫技術及數據挖掘數據庫技術數據倉庫虛擬數據庫技術(VirtualDatabase,簡稱VDB)數據挖掘(datamining)又稱作數據庫中的知識發現(KnowledgeDiscoveryinDatabase),它是從數據庫或數據倉庫中發現并提取隱藏在其中的信息的一種新技術,它能自動分析數據,對它們進行歸納性推理和聯想,尋找數據間內在的某些關聯,從中發掘出潛在的、對信息預測和決策行為起著十分重要作用的模式數據挖掘過程一般分為4個基本步驟:數據選擇、數據轉換、數據挖掘和結果分析目前五十七頁\總數七十三頁\編于十六點5、人工神經網絡技術人工神經網絡(ArtificialNeuralNetwork,簡稱ANN)是通過模擬神經元的特性以及腦的大規模并行結構、信息的分布式和并行處理等機制建立的一種數學模型在生物信息學中,使用得最多的是反向傳播神經網絡(BackPropagationNeuralNetwork,簡稱BP網)。BP網被認為是穩定性和魯棒性較強的人工神經網絡之一,而且屬于有監督學習的網絡模型。標準的BP網由三層神經元組成:輸入層、隱藏層和輸出層目前五十八頁\總數七十三頁\編于十六點輸入層隱藏層輸出層反向傳播神經網絡結構示意目前五十九頁\總數七十三頁\編于十六點

使用界面解釋機構推理機知識獲取知識庫數據庫目前六十頁\總數七十三頁\編于十六點7、分子模型化技術分子模型化(Molecularmodeling)是利用計算機模擬分子結構、研究分子之間相互作用的一種技術分子模型化是進行分子設計的基礎。分子圖形學(MolecularGraphics)是進行分子模型化的一項重要技術,正是由于分子圖形學和其它計算化學方法(如分子力學、分子動力學)的相互結合,才使得分子模型化方法取得成功目前六十一頁\總數七十三頁\編于十六點目前六十二頁\總數七十三頁\編于十六點8、量子力學和分子力學計算

量子力學主要研究原子、分子、凝聚態物質、以及原子核和基本粒子的結構、性質的基礎理論,在化學等有關學科中得到了廣泛的應用分子力學(MolecularMechanics)方法是一種非量子力學的計算分子結構、能量與性質的方法,該方法應用經驗勢能函數,即經驗力場方法模擬分子的結構,計算分子的性質在進行分子結構分析、構象優化、分子間相互作用研究及分子模擬時需要應用量子力學或分子力學目前六十三頁\總數七十三頁\編于十六點9、生物分子的計算機模擬

所謂生物分子的計算機模擬就是從分子或者原子水平上的相互作用出發,建立分子體系的數學模型,利用計算機進行模擬實驗,預測生物分子的結構和功能,預測動力學及熱力學等方面的性質分子動力學和蒙特卡羅方法(MonteCarlomethod)是兩種最常用的技術,另一種模擬方法是模擬退火方法目前六十四頁\總數七十三頁\編于十六點

反饋,改進模型

實驗實驗現象數學模型計算機模擬模擬結果分析新的設想目前六十五頁\總數七十三頁\編于十六點10、因特網(Internet)技術Internet已經成為生物學研究的平臺,同時也成為分子生物學研究人員進行信息交流特別是生物分子數據的交流的場所通過網絡查詢或搜索所需要的生物信息,使用分析工具將所要處理的數據直接送到相應的網絡服務器上,服務器接受你的處理請求,并將處理結果返回目前六十六頁\總數七十三頁\編于十六點第四節生物信息學常用數據庫

1.核酸序列數據庫

2.RNA序列數據庫

3.蛋白質序列數據庫

4.結構數據庫

5.基因組數據庫

6.代謝酶相關產物

7.人類和其他脊椎動物基因組

8.人類基因和疾病

9.其他數據和其他基因表達數據庫

10.蛋白組資源

11.其他分子生物學數據庫

12.細胞器官數據庫

13.植物數據庫

14.免疫學數據庫目前六十七頁\總數七十三頁\編于十六點《NucleicAcidsResearch》雜志每年的第一期中詳細介紹最新版本的各種數據庫。在2000年1月1日出版的28卷第一期

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論