




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
生物信息學
Bioinformatics
(BF035018)生命科學學院呂巍lvwei_star@163.com2/5/20231主要學習內容生物信息學總體印象(第一章)生物信息學用到什么?(第二章)生物信息學能做什么及怎么做?(第三、四、五章)生物信息學的實際應用(第六章)生物信息學的定義、發展史、相關概念、重要性、研究內容及發展方向生物知識、計算機知識、網絡資源、數據庫資源和軟件資源雙序列比對、多序列比對、核酸分析、蛋白質分析,另外還有分子模建、活性預測、藥物設計等等基因組計劃、蛋白質組、代謝組等等2/5/20232教學目的掌握生物信息學的基本理論和專門知識;掌握生物信息學數據庫的查詢、檢索和利用;掌握核酸及蛋白質序列比對方法;了解人類基因組計劃意義及應用前景。2/5/20233參考教材羅靜初等譯,《生物信息學概論》,北京大學出版社趙國屏等,《生物信息學》,科學出版社,2002李衍達孫之榮等譯,《生物信息學-基因和蛋白質分析的實用指南》,清華大學出版社,2000張成崗等,《生物信息學方法與實踐》、科學出版社,2002D.R.Wedthead等,Bioinformatics,科學出版社,20032/5/20234考核方法理論考試(閉卷,占80%)隨堂提示重點難點知識,及課后練習題課堂成績(占20%)出勤率,課堂表現,隨堂練習成績2/5/20235第一章概論
近年來,隨著現代分子生物學的發展,特別是人類基因組計劃的實施,不斷產生出海量的分子生物學數據,這些數據數量巨大、關系復雜,以至于不利用計算機根本無法實現數據的存儲和分析。這樣,生物信息學最終形成一門獨立的學科并被推上了生物科學發展的最前沿。2/5/20236InformaticsComputationBiologyBioinformatics2/5/20237一、生物信息學定義1995年,在美國人類基因組計劃第一個五年總結報告中,給出了一個較為完整的生物信息學定義:生物信息學(Bioinformatics)是一門交叉科學,它包含了生物信息的獲取、加工、存儲、分配、分析、解釋等在內的所有方面,它綜合運用數學、計算機科學和生物學的各種工具,來闡明和理解大量數據所包含的生物學意義。2/5/20238生物信息學(Bioinformatics)這個名詞有許多不同的定義。從字面上來看,生物信息學是將信息科學和技術應用于生物學。一般提到的"生物信息學"是就指這個狹義的概念,準確地說應該是分子生物信息學(MolecularBioinformatics)。2/5/20239廣義概念生命科學與數學、計算機科學和信息科學交匯融合形成的一門交叉學科,應用先進的數據管理技術、數學分析模型和計算軟件對各種生物信息進行提取、儲存處理和分析,旨在掌握復雜生命現象的形成模式與演化規律。2/5/202310具體地說,生物信息學是把基因組DNA序列信息分析作為源頭,找到基因組序列中代表蛋白質和RNA基因的編碼區;同時,闡明基因組中大量存在的非編碼區的信息實質,破譯隱藏在DNA序列中的遺傳語言規律;在此基礎上,歸納、整理與基因組遺傳信息釋放及其調控相關的轉錄譜和蛋白質譜的數據,從而認識代謝、發育、分化、進化的規律。2/5/202311生物信息學主要研究兩種信息載體核酸分子(DNA、RNA)蛋白質分子生物分子至少攜帶著三種信息遺傳信息與功能相關的結構信息進化信息2/5/202312二、生物信息學發展史1866年孟德爾從實驗上提出了假設:基因是以生物成分存在。1953年JamesWatson和FrancisCrick推測出DNA的三維結構(雙螺旋).他們的理論奠定了分子生物學的基礎。Crick于1954年提出了遺傳信息傳遞的規律,DNA是合成RNA的模板,RNA又是合成蛋白質的模板,稱之為中心法則(Centraldogma)。2001年,人類基因組工程測序的完成,使生物信息學走向了一個高潮。2/5/202313生物信息學的產生20世紀后期,生物科學技術迅猛發展,無論從數量上還是從質量上都極大地豐富了生物科學的數據資源。尋求一種強有力的工具去組織這些數據,以利于儲存、加工和進一步利用。另一方面,以數據分析、處理為本質的計算機科學技術和網絡技術迅猛發展,并日益滲透到生物科學的各個領域。于是,一門嶄新的、擁有巨大發展潛力的新學科——生物信息學——悄然興起。2/5/202314生物信息學經歷三個階段基因組前期:主要是序列分析、數據庫的查詢、計算機操作;基因組年代:主要是基因的尋找、數據與數據之間的比較、網絡相互界面(Interface);后基因組年代:主要是數據的挖掘、表達、數據多樣性的分析、相互交叉數據分布的總結與分析。其研究的內容不僅包括基因的查尋和同源性分析;而且進一步到基因和基因組的功能分析,即所謂的功能基因組學研究。2/5/20231520世紀50年代,生物信息學開始孕育。20世紀60年代,生物分子信息在概念上將計算生物學和計算機科學聯系起來。20世紀70年代,生物信息學的真正開端。20世紀70年代到80年代初期,出現了一系列著名的序列比較方法和生物信息分析方法。20世紀80年代以后,出現一批生物信息服務機構和生物信息數據庫。20世紀90年代后,人類基因組計劃促進生物信息學的迅速發展。2/5/202316三與生物信息學相關的概念序列測定基因組計劃模式識別和結構功能預測蛋白質折疊同源性與相似性2/5/202317序列測定,是獲得序列數據的基本方法,分為蛋白質序列測定和核酸序列測定。第一個完整多肽(胰島素)于1955年ryle等人完成。埃德曼降解-環甲基化方法;自動測序儀;質譜技術的發展大大提高了蛋白質測序技術。核酸測序,由于基因克隆和多聚酶鏈式反應的快速發展,為核酸的快速測序提供了良好的基礎,這也就促使了現階段大量核酸序列的測序完成。2/5/202318基因組計劃:80年代美國能源部開始啟動一系列研究項目,旨在構建人類基因組詳盡圖譜和物理圖譜,測定人類基因組的全部核苷酸序列,并將人類十萬個左右的基因定位于染色體。在2000年,人類全基因組測序完成并正式公布,這就是著名的人類基因組計劃。2/5/202319另外一些模式生物的基因組計劃也先后在世界各地啟動。它們包括大腸桿菌,啤酒酵母,線蟲,果蠅,擬南芥,狗,小鼠等。這是1998年公布的一個數據,而現在由于測序技術的不斷成熟,獲得的動植物的全基因組序列越來越多。像國內的華大基因研究院,每年就要完成很多種生物的測序。2/5/202320模式識別利用已知的蛋白序列或結構中的某些特征模式來識別未知蛋白質的一些性質結構功能預測通過蛋白質序列特征來直接預測其結構或功能,而不依靠于其它已知蛋白信息。2/5/202321蛋白質折疊蛋白質折疊問題是分子生物學研究的中心問題。它所要解決的是蛋白質一級結構中的氨基酸序列最終怎樣折疊成三維空間結構。研究蛋白質折疊的過程,可以說是破譯“第二遺傳密碼”-折疊密碼(foldingcode)的過程。2/5/202322蛋白質的基本單位為氨基酸,而蛋白質的一級結構指的就是其氨基酸序列,蛋白質會由所含氨基酸殘基的親水性、疏水性、帶正電、帶負電……等等特性通過殘基間的相互作用而折疊成一立體的三級結構。雖然蛋白質可在短時間中從一級結構折疊至立體結構,研究者卻無法在短時間中從氨基酸序列計算出蛋白質結構,甚至無法得到準確的三維結構。2/5/202323同源性,也可以說同源序列,是指從某一共同祖先經趨異進化而形成的不同序列。相似性,有兩層含義:1,指那些折疊方式相似卻沒有明顯的序列相似性的蛋白質;2,指蛋白質中一組具有相同催化活性和空間構像的氨基酸殘基,但分子間整體上的序列和結構卻不具有相似性。指不同祖先經趨同進化而形成相似功能或結構。2/5/202324三生物信息學重要性認識生物本質了解生物分子信息的組織和結構,破譯基因組信息,闡明生物信息之間的關系。改變生物學的研究方式改變傳統研究方式,引進現代信息學方法在醫學上的重要意義為疾病的診斷和治療提供依據為設計新藥提供依據2/5/202325四生物信息學研究內容生物信息學的研究內容是伴隨著基因組研究而發展的。廣義地說,生物信息學從事對基因組研究相關生物信息的獲取、加工、存儲、分配、分析和解釋。這個定義的含義是雙重的:一是對海量數據的收集、整理與服務,即管理好這些數據;二是從中發現新的規律,也就是使用好這些數據。2/5/202326獲取人和各種生物的完整基因組發現新基因和新的單核苷酸多態性(1)基因的電腦克隆(2)從基因組DNA序列中預測新基因(3)發現單核苷酸多態(SNP)基因組中非編碼區信息結構分析在基因組水平研究生物進化完整基因組的比較研究功能基因組研究生物大分子結構模擬與藥物設計生物信息學的發展與應用研究2/5/202327獲取人和各種生物的完整基因組基因組研究的首要目標是獲得人的整套遺傳密碼。隨著科學技術的飛速發展,科學家于1985年提出了旨在闡明人類46條染色體上30億個脫氧核苷酸的排列順序,這就是規模空前的人類基因組計劃(HGP),已于1990年啟動,至今已取得巨大成就,使人類第一次在分子水平上全面認識自我。2/5/2023282000年6月26日,是人類科學史上值得紀念的日子。由美、英、法、德、日、中等6國合作,公眾支持的國際人類基因組計劃協作組織在全球同一時間聯合宣布:人類生命藍圖—人類基因組“工作框架圖”已經完成。這是人類基因組計劃取得的重大成果,也是自然科學史上最重要的里程碑。2/5/2023292/5/202330自1995年科學家破譯了全長為180萬核苷酸的流感嗜血桿菌基因組。目前已完成完整基因組測序生物,有:小鼠、酵母、線蟲、果蠅、擬南芥、水稻、馬、短尾負鼠、貓、伊蚊、葡萄、恒河猴、海鞘、蜜蜂、白蟻、牛、衣藻、狗、雞……2/5/2023312/5/2023322/5/202333海鞘(cionaintestinalis)是人類的一種無脊椎近親,它們的心臟、神經系統就像是人類的簡化版。2/5/202334發現新基因和新的單核苷酸多態性發現新基因是當前國際上基因組研究的熱點,使用生物信息學的方法是發現新基因的重要手段。2/5/202335卷舌V形發際線大拇指彎曲長睫毛我們身體中常見的單基因控制的性狀2/5/202336基因組中非編碼區信息結構分析近年來的研究表明,在細菌這樣的微生物中,非編碼蛋白質的區域只占整個基因組序列的10%到20%。隨著生物的進化,非編碼區越來越多,在高等生物和人的基因組中非編碼序列已占到基因組序列的絕大部分。這表明:這些非編碼序列必定具有重要的生物功能。普遍的認識是它們與基因的表達調控有關。2/5/202337完整基因組的比較研究研究發現:全部基因可以按照功能和系統發生分為若干類,其中包括與復制、轉錄、翻譯、分子伴侶、能量產生、離子轉運、各種代謝相關的基因。這一工作也為蛋白質分類提供了新的途徑。同時,科學家們通過幾個完整基因組的比較,統計出維持生命活動所需要的最少基因的個數為265~350個左右。研究表明在同一生物中,某些核糖體蛋白排列順序的差異能反映出物種間的親緣關系,親緣關系越近,基因排列順序越接近。這樣就可以通過比較基因的排列順序來研究物種間的系統發育關系。2/5/202338功能基因組研究在不同的組織中表達基因的數目差別是很大的,同一組織在不同的個體生長發育階段,表達基因的種類、數量也是不同的。因此我們不僅需要了解基因的序列,還要了解基因的功能,也就是要了解在不同的時間、不同的組織中基因的表達譜。這就是通常所說的功能基因組研究。2/5/202339生物大分子結構模擬與藥物設計包括RNA(核糖核酸)的結構模擬和反義RNA的分子設計;蛋白質空間結構模擬和分子設計;具有不同功能域的復合蛋白質以及連接肽的設計;生物活性分子的電子結構計算和設計;納米生物材料的模擬與設計;基于酶和功能蛋白質結構、細胞表面受體結構的藥物設計;基于DNA結構的藥物設計等。2/5/2023402/5/202341發現探索研究充分研究注冊大量候選藥物的合成項目組與計劃化合物合成早期案例性研究候選化合物制劑開發動物安全性研究篩選健康志愿者研究I期候選藥物測試300-10,000患者(III期)100-300患者研究(II期)臨床數據分析2/5/202342生物信息學的發展與應用研究發展有效的軟件、數據庫以及若干數據庫工具,諸如電子網絡等遠程通訊工具;改進現有的理論分析方法,如統計方法、模式識別方法、隱馬爾科夫過程方法、分維方法、神經網絡方法、復雜性分析方法、密碼學方法、多序列比較方法等;創建一切適用于基因組信息分析的新方法、新技術。包括引入復雜系統分析技術、信息系統分析技術等;建立嚴格的多序列比較方法;發展研究基因組完整信息結構和信息網絡的研究方法等;發展生物大分子空間結構模擬和藥物設計的新方法與新技術。2/5/202343五國外發展現狀各國政府和業界對生物信息學的發展極為重視,投入了大量資金。歐美各國及日本相繼成立了生物信息中心,如美國的國家生物技術信息中心(NCBI)、歐洲生物信息學研究所(EBI)、日本國家遺傳學研究所(NIG)等。NCBI、EBI和NIG相互合作,共同維護著GenBank、EMBL、DDBJ三大基因序列數據庫。它們每天通過計算機網絡互相交換數據,使得三個數據庫能同時獲得最新數據。此外,他們每年召開年會討論合作事宜。2/5/202344國際著名生物信息中心
BioinformaticsCentresNCBI NationalCenterforBiotechnologyInformation(US)
EBI EuropeanBioinformaticsInstitute(EU)NIG NationalInstituteofGenetics(Japan)HGMP HumanGenomeMappingProjectResourceCentre(UK)SIBSwissInstituteofBioinformatics(Switzerland)CMBI CentreofMolecularandBiomolecule(Netherlands)ANGIS NationalGenomeInformationService(Australia)
BIC NationalBioinformaticsCentre(Singapore)2/5/2023452/5/2023462/5/2023472/5/202348美國核酸數據庫GenBank從1979年開始建設,1982年正式運行(NCBI);歐洲分子生物學實驗室的EMBL數據庫也于1982年開始服務(EBI);日本于1984年開始建立國家級的核酸數據庫DDBJ,并于1987年正式服務(NIG)。2/5/202349近年來GenBank中的DNA堿基數目呈指數增加,大約每14個月增加一倍。到1999年12月其數目已達30億,它們來自47000種生物。2000年4月DNA堿基數目是60億。現在,2001年初這一數目已達110億。各種生物的EST序列已達600多萬條,其中人類的EST序列已超過300萬條,估計覆蓋人類基因90%以上;2/5/202350分子生物學和遺傳學的文獻積累從60年代中期的接近10萬篇迅速增長至60年代末期的20多萬篇,即在3-4年間,翻了一番。此后,至80年代中期,上升至約30萬篇,即平均每年增長6-7千篇。至90年代中,文獻數已上升至40多萬篇;即在10年中,平均每年增長1萬篇。到2000年,則增長至約50萬篇,即在約5年間,又增長了10萬篇。2/5/202351DNA數據的增長幅度:2004年已有相當于16個人類基因組的完成序列2/5/202352六國內發展現狀在我國,生物信息學隨著人類基因組研究的展開才起步較遲,但已顯露出蓬勃發展的勢頭。北京大學于1997年3月成立了生物信息學中心,中科院上海生命科學研究院也于2000年3月成立了生物信息學中心。我國首家自主開發的核酸(DNA)序列公共數據庫(BiosinoDatabase)于2001年7月3日上午9時正式上網試運行,并同時開始接受我國核酸序列的注冊登記。2/5/202353炎黃計劃“炎黃計劃”是以保護、開發和利用中華民族群體遺傳資源為目的的長程基因組學研究,主要研究人類基因變異、代謝平衡與健康的關系。中科院基因組學研究所將通過實施該計劃,不斷對中國的群體遺傳學資源加以開發,制作具有更高分辯率的中華民族群體基因組單倍體圖(HapMap),定位并普查可能影響人類健康的基因變異,所涉及的疾病主要有傳染病、糖尿病、肥胖、心腦血管病、癌癥、老年性癡呆和其它慢性疾病。2/5/202354計劃的預期成果建立東亞人種特異性的高密度、高分辨醫學遺傳圖譜;利用醫學遺傳圖譜,建立包括可用于篩查疾病相關基因的分子標記集,大規模篩查中國(東亞)人群特異性疾病。2/5/202355神農計劃以保護和開發中醫中藥相關生物資源并促進中醫藥科學現代化的基因組研究計劃。它以傳統醫學和藥學現代化為目的,從事以基因組研究為出發點的藥用生物資源開發與應用研究,聚焦于有明確臨床效果的中草藥的分子標記,次生代謝物催化酶基因和有機化合物(如次級代謝產物)的開發利用。與“炎黃計劃”的科學目標相結合,立足于防治常見疾病和傳染性疾病。2/5/202356計劃的預期成果測定若干中草藥的基因組序列(如冬蟲夏草、丹參、黃芪、柴胡等)和分子標記物建立中草藥數據和資源庫分離和鑒定關鍵催化酶(藥用動植物基因庫)開發基于中草藥的防病健康調節劑和治病藥物。2/5/202357軒轅計劃是以生物資源開發與生態資源保護為目的,科學強國和科學健民的基因組學研究計劃。該計劃以農業現代化、振興經濟和保護環境為基本內涵,以經濟動植物、農作物、生態物種和生物能源為研究對象的基因組學研究計劃。2/5/202358計劃的預期成果在這一計劃的框架下,BGI已經階段性地完成了水稻基因組基因圖譜、家蠶基因組“工作框架圖”、繼續“豬基因組計劃”和“雞基因組多態性計劃”等農作物和家養動物的基因組計劃。該計劃將在資金允許的情況下在5年內測定大豆、馬鈴薯等重要經濟作物的基因組,初步揭示雜交優勢、雜種
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 臨時雇傭房屋合同范例
- 公章使用合同樣本
- 交學費合同標準文本
- 生態教育在幼兒園的課程設計計劃
- 建立高效的財務團隊協作機制計劃
- 農村光伏合同標準文本
- 企業所有合同樣本
- ktv采購合同樣本
- 冰柜鋪貨合同樣本
- 個人正規居間合同范例
- 醫院培訓課件:《電擊除顫-電復律》
- 2025年司法鑒定科學研究院事業編制招聘14人歷年高頻重點提升(共500題)附帶答案詳解
- 《阿爾茨海默病康復》課件
- DB37T 5118-2018 市政工程資料管理標準
- 2025年大連海事大學自主招生個人陳述自薦信范文
- 駕駛員春季行車安全
- 北京理工大學《操作系統課程設計》2021-2022學年第一學期期末試卷
- 林木砍伐施工方案
- 精神病學第九版
- 《中華人民共和國藥品管理法實施條例》
- 中興公司應收賬款管理問題及優化建議8400字
評論
0/150
提交評論