生物信息學概論_第1頁
生物信息學概論_第2頁
生物信息學概論_第3頁
生物信息學概論_第4頁
生物信息學概論_第5頁
已閱讀5頁,還剩60頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

生物信息學概論

王燕生命科學與技術學院華中科技大學IntroductiontoBioinformatics參考書目:1.J.Pevsner著(孫之榮等譯).生物信息學與功能基因

組學.化學工業出版社,2006.2.D.R.Westheadetal.Bioinformatics.

科學出版社(影印本),20033.蔣彥等基礎生物信息學及應用清華大學出版社

4.陶士珩生物信息學科學出版社

第一章:緒論第一節引言第二節生物信息學及其發展歷史第三節生物信息學主要研究內容第四節生物信息學的研究意義和展望第一節

從人類基因組計劃(HGP)說起曼哈頓原子彈計劃阿波羅登月計劃人類基因組計劃20世紀人類三大科學計劃

40年代美國陸軍60年代美國宇航局人類基因組計劃(humangenomeproject,HGP)是由美國科學家于1985年率先提出,于1990年正式啟動的。美國、英國、法蘭西共和國、德意志聯邦共和國、日本和我國科學家共同參與了這一價值達30億美元的人類基因組計劃。。

生命活動三要素:物質、能量、信息

DNA:

遺傳物質(遺傳信息的載體)

雙螺旋結構

A,C,G,T四種基本字符的復雜文本

基因(Gene):具有遺傳效應的DNA分子片段DNA、基因、基因組

基因組(Genome):包含細胞或生物體全套的遺傳信息的全部遺傳物質。人類基因組:

3.2×109bpHGP的目的是解碼生命、了解生命的起源、了解生命體生長發育的規律、認識種屬之間和個體之間存在差異的起因、認識疾病產生的機制以及長壽與衰老等生命現象、為疾病的診治提供科學依據。HGP的意義

染色體的DNA分子中含有四種核苷酸,核苷酸排列順序的不同決定了遺傳信息的差異。人的生、老、病、死歸根結底都與基因和染色體相關。人體基因組圖譜好比是一張能說明構成每一個人體細胞脫氧核糖核酸(DNA)的30億個堿基對精確排列的“地圖”。這些堿基對以一種特殊方式排列形成人體的10萬個基因,基因又成為制造蛋白和化合物的藍圖,蛋白和化合物則負責指導人體細胞和器官的形成和運作。從理論上講,如果掌握了所有基因上核苷酸分布的詳細情況,關于人類生長、發育、衰老、遺傳病變的秘密都將隨之揭開,科學家將擁有新的“武器”來征服癌癥、艾滋病、肝炎、肺結核和阿爾茨海默氏癥等。HGP的歷史回顧1984.12猶他州阿爾塔組織會議,初步研討測定人類整個基因組DNA序列的意義1985Dulbecco在《Science》撰文“腫瘤研究的轉折點:人類基因組的測序”美國能源部(DOE)提出“人類基因組計劃”草案1987

美國能源部和國家衛生研究院(NIH)聯合為“人類基因組計劃”下撥啟動經費約550萬美元1989

美國成立“國家人類基因組研究中心”,Watson擔第一任主任1990.10

經任美國國會批準,人類基因組計劃正式啟動第一個自由生物體流感嗜血菌(H.inf)的全基因組測序完成1996完成人類基因組計劃的遺傳作圖啟動模式生物基因組計劃H.inf全基因組Saccharomycescerevisiae釀酒酵母Caenorhabditiselegans秀麗線蟲1997大腸桿菌(E.coli)全基因組測序完成1998完成人類基因組計劃的物理作圖開始人類基因組的大規模測序

Celera公司加入,與公共領域競爭啟動水稻基因組計劃1999.7第5屆國際公共領域人類基因組測序會議,加快測序速度大腸桿菌及其全基因組水稻基因組計劃2001年2月15日《Nature》封面2001年2月16日《Science》封面1999.7

第5屆國際公共領域人類基因組測序會議,加快測序速度2000Celera公司宣布完成果蠅基因組測序國際公共領域宣布完成第一個植物基因組——擬南芥全基因組的測序工作2000.6.26

公共領域和Celera公司同時宣布完成人類基因組工作草圖2001.2.15《Nature》刊文發表國際公共領域結果2001.2.16《Science》刊文發表Celera公司及其合作者結果Drosophilamelanogaster果蠅Arabidopsisthaliana擬南芥基因組測序計劃

海量DNA序列數據DNA序列是生命的真諦,這個世界上發生的一切事情都與這一序列息息相關。人類基因組計劃(HGP)結果:2003年完成精細圖,產生30億多個數據(堿基)AGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATAACGT相當于2800多本每本1000頁每頁1000字的“天書”DNA序列數據增長趨勢各種分子生物學數據庫及其增長情況生物數據爆炸性增長:生物數據量的積累已達到人類有史以來所說過的話的數百倍,而且還將以越來越快的速度增長。2023/10/1320

生物信息學的產生誕生HGP生物數據的激增(每15個月翻一番)生物學家數學家計算機科學家生物信息學(bioinfomatics)的誕生2023/10/1321概念(廣義)生物體系和過程中信息的存貯、傳遞和表達細胞、組織、器官的生理、病理、藥理過程的中各種生物信息信息科學生命科學中的信息科學

廣義應用信息科學的方法和技術,研究生物體系和生物過程中信息的存貯、信息的內涵和信息的傳遞,研究和分析生物體細胞、組織、器官的生理、病理、藥理過程中的各種生物信息,或者也可以說成是生命科學中的信息科學。概念(狹義)生物分子數據深層次生物學知識分子生物信息學MolecularBioinformatics挖掘獲取生物分子信息的獲取、存貯、分析和利用總結:生物信息學生物信息學(Bioinformatics)是一門新興的交叉學科,是生命科學領域中的新興學科,面對人類基因組計劃等各種項目所產生的龐大的分子生物學信息,生物信息學的重要性將越來越突出,它將會為生命科學的研究帶來革命性的變革。生物信息學是在生命科學的研究中,以計算機為工具對生物信息進行儲存、檢索和分析的科學。生物信息學是當今生命科學和自然科學的重大前沿領域之一,同時也將是21世紀自然科學的核心領域之一,其研究重點主要體現在基因組學(Genomics)和蛋白組學(Proteomics)。林華安博士:CompBio,bioinforma-tique,bio-informatics,bioinformatics“生物信息學之父”第二節

生物信息學發展簡史20世紀50年代,生物信息學開始孕育20世紀60年代,生物分子信息在概念上將計算生物學和計算機科學聯系起來20世紀70年代,生物信息學的真正開端20世紀70年代到80年代初期,出現了一系列著名的序列比較方法和生物信息分析方法20世紀80年代以后,出現一批生物信息服務機構和生物信息數據庫20世紀90年代后,HGP促進生物信息學的迅速發展國際著名的生物信息中心NCBI NationalCenterforBiotechnologyInformation(US)

EBI EuropeanBioinformaticsInstitute(EU)

HGMP HumanGenomeMappingProjectResourceCentre(UK)ExPASyExpertofProteinAnalysisSystem(Switzerland)CMBI CentreofMolecularandBiomolecule(TheNetherlands)ANGIS NationalGenomeInformationService(Australia)NIG NationalInstituteofGenetics(Japan)BIC NationalBioinformaticsCentre(Singapore)國內部分生物信息學和生物醫學信息服務器北京大學生物信息中心安裝了70多個數據庫,提供200多種軟件下載建立了14個國外著名生物信息中心鏡象提供了數據庫和文獻查詢、搜索構建了中華民族基因多樣性等專用數據庫集成和開發了基于Web的生物信息軟件工具開展了分子模擬、序列分析等應用研究舉辦了國際國內培訓班、講習班、討論會九十年代以來,生物數據分析技術獲得了突飛猛進的發展。生物信息專業期刊越來越多:如

Bioinformatics

JournalofComputationalBiology

BriefingsinBioinformatics

BMCBioinformatics

BioInformaticsTechnology&Systems

BioinformNewsletter互聯網上的生物信息學網點非常繁多生物信息學國內外發展現狀

PubMed中與生物信息學相關論文統計

90002%第三節

生物信息學主要研究內容1、生物分子數據的收集與管理2、數據庫搜索及序列比較3、基因組序列分析4、基因表達數據的分析與處理5、蛋白質結構預測6、生物信息學的應用分子生物學數據庫

種類核酸序列數據庫蛋白質序列數據庫生物大分子數據庫特點數量:>1000個通常可通過WEB進入大小:<10Kb~>10Gb更新頻率:每天~每年

基因組數據庫

蛋白質序列數據庫

蛋白質結構數據庫

DDBJEMBLGenBankSWISS-PROTPDBPIR核酸序列數據庫蛋白質序列數據庫提供(1)蛋白質序列(2)蛋白質的分類、蛋白質的來源;(3)關于原始數據的參考文獻;(4)蛋白質功能和蛋白質的一般特征,包括基因 表達、翻譯后處理、活化等;(5)序列中相關的位點、功能區域生物大分子結構數據庫其它生物分子數據庫2、數據庫搜索及序列比較搜索同源序列在一定程度上就是通過序列比較尋找相似序列序列比較的一個基本操作就是比對(Alignment),即將兩個序列的各個字符(代表核苷酸或者氨基酸殘基)按照對應等同或者置換關系進行對比排列,其結果是兩個序列共有的排列順序,這是序列相似程度的一種定性描述多重序列比對研究的是多個序列的共性。序列的多重比對可用來搜索基因組序列的功能區域,也可用于研究一組蛋白質之間的進化關系。發現同源分子3、基因組序列分析

基因識別基因功能注釋基因調控信息分析基因組比較基因識別

基因識別(geneidentification)是HGP的重要內容之一,其目的是識別全部人類的基因。基因識別包括:識別基因組編碼區識別基因結構基因識別目前常采用的有二種方法:從基因組序列中識別那些轉錄表達的DNA片段從cDNA文庫中挑取并克隆。基因組比較各種生物完整基因組數據的增多使我們能夠基于一個整體的思路出發,對不同生物的全基因組進行比較分析,發現基因組之間的差異,揭示期間蘊含的遺傳奧秘,從而使我們能從遺傳本質上合理解釋若干重大生物問題。生命是如何起源的?生命是如何進化的?遺傳密碼是如何起源的?估計最小獨立生活的生物最少需要多少個基因?4、基因表達數據的分析與處理基因表達數據分析是目前生物信息學研究的熱點和重點目前對基因表達數據的處理主要是進行聚類分析,將表達模式相似的基因聚為一類,在此基礎上尋找相關基因,分析基因的功能所用方法主要有:相關分析方法模式識別技術中的層次式聚類方法人工智能中的自組織映射神經網絡主元分析方法層次式聚類5、蛋白質結構預測

蛋白質的生物功能由蛋白質的結構所決定,蛋白質結構預測成為了解蛋白質功能的重要途徑。蛋白質結構預測分為:二級結構預測空間結構預測蛋白質折疊二級結構預測在一定程度上二級結構的預測可以歸結為模式識別問題

在二級結構預測方面主要方法有:立體化學方法圖論方法統計方法最鄰近決策方法基于規則的專家系統方法分子動力學方法人工神經網絡方法預測準確率超過70%的第一個軟件是基于神經網絡的PHD系統空間結構預測在空間結構預測方面,比較成功的理論方法是同源模型法該方法的依據是:相似序列的蛋白質傾向于折疊成相似的三維空間結構運用同源模型方法可以完成所有蛋白質10-30%的空間結構預測工作

生物信息學與新藥研制未來的藥物研究過程將是基于生物信息知識挖掘的過程數據處理和關聯分析發現藥物作用對象確定靶目標分子針對靶目標進行合理的藥物設計基于生物信息學的新藥設計生物信息學與疾病檢測基因組計劃產生的基因及基因多態性數據與臨床醫學檢驗結果之間的關系需要利用生物信息學的方法去分析、去揭示根據這樣的分析結果,科學家能夠更準確地了解疾病產生的根本原因,更精確地預測某個人患癌癥、糖尿病或者心臟病的可能性,從而徹底改變我們診斷、治療和預防疾病的方式Nature408307(2000)生物信息學研究的意義科學意義:可望從海量生物學數據分析中獲得對生命運行機制和疾病機理等等的深入理解。IsaacNewton牛頓JohannesKepler開普勒TychoBrahe第谷第一次科學浪潮天象觀測

大量數據

行星運動定律

萬有引力定律

航空航天技術元素與大量化合物

元素周期表

現代化學化工第二次科學浪潮DmitriMendeleev門捷列夫大量原子光譜數據

量子論

量子力學

信息技術MaxKarlErnstLudwigPlanck普朗克AlbertEinstein愛因斯坦NielsBohr玻爾ErwinSchr?dinger

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論