




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
生物信息與數據處理生物信息學的定義生物信息學的產生生物信息學的科學基礎生物信息學的研究內容生物信息學研究的特點生物信息學的研究現狀與發展趨勢第一節緒論一生物信息學的定義
生物信息學(bioinformatics):
包含生物信息的獲取、處理、貯存、分發、分析和解釋的所有方面的一門學科,它綜合運用數學、計算機科學和生物學的各種工具進行研究,目的在于了解大量的生物學意義。是把基因組DNA序列信息分析作為源頭,找到基因組序列中代表蛋白質和RNA基因的編碼區,闡明非編碼區的信息實質,破譯隱藏在DNA序列中的遺傳語文規律001110000111000001110000011000100101010100101010101010101001010101010010100111000011100000111000001100010101010101001010101010101010010101010100101001110000111000001110000011000101010101010010101010101010100101010101001010011100001110000011100000110001010101010100101010101010101001010101010010100111000011100000111000011000101011000011100000111000001100010101010101001010101010101010001010101010100101010101010001010101010100101010101010101001010101010010100111000011100000111000011000101011000011100000111000001100010101010101001010101010101011100101100101010101010101010101
二生物信息學的產生分子生物學和遺傳學的文獻積累:
60年代中期近10萬篇60年代末期20多萬篇
2000年約50萬篇
2007年140萬條
2010年1900萬條
2013年2300萬條快速增長的生物學數據GenBankDataYearBasePairsSequences1982680,33860619855,204,4205,700198823,800,0000,579199171,947,42655,6271994217,102,462215,27319971,160,300,6871,765,847200011,101,066,28810,106,023200115,849,921,43814,976,310200228,507,990,16622,318,883200336,553,368,48530,968,418200444,575,745,17640,604,31920055603773446252016762From1982tothepresent,thenumberofbasesinGenBankhasdoubledapproximatelyevery18months.
主題材料內在的多樣性和復雜性它們來自47,000種生物全基因組序列:2000多個生物單核苷酸多態性(singlenucleotidepolymorphism,SNP):
100物種,1500萬個生物學的社會性
2生物學數據的復雜性SNP(SingleNucleotidePolymorphism)1/1000sequencevariationsbetweenanytwoindividuals人基因組有
atleast3millionsofSNPsDNARepairCellCycleArrestUbiquitinProteasomePathwayApoptosisMulti-pathwaynetwork三生物信息學的科學基礎數據獲得:自動化的大規模高通量的生物學研究方法和技術平臺;數據分析:強有力的創新算法和軟件(千萬億次/秒);數據庫系統:發達的、復雜的、可相互交流的數據庫系統。DNA測序技術的發展ABI377每天100*500=5萬bp
ABI3730每2小時100*500=0.5Mb
Solexa
每周5GbpSolid每周200Gbp四生物信息學的研究內容基因組的靜態結構分析:主要包括序列、結構特征的分析,如結構基因組學、比較基因組學等等;基因組的動態功能分析:包括功能基因組學、表達基因組學、蛋白質組學、代謝分析等。1比較新分離的基因或核苷酸片段與已知基因的同源性2分子遺傳學研究領域:預測基因結構,推導出相應的蛋白質序列;確定內含子和外顯子的分界點;預測新基因可能的生化功能;
最重要的新進展是:利用序列數據分析,對生物模型進行大規模的基因組序列比較、分析以及鑒定候選的疾病基因。3促進藥物的發現和開發過程,尋找和開發以基因為基礎的藥物,通過篩選作用靶和候選對象來開發藥物、疫苗、診斷標識物和有治療作用的蛋白質;4比較不同種屬的基因組的異同;5描述所有生物共有的保守蛋白質;6在生物學軌道上安排基因,新生命的誕生(合成生物學)。五生物信息學研究的特點1發展迅速,信息量與日俱增,如:1979年測定一個堿基需要80~130美元,1998年降低為1美元,2007年1kb為<1美元,
2010年1Mb為1美元2生物信息學的發展尚處于原始積累階段
3以基因組的結構為基礎,以蛋白質的結構為中介,以找到致病基因和相應的藥物開發為目的和動力;4當前的重點是各種軟件的開發,是21世紀的新興產業;5生物信息學的發展離不開Internet。其中GenBank是最常用的站點;6生物信息學是生物學發展的較高階段和必經之路,代表了它的方向;7生物信息學的工具有:數據庫、搜索引擎、序列對比和分析工具;8根據使用者的多少,數據庫可以分成三類,即單個實驗室/用戶數據庫、聯合實驗室支持數據庫和公用數據庫。六生物信息學的研究現狀與展望完整基因組序列的不斷增加:
是生物信息學的源頭和基礎實現分析過程的自動化:對各種基因進行定位并對編碼區進行翻譯,從而獲得基因的蛋白質產物;通過相似性搜索而建立與已知序列的關聯;通過進化關系上的推測來判斷基因的功能;使用已知的或者模型衍生的蛋白質結構推斷基因產物的功能。第二節生物信息學的基本知識基因組學蛋白組學常用名詞分子生物學工具一基因組學基因組學(Genomics):“基因組學”一詞是1986年ThomasRoderrick首創,用以描述有關基因組的作圖、測序和分析這一學科領域,同時也是為一份新的期刊“基因組學”命名,是研究生物基因組和如何利用基因的一門學問。基因組學包括:在分子遺傳學實驗室進行的DNA測序;由基因組信息學而衍生的生物信息學。基因組研究人類基因組研究計劃1986年,著名的生物學家、諾貝爾獲得者RenatoDulbecco在Science上首次提出“人類基因組計劃”(HumangenomicProject,簡稱HGP);“人類基因組計劃”于1990年10月正式啟動;人類基因組計劃的總目標是:從1990年計劃實施開始,在15年內完成人類基因組的24條染色體上核苷酸排列的全測序(各條染色體DNA全部核苷酸排列順序總計3×109堿基對)和基因的作圖(遺傳圖和物理圖)。我國科學家成功破譯人類3號染色體部份遺傳密碼“BeijingMap(2)”---AnCompleteSequenceMap(Aug.2001)“We,theHeadsofStatesoftheUnitedStatesofAmerica,theUnitedKingdom,Japan,France,Ger-manyandChina,areproudtoannouncethatscientistsfromthesesixcountrieshavecompletedtheessentialsequencesof3billionbasepairsofDNAofthehumangenome…”
-JointProclamationonHGP14April,2003
我們,美國、英國、日本、法國、德國與中國的政府首腦,驕傲地向全世界宣告:我們六國的科學家已完成了人類生命的分子指南——
由30億個堿基對組成的人類基因組DNA的關鍵序列圖。
“人類基因組聯合宣言”二蛋白質組學蛋白質組(proteome):
“蛋白質組”一詞是澳大利亞Macquarie大學的Wilkins和Williams在1994年首次提出,指基因組表達的全部蛋白質及其存在方式。蛋白質組學(proteomics):旨在闡明生物體全部蛋白質的表達模式及功能模式,其內容包括鑒定蛋白質的表達、存在方式(修飾形式)、結構、功能和相互作用等。蛋白質組:基因組的整套蛋白質
蛋白質組學:
蛋白水平的功能基因組學;研究某細胞生命過程蛋白表達、蛋白結構、功能、數量和相互作用三常用名詞1基因組(genome):生物單倍體染色體的總和(22條常染色體+X,Y,線粒體)。2基因基因(gene):現代遺傳學認為,基因是DNA分子上具有遺傳效應的特定核苷酸序列的總稱。是否一個可遺傳的單位(基因)就對應于一個可觀察到的表型?編碼一個蛋白質或多個蛋白質的遺傳信息?基因就是編碼RNA的DNA?如果基因沒有得到表達是否還能算是基因?而僅有40%的含有內含子/外顯子結構的基因得到了正確的預測,不同的方法不能發現的基因的比例在5%~95%之間不等,不正確識別率達55%。基因預測方法脆弱性的最適合的證據也許正是數目的不確定性。
3同源性和相似性同源性(homology):如果一些序列來自一個共同的祖先的趨異,它們就是同源的。相似性(analogy):
是來自不同祖先而通過趨同進化(convergentevolution)形成的共同結構或功能特征。如可溶性絲氨酸蛋白酶和整合膜孔蛋白都有一些桶狀結構,有共同的空間構架,但沒有序列和功能的相似性。直向同源物(orthologs):在不同物種中執行同樣功能的那些蛋白質如不同細菌中形成鞭毛的基因橫向同源物(paralogs):在同一個體內執行不同但是相關功能的蛋白質。如乳酸同功酶基因4結構域和模塊蛋白質的結構域(domain)和/或模塊(module)的性質:模塊是那些經常起到蛋白質構件塊功能的自動折疊結構單位(結構域),可以形成同一種模塊的多種組合或者不同種模塊的鑲嵌體(mosaic),通過使用模塊來產生不同的功能。
如果一項數據庫檢索的最佳命中物是一個單個結構域或者模塊的匹配物的話,那么為查詢序列作出功能注釋是不大可能的。ASPARTYLGLUCOSAMINIDASE(AGA)α-subunits:Lightred/lightblueβ-subunits:Red/blue5啟動子序列啟動子(promotor):基因起點的約為13個核苷酸長度的特定核苷酸序列(1個核苷酸是轉錄起始位點,6個核苷酸位于距起始位點上游10個堿基處,另6個核苷酸位于起始位點上游35個堿基處)。這些核苷酸作為一個整體,稱為啟動子序列(promotersequences)RNA聚合酶+轉錄因子
+啟動子序列結合上目標DNA
起始轉錄6遺傳密碼密碼子在動物(包括人類)、植物、真菌、古細菌、細菌和病毒都具有普遍性,但在線粒體和某些微生物中密碼子存在一些小的改變。例如,在一些細菌的基因中,通常的終止密碼子UGA編碼自然界中發現的第21種氨基酸,即硒代半胱氨酸。在絕大多數生物中作為終止密碼子UAG在一些細菌和真核生物中編碼在自然界中發現的第22種氨基酸,即吡咯賴氨酸。密碼子的簡并性(degeneracy):20種氨基酸中18個具有多個密碼子這種特性稱之。7開放閱讀框密碼子AUG既可用來編碼甲硫氨酸,又可用來標記原核生物和真核生物中RNA分子中準確的翻譯起始位置。大多數基因編碼的蛋白質長度為幾百個氨基酸。在隨機產生的序列中終止密碼子發生率為1/21(64個密碼子中的3個),多數基因的RNA拷貝的閱讀框具有長的密碼子串,在這個串中沒有終止密碼子。這一長串未被終止密碼子打斷的密碼子串被稱做開放閱讀框(openreadingfram,ORF)。大多數真核內含子遵照“GT-AG規則”,即所有內含子DNA序列的頭兩個核苷酸是GT,而結尾兩個核苷酸是AG。ORF預測四分子生物學工具1限制性核酸內切酶消化
限制性核酸內切酶(restrictionenzyme):
Smith等在研究細菌抵御病毒侵染的過程中,發現細菌產生一種特定的酶,一旦這種酶遇到特定的核苷酸片段,就將其雙鏈打斷。
EcoRI命名原則:
Eco說明其來源--它是從E.coli中分離得到的;
R表示限制性酶--切位點具有限制性;I表示該酶是第一個在E.coli中發現的限制性酶。
限制位點:一旦EcoRI遇到序列5‘-GAATTC-3’,則在G和A之間將DNA分子剪斷EcoRI的酶切反應酶切末端:具有配對潛能的末端叫粘性末端(stickyend)不產生粘性末端的限制性酶將產生平末端(bluntend)限制性位點的機率:出現機率為(1/4)n,n為酶識別堿基的長度。
EcoRI識別6個堿基GAATTC,在DNA序列中的出現幾率(1/4)6=4096,即平均4096個堿基對產生一個限制性位點;
HinfI識別位點4個堿基GATC,平均每256個堿基對產生一個位點;
Not1識別位點較長(識別位點為GCGGCCGC,平均65536個堿基對產生一個識別位點。2凝膠電泳多孔凝膠通常由瓊脂糖或丙烯酰胺制成。瓊脂糖:凝膠孔大,分離大小差別大的核酸片段丙烯酰胺:凝膠孔小,分離差別1bp的核酸片段當在凝膠加上電場時,帶電荷分子自然向產生電場的兩極之一移動。小分子比大分子更容易通過凝膠,因而可以根據分子大小而分離。因為小分子移動速率更快,因此大分子比小分子離加樣孔更近。凝膠電泳3印跡和雜交印跡(blot):將多核苷酸從脆弱的分離膠中轉移到更為結實的支持物如硝酸纖維素膜或尼龍膜上。先使膜與膠接觸,然后通過毛細作用將膠中的DNA牽拉到膜上。再用紫外光照射或僅用簡單的火烤,就可永久將DNA片段結合在膜上。探針(probe):經過標記的單鏈DNA片段被稱為探針(probe)。雜交(hybridization):探針與轉移到膜上的核苷酸配對結合。
探針的長度通常為20多個核苷酸,它們是能與膜上的目的DNA片段惟一互補的序列。許多方法可用來標記探針,從放射性標記到熒光標記,甚至催化特定反應的酶都可用來標記探針。基于膜雜交系統的改進技術是微陣列(microarray)或DNA芯片技術。blottingLabeledTargetHybridizedArrayDetectionReagentsDNAMicroarrayMicroarrayHybridization4
克隆克隆(cloni
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 簡歷制作培訓
- 秩序部安全培訓
- 2024年七月份預售資金監管賬戶按揭放款條件
- 電動隧道施工方案
- 5G技術對電視媒體影響-全面剖析
- 玩具安全性標準與消費者信任度研究-全面剖析
- 基于深度學習的海洋表面重力波預測模型-全面剖析
- 海洋生物遺傳育種-全面剖析
- 技術賦能教育創新-全面剖析
- 用戶粘性提升策略-全面剖析
- (完整版)獸醫臨床診斷學
- 超星爾雅學習通《社會主義發展史》2024章節測試答案
- 2024CSCO腫瘤相關性貧血臨床實踐指南解讀
- DZ∕T 0213-2020 礦產地質勘查規范 石灰巖、水泥配料類(正式版)
- MOOC 跨文化交際通識通論-揚州大學 中國大學慕課答案
- 廈門醫學院輔導員考試試題2024
- 2024年企業所得稅匯算清繳-淺析企業所得稅匯算清繳
- 街道環境綜合整治服務投標方案技術標
- 腹腔鏡胃癌根治術護理教學查房
- 在職攻讀碩士博士學位研究生審批表
- 人教版高二語文下冊《雷雨》原文
評論
0/150
提交評論