




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第四節數據庫與數據檢索一、重要生物信息中心簡介1.分子生物信息數據庫發展簡史2.分子生物信息數據庫分類3.核酸序列數據庫4.蛋白質序列數據庫5.疾病相關基因數據庫1.分子生物信息數據庫發展簡史60年代初,Dr.MargaretOakleyDayhoff和她的同事們收集了所有當時已知的氨基酸序列,發表了《蛋白質序列及結構圖譜》,建立了第一個生物信息數據庫--這一蛋白質數據庫后來成為蛋白質信息資源PIR。Dr.MargaretOakleyDayhoff(1925-1983)wasapioneerintheuseofcomputersinchemistryandbiology,beginningwithherPhDthesisprojectin1948.
Herworkwasmulti-disciplinary,andusedherknowledgeofchemistry,mathematics,biologyandcomputersciencetodevelopanentirelynewfield.
SheiscreditedtodayasafounderofthefieldofBioinformatics.
Thisfieldisdefinedastheuseofcomputersinsolvinginformationproblemsinthelifesciences,mainlyinvolvingthecreationofextensiveelectronicdatabasesonproteinsequencesandgenomes.
1982年,第一個DNA序列數據庫在歐洲分子生物學實驗室(EMBL)誕生,隨即就開始了一個數據庫爆炸的時代。不久,美國洛斯阿拉莫斯(LosAlamos)國家實驗室建立了GenBank。1988年,美國組建了國家生物技術信息中心(NationalCenterforBiotechnologyInformation,NCBI),并正式接管了GenBank。日本的DNA數據庫(DDBJ)于1984年在三島市建成。GenBank、EMBL和DDBJ現在已組成國際核苷酸序列數據庫合作體,每日進行數據交換。2.分子生物信息數據庫分類基于數據類型:
儲存DNA、RNA、EST和蛋白質等如NCBI中的UniGene數據庫為DNA序列數據庫。根據物種類型:
儲存該物種基因組中有關結構和功能基因組信息人類基因組數據庫(TheGDBHumanGenomeDatabase)水稻數據庫、果蠅數據庫、酵母數據庫從數據庫的數據來源:
可以分為一級數據庫和二級數據庫
(1)
基
于
數
據
類
型儲存DNA、RNA、EST、蛋白質等:如NCBI中的UniGene數據庫為DNA序列數據庫。(2)根據物種類型
基因組數據庫,如:人類基因組數據庫水稻數據庫果蠅數據庫酵母數據庫等等人類基因組數據庫GDB()(3)從數據庫的數據來源
--分為一級數據庫和二級數據庫
一級數據庫:數據都直接來源于實驗獲得的原始數據,只經過簡單的歸類整理和注釋。如:序列數據庫來自序列測定;基因組數據庫來自基因組作圖;結構數據庫來自X射線衍射和核磁共振等結構測定。二級數據庫:是在一級數據庫、實驗數據和理論分析的基礎上針對特定目標衍生而來,是對核酸和蛋白質序列、基因組圖譜、蛋白質結構及文獻等數據進行進一步分析、整理、歸納、注釋,而構建成的具有特殊生物學意義和專門用途的次級數據庫,如GeneCard。3.核酸序列數據庫GenBank
EMBL:歐洲分子生物學實驗室(TheEuropeanMolecularBiologyLaboratory)DDBJ:日本的DNA數據庫(DNADataBankofJapan)GenBank?istheNIHgeneticsequencedatabase,anannotatedcollectionofallpubliclyavailableDNAsequencesGeneticSequenceDataBankFebruary15,2008NCBI-GenBankFlatFileRelease164.0DistributionReleaseNotes82853685loci,85,759,586,764bases,from82,853,685reportedsequencesThereareapproximately106,533,156,756basesin108,431,692sequencerecordsinthetraditionalGenBankdivisionsand148,165,117,763basesin48,443,067sequencerecordsintheWGSdivisionasofAugust2009.
(1)Genbank美國國立生物技術信息中心(NationalCenterforBiotechnologyInformation,NCBI)維護;內容:匯集了所有公開的核酸和蛋白質序列的數據庫,并提供相關的文獻目錄和生物學注釋數據來源:測序工作者直接提交、測序中心成批發送或與其它數據機構協作交換數據而來;GenBank、EMBL-Bank、DDBJ是國際主要的核苷酸數據庫,都可以獨立地接受數據提交,并每日交換信息。查詢檢索:可通過互聯網上的序列提取系統(Entrez)完成;遞交數據:直接遞交。遞交者可以通過NCBI提供的Sequin軟件工具,把數據整理成一定的格式向GenBank遞交數據;NCBI的數據庫NCBIEntrez信息檢索系統Entrez瀏覽器:是由美國國家生物技術信息中心(NCBI)構建的一套綜合了數據庫、索引和訪問工具的服務器Genbank數據表序列數據結構每條Genbank序列數據記錄包含了對序列的簡要描述,如科學命名、物種分類名稱、參考文獻、序列特征表以及序列本身序列特征表里包含對序列生物學特征如編碼區、轉錄單元、重復區域、突變位點或修飾位點等的注釋所有數據記錄分類保存,如真菌類、植物類、動物類、昆蟲類、細菌類和病毒類等另外,為了滿足特殊項目的需要,設立了EST(expressedsequencetags)、GSS(genomesurveysequences)和STS(sequencetaggedsites)等組別(2)EMBL是一個非盈利的科研組織,由分布于德國、法國、英國和意大利的五個分支機構的共80多個從事分子生物學研究的科研團隊組成。EMBL的核酸序列數據庫始建于1980年,現由歐洲生物信息學研究所維護。查詢檢索可以通過互聯網上的序列提取系統(SRS)服務完成。向EMBL核酸序列數據庫提交序列可以通過基于Web的WEBIN工具,也可以用Sequin軟件來完成。(3)DDBJ日本DNA數據庫(DDBJ)由日本國家遺傳學研究所(theNationalInstituteofGenetics,NIG)于1986年建立,也是一個全面的核酸序列數據庫;可以使用其主頁上提供的SRS工具進行數據檢索和序列分析,也可以用Sequin軟件向該數據庫提交序列。1.文獻檢索PUBMED美國國立衛生研究所(NationalInstitutesofHealth,NIH)下屬美國國家醫學圖書館(NationalLibraryofMedicine,NLM)開發的網絡檢索系統建立在國立生物醫學信息中心(NCBI)平臺上。能夠對上世紀五十年代至今的發表在MEDLINE和其他生命科學期刊上的超過1500萬條引文進行訪問,并可以鏈接到相關的出版商網絡站點的文獻全文和其他相關資源三常見數據庫的數據檢索用Limit限定檢索的出版日期、物種、出版物類型、特定領域、語種、性別、年齡組、或子集等Advancedresearch用ResearchBuilder菜單選擇子集用History菜單瀏覽以前的檢索查詢
PubMed查詢結果的顯示選擇框(Display)中有40種可選顯示方式例:檢索2008年1月到12月發表在Science雜志上的禽流感(Avianinfluenza)相關文獻1)使用AdvancedResearch功能2)在Title/Abstract內查找,輸入檢索關鍵詞“Avianinfluenza”;雜志為Science3)然后再啟用Limit功能,將檢索目標限定在2008年1月到12月
4)結果顯示發表在“Science”雜志上與Avianinfluenza高度相關的文獻1篇
PubMed查詢結果的Abstract顯示方式2.數據庫檢索--核酸序列檢索Entrez(http:///Entrez/)是基于網絡的綜合性生物信息數據庫檢索系統利用Entrez系統,用戶可以檢索:
Genbank的核酸數據來自Genbank和其它數據庫的蛋白質序列數據、基因組圖譜數據;
來自分子模型數據庫(MMDB)的蛋白質三維結構數據由PubMed獲得Medline的文獻數據等。
核酸序列檢索1)在Entrez主頁(http:///Entrez/)進入Nucleotide數據庫,搜索目標數據庫選擇Nucleotide,用Advancedsearch檢索用Entrez搜索引擎下載傷寒沙門氏菌(Salmonellatyphi)16SrRNA基因2)設置Organism為Salmonellatyphi
,GeneName為16SrRNA,即檢索條件為:“Salmonellatyphi[Organism]AND16SrRNA[GeneName]”,點擊Search按鈕3)點擊顯示結果的相應條目(如ACCESSION為Z47544的傷寒沙門氏菌16SrRNA基因),顯示結果見圖4)若將結果以FASTA格式保存,則在Display框選擇FASTA,系統將自動顯示該基因的FASTA格式5)然后在Download框中選擇不同的文件類型保存第五節核酸數據分析
核酸序列的基礎分析序列比對
一、核酸序列的基礎分析主要有:分子質量、堿基組成、堿基分布;序列變換(反向序列、互補序列、互補反向序列)、限制性酶切分析(限制酶的所有信息,包括甲基化酶、相應的微生物來源、識別序列位點、裂解位點、甲基化特異性)、克隆測序的分析(測序峰圖的查看、核酸序列中載體的識別和去除、其他人工序列的分析和去除)等等。用于核酸序列的基礎分析的軟件非常多,比如Bioedit,Emboss,DnaStar等二、序列比對作用:推測新序列的功能:通過比對(alignment),找到與新序列相似的已知序列,并根據相似性推測新序列的功能分子進化關系分析:過蛋白質或核酸序列之間的比對,尋找序列間的相似區域和保守性位點,分析可能的分子進化關系預測表達框架:把核酸序列與蛋白質序列相比對來破譯核酸序列可能的表達框架蛋白質三維結構信息分析:把蛋白質序列與具有三維結構信息的蛋白質相比較,從而獲得蛋白質可能的折疊類型的信息目前最常用的兩兩比對的工具是基本區域列陣搜索工具(BasicLocalAlignmentSearchTool,BLAST),多序列比對常用的軟件是基于累進方法的CLUSTAL(http://www.ebi.ac.uk/clustalw/)。1.BLAST簡介BLAST算法是由S.Altschul等人在20世紀90年代早期提出局部比對:早期的序列比對是全局的序列比較,但由于DNA序列的重組經常發生,使得核酸或蛋白質序列具有板塊性質,因此局部比對會更加合理常用打分矩陣描述序列兩兩比對,兩條序列分別作為矩陣的兩維,矩陣點是兩維上對應兩個殘基的相似性分數,分數越高則說明兩個殘基越相似。
BLAST家族共有5個程序,可以進行核酸和氨基酸任意組合的查詢,并在核酸和蛋白質數據庫中對所有序列進行搜索。通常使用那一種BLAST程序是依據我們需要搜索的序列和你已經選擇的數據庫的類型。程序名搜索序列(query)數據庫內容備注Proteinblast(Blastp)ProteinProtein比較氨基酸序列與蛋白質數據庫Nucleotideblast(Blastn)NucleotideNucleotide比較核酸序列與核酸數據庫尋找較高分值的匹配,對較遠的關系不太適用blastxTranslatednucleotide
Protein比較核酸雙鏈序列理論上的六框架的所有轉換結果和蛋白質數據庫用于新的DNA序列和ESTs的分析,可轉譯搜索序列tblastnProteinNucleotide比較蛋白質序列和核酸序列數據庫,動態轉換為六框架結果用于尋找數據庫中沒有標注的編碼區,可轉譯數據庫序列tblastxTranslatednucleotideTranslatednucleotide用于ESTs分析轉譯搜索序列與數據庫序列2.BLAST應用
----blastn比較核苷酸序列和核苷酸庫,查詢相似序列的過程1)首先進入blast主頁(http:///BLAST/),選擇blastn,在窗口中輸入要查詢的序列,選擇需要比對的數據庫(如nr數據庫),然后點擊BLAST!按鈕遞交數據庫內容描述nrAllGenBank+EMBL+DDBJ+PDBsequences(butnoEST,STS,GSS,orphase0,1or2HTGSsequences).Nolonger"non-redundant"monthAllneworrevisedGenBank+EMBL+DDBJ+PDBsequencesreleasedinthelast30dayspdbSequencesderivedfromthe3-dimensionalstructurefromBrookhavenProteinDataBankdbestDatabaseofGenBank+EMBL+DDBJsequencefromESTDivisionsyeastYeast(Saccharomyces
cerevisiae)genomicnucleotidesequences部分核苷酸序列數據庫數據庫名
內容描述
nrAllnone-redundantGenBankCDStranslation+PDB+SwissProt+PIR+PRFmonthAllneworrevisedGenBankCDStr
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 生物大分子組裝調控-全面剖析
- 磚雕門樓施工方案
- 跨溝渠施工方案
- 鐵軌拆除施工方案
- 云原生應用測試技術-全面剖析
- 機器學習在控件自適應中的應用-全面剖析
- 三維模型版權追蹤-全面剖析
- 核能科技創新交流-全面剖析
- 摩托車國際貿易政策環境分析-全面剖析
- 盤感與市場波動的關聯-全面剖析
- 2025年陜西農業發展集團有限公司(陜西省土地工程建設集團)招聘(200人)筆試參考題庫附帶答案詳解
- 2025年中高端女裝市場趨勢與前景深度分析
- 2025北京清華附中高三(下)統練一數學(教師版)
- 2025-2030中國孵化器行業市場發展前瞻及投資戰略研究報告
- 5.3基本經濟制度 課件 2024-2025學年統編版道德與法治八年級下冊
- Unit4 Breaking Boundaries 單元教學設計-2024-2025學年高中英語外研版(2019)選擇性必修第二冊
- T-CCTAS 61-2023 橋梁承重纜索抗火密封綜合防護技術規程
- 2025慢性阻塞性肺病(GOLD)指南更新要點解讀課件
- 2024年05月湖北中國郵政儲蓄銀行湖北省分行春季校園招考筆試歷年參考題庫附帶答案詳解
- GB/T 16895.36-2024低壓電氣裝置第 7-722 部分:特殊裝置或場所的要求電動車供電
- 人音版初中音樂 九年級上冊 中考一輪復習課件
評論
0/150
提交評論