




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第三章第三章 數據的獲取及序列比對數據的獲取及序列比對(二)(二)楊小麗楊小麗 2練習一練習一 從從NCBI包含包含數據庫中數據庫中查找查找基因基因序列序列3 NCBI 4From the NCBI homepage, type “rbp4”and hit “Search”舉例:從舉例:從NCBI搜索搜索rbp4基因信息基因信息56當前可查74條基因組相關基因69條可查看SNP22條序列存取號基因定義染色體定位基因組參考序列號78By applying limits, there are now just 16 entries9Note th
2、at links to many other RBP4 database entries are available10111213表現型,生物體所表現的性狀和特征,是基因型與環境作用的結果。可觀察。同源性14GO分類,一種整合性的分類系統15Rbp4蛋白質的基本信息161718鏈接至其他資源數據庫19獲取獲取rbp4基因的核酸序列基因的核酸序列20FASTA format21222324Genbank格式注解格式注解LOCUS (代碼代碼):是該序列條目的標記,或者說標識符,蘊涵這個序列的:是該序列條目的標記,或者說標識符,蘊涵這個序列的功能功能 ACCESSION (編號編號):具有唯一性
3、和永久性:具有唯一性和永久性 KEYWORDS (關鍵詞關鍵詞)字段:由該序列的提交者提供,包括該序列的基字段:由該序列的提交者提供,包括該序列的基因產物以及其它相關信息因產物以及其它相關信息 SOURCE (數據來源數據來源)字段:說明該序列是從什么生物體、什么組織得到字段:說明該序列是從什么生物體、什么組織得到的。的。REFERENCE (文獻文獻)字段:說明該序列中的相關文獻,包括字段:說明該序列中的相關文獻,包括AUTHORS (作者作者),TITLE (題目題目)及及JOURNAL (雜志名雜志名)等,以次關鍵詞等,以次關鍵詞列出。列出。 FEATURES (特性表特性表):具有特定
4、的格式,用來詳細描述序列特性。:具有特定的格式,用來詳細描述序列特性。BASE COUNT (堿基組成堿基組成)及及ORIGIN (堿基或氨基酸排列順序堿基或氨基酸排列順序) NID符符(核酸標識核酸標識), 25借助Entrez Map Viewer (圖形顯示器軟件),讓用戶觀看數據庫內帶有綜合遺傳和自然圖的各種有機體基因組、全部染色體、序列集成數據。2627獲取FMR1基因組3,5端序列282022-4-13復旦大學圖書館文獻檢索教研室292022-4-13復旦大學圖書館文獻檢索教研室序列顯示器蛋白質庫生物學證據 Viewer 模型制作同源基因基因命名數據庫序列顯示3031練習二練習二
5、利用利用BLASTBLAST程序進行序列程序進行序列比對比對32主要的主要的BLAST程序程序程序名查詢序列數據庫搜索方法Blastn核酸核酸核酸序列搜索逐一核酸數據庫中的序列Blastp蛋白質蛋白質蛋白質序列搜索逐一蛋白質數據庫中的序列Blastx核酸蛋白質核酸序列6框翻譯成蛋白質序列后和蛋白質數據庫中的序列逐一搜索。Tblastn蛋白質核酸蛋白質序列和核酸數據庫中的核酸序列6框翻譯后的蛋白質序列逐一比對。TBlastx核酸核酸核酸序列6框翻譯成蛋白質序列,再和核酸數據庫中的核酸序列6框翻譯成的蛋白質序列逐一進行比對。33數據庫簡述nrmonthdbestdbstshtgsyeastE.co
6、lipdbkabatvectormitoalugss非冗余的GenBankEMBLDDBJPDB序列,除了EST、STSGSS和0,1,2階段的HTGS序列nr中過去30天的最新序列非冗余的GenbankEMBLDDBJPDB的EST部分非冗余的GenbankEMBLDDBJPDB的STS部分0,1,2階段的高產量基因組序列(3階段完成的HTG序列在nr庫里)酵母的全基因組序列大腸桿菌的全基因組序列由三維結構庫來的核酸序列Kabat的免疫學相關序列庫Genbank的載體子集線粒體核酸序列REPBASE中Alu重復序列翻譯而來,用來遮蔽查詢序列中的重復片段,基因組勘測序列(Genome Surv
7、ey Sequence) BLAST的核酸數據庫 34BLAST的蛋白質數據庫的蛋白質數據庫 數據庫簡述nrmonthswissprotpdbyeastE.coliKabatalu匯集SWISS-PROT,PIR,PRF及從GenBank序列編碼區中得到的蛋白質和PDB中擁有原子坐標的蛋白質,并去除了冗余的序列nr中過去30天內的最新序列SWISS-PROT數據庫PDB結構數據庫中的蛋白質序列酵母基因組中編碼的全部蛋白質大腸桿菌基因組中編碼的全部蛋白質Kabat的免疫學相關蛋白質序列,由REPBASE中的Alu重復序列翻譯而來,用來遮蔽查詢序列中的重復片段 35 對一般用戶來說,目前常用的辦法
8、是通對一般用戶來說,目前常用的辦法是通過過NCBI國際著名生物信息中心的國際著名生物信息中心的BLAST服務器進行搜索。服務器進行搜索。NCBI主站點:主站點: /BLAST/36BLAST搜索格式搜索格式 (1)FASTA格式格式FASTA格式第一行是描述行,第一個字符必須是格式第一行是描述行,第一個字符必須是“”字符。字符。隨后的行是序列本身,每行序列不超過隨后的行是序列本身,每行序列不超過80個字符。個字符。序列由標準的序列由標準的IUB/IUPAC氨基酸和核酸代碼代表。氨基酸和核酸代碼代表。 ref|NC_000016.8|NC_00
9、0016:76691052-77024150 Homo sapiens chromosome 16, reference assemblyGCAGTGCGCAGGCGTGAGCGGTCGGGCCCCGACGCGCGCGGGTCTCGTTTGGAGCGGGAGTGAGTTCCTGAGCGAGTGGACCCGGCAGCGGGCGATAGGGGGGCCAGGTGCCTCCACAGTCAGCCATGGCAGCGCTGCGCTACGCGGGGCTGGACGACACGGACAGTGAGGACGAGCTGCCTCCGGGCTGGGAGGAGAGAACCACCAAGG37BLAST搜索格式搜索格式 (2)單純
10、序列數據輸入格式)單純序列數據輸入格式GCAGTGCGCAGGCGTGAGCGGTCGGGCCCCGACGCGCGCGGGTCTCGTTTGGAGCGGGAGTGAGTTCCTGAGCGAGTGGACCCGGCAGCGGGCGATAGGGGGGCCAGGTGCCTCCACAGTCAGCCATGGCAGCGCTGCGCTACGCGGGGCTGGACGACACGGACAGTGAGGACGAGCTGCCTCCGGGCTGGGAGGAGAGAACCACCAAGG (3)標識符格式)標識符格式 NC_00001638BLAST程序評價序列相似性的兩個數據Score:使用打分矩陣對匹配的片段進行打分,這是
11、對各對氨基酸殘基(或堿基)打分求和的結果,一般來說,匹配片段越長、 相似性越高則Score值越大。E value:在相同長度的情況下,兩個氨基酸殘基(或堿基)隨機排列的序列進行打分,得到上述Score值的概率的大小。E值越接近零,越不可能找到其它的匹配序列,其背后的含義就是E值越少,匹配度越好。39舉例:提交核酸序列進行數據庫舉例:提交核酸序列進行數據庫比對比對40NCBI提供的提供的BLAST服務服務4142NCBI提供的提供的BLAST服務服務登陸ncbi的blast主頁核酸序列蛋白序列基因組序列翻譯序列底下有其他一些針對特殊數據庫的和查看以往的比對結果等43BLAST任務提交表單(一)任
12、務提交表單(一)44BLAST任務提交表單(一)任務提交表單(一)1.序列信息部分填入查詢(query)的序列序列范圍(默認全部)選擇搜索數據庫如果接受其他參數默認設置,點擊開始搜索 選擇算法設置搜索的范圍,entrez關鍵詞,或者選擇特定物種45Megablast megablast采用了貪婪算法采用了貪婪算法(greedy algorithm),它連它連接了多個查詢序列進行一次搜索比對,這樣節省了接了多個查詢序列進行一次搜索比對,這樣節省了很多搜索數據庫的時間。主要針對核酸序列。是很多搜索數據庫的時間。主要針對核酸序列。是blast經過優化后,適用于由于經過優化后,適用于由于測序或者其他原
13、因形測序或者其他原因形成的輕微的差別的序列成的輕微的差別的序列之間的比較,比一般的相似之間的比較,比一般的相似性搜索程序要快性搜索程序要快10倍,可以很快的完成兩組大數據倍,可以很快的完成兩組大數據的比對的比對。46BLAST任務提交表單(二)任務提交表單(二)E值上限窗口大小2.設置各種參數部分一些過濾選項,包括簡單重復序列,人類基因組中的重復序列等點擊開始搜索顯示最大相似序列47提交任務提交任務(一一)返回查詢號(request id)48提交任務提交任務(二二)返回查詢號(request id)修改完顯示格式后點擊進入結果界面可以修改顯示結果格式49結果頁面(一)結果頁面(一)50結果頁
14、面(二)結果頁面(二)圖形示意結果51結果頁面(三)結果頁面(三)帶有genbank的鏈接,點擊可以進入相應的genbank序列目標序列描述部分匹配情況,分值,e值52結果頁面(四)結果頁面(四)詳細的比對上的序列的排列情況對排序列不一致處53舉例:遞交氨基酸序列進行比對(舉例:遞交氨基酸序列進行比對(blastp)假設以下為一未知蛋白序列假設以下為一未知蛋白序列 query_seqquery_seq MSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFTALTQHGKEELRFPRGQGMSDNGPQSNQRSAPRITFGGPTDST
15、DNNQNGGRNGARPKQRRPQGLPNNTASWFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKVPINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATVLQLPQGTTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGDHIGTRNPNNNAATVLQLPQGTTLPKGFYAEGSRGGS
16、QASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGDQDLIRQGTDYKHWPQIAQFAPSASAFFGMSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDADQDLIRQGTDYKHWPQIAQFAPSASAFFGMSRIGMEVTPSGTWLTYHGA
17、IKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADSTQAYKTFPPTEPKKDKKKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADSTQA 我們通過我們通過blastblast搜索來獲取一些這個序列的信息。搜索來獲取一些這個序列的信息。54具體步驟具體步驟1.登陸登陸blast主頁主頁 /BLAST/2.根據數據類型,選擇合適的程序根據數據類型,選擇合適的程序3.填寫表單信息填寫表單信息4
18、.提交任務提交任務5.查看和分析結果查看和分析結果55分析過程(一)2.選擇程序,因為查詢序列是蛋白序列可以選擇blastp,點擊進入也可以選擇tblastn作為演示,我們這里選blastp1.登陸ncbi的blast主頁56分析過程(二)分析過程(二)3.填入序列(copypaste)Fasta格式,或者純序列4.選擇搜索區域,這里我們要搜索整個序列,不填5.選擇搜索數據庫,這里我們選nr(非冗余的蛋白序列庫)。57PSI-BLAST Position specific iterative BLAST (PSI-BLAST) 位點特異的迭代位點特異的迭代blast搜索,主要針對蛋白序列。搜索
19、,主要針對蛋白序列。第一次第一次blast搜索后,結果中最相似的序列重新搜索后,結果中最相似的序列重新構建構建PSSM (位點特異性打分矩陣位點特異性打分矩陣),然后再使用,然后再使用該矩陣進行第二輪該矩陣進行第二輪blast搜索,再調整矩陣,搜搜索,再調整矩陣,搜索,如此迭代。索,如此迭代。 最終高度保守的區域就會得到比較高的分值,最終高度保守的區域就會得到比較高的分值,而不保守的區域則分數降低,趨近而不保守的區域則分數降低,趨近0。 這樣可以這樣可以提高blast搜索的靈敏度。58PHI-BLAST 使用者可指定某一個蛋白質序列片段使用者可指定某一個蛋白質序列片段,并并以這個片段為重心查詢相關的蛋白質以這個片段為重心查詢相關的蛋白質.59分析過程(三)分析
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年證券從業資格證信息交流試題及答案
- 微生物檢驗考生需要注意的事項試題及答案
- 技術崗位勞動合同草案
- 項目管理重要考點試題及答案
- 2025年證券從業資格證考生思考題試題及答案
- 夢想作文素材
- 呼吸科醫生工作計劃
- 證券市場監管機制考題及答案
- 微生物檢驗持續教育的重要性及試題及答案
- 微生物檢驗技術考試全面復習試題及答案
- 化工裝置開停車、試生產工作危害分析表及風險管控清單
- 機械設計說明書-精煉爐鋼包車設計
- E+-H-Promass-80流量計基本操作步驟說明書
- 大學語文(第二版)教學課件-黃美玲主編
- 粉塵防爆安全知識考試試題
- 固定床列管式反應器設計說明書(曾禮菁)
- 如何進行六年級數學總復習的講座
- 三進制計算機
- 保密工作會議上的講話(6篇)
- 2023年中國鐵路南寧局招聘筆試參考題庫附帶答案詳解
- 造紙機的電氣傳動系統畢業設計
評論
0/150
提交評論