Uniprot蛋白數據庫專題知識講座_第1頁
Uniprot蛋白數據庫專題知識講座_第2頁
Uniprot蛋白數據庫專題知識講座_第3頁
Uniprot蛋白數據庫專題知識講座_第4頁
Uniprot蛋白數據庫專題知識講座_第5頁
已閱讀5頁,還剩18頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、Uniprot蛋白數據庫第1頁之前,世界上最廣泛使用蛋白數據庫為瑞士SWISS-PROT計劃建立數據庫,NHGRI項目主任Peter Good介紹說。但因為編輯詳細蛋白結構數據庫時間緊迫,再加上資金短缺,SWISS-PROT無法跟上基因組學飛速前進步伐,Good說。這種形勢造成了TrEMBL產生,這是計算機注釋SWISS-PROT分支數據庫,目標是暫時儲存日益增多蛋白質結構信息。另外,美國蛋白信息資源(Protein Information Resource ,PIR)也獨立編輯其自己數據庫。以后,這三個計劃領導人將展開合作,將三大數據庫合并為一個。聯合起來力量將“降低重復工作,由此也能夠節約

2、無須要費用。”SWISS-PROT領導人、英國劍橋歐洲生物信息研究院Rolf Apweiler說道。,UniProt將是SWISS-PROT、TrEMBL和PIR三大數據庫最正確整合一個集中化數據庫十分主要,密歇根大學腫瘤學家Samir Hanash對此表示同意。他同時也是人類蛋白組組織(Human Proteome Organisation)主席。然而,Hanash提醒說,UniProt只是一個開始,還需要建立其它數據庫來儲存相關蛋白質何時何處于機體中活動信息,他說。()這句話不但代表了Uniport數據庫,也是代表了整個生物信息學,科研本就是站在巨人肩膀上發展,那么這個肩膀也得與時俱進了!

3、Uniport前世今生第2頁UniProt(全稱Universal Protein),它整合了三個老字號數據庫(Swiss-Prot、 TrEMBL 和 PIR-PSD )數據。是當前信息最豐富、資源最廣無償蛋白質數據庫(注意沒有之一哦!)。UniProt知識庫(UniProtKB)是搜集蛋白質功效信息中心樞紐,含有準確,一致和豐富注釋。除了捕捉每個UniProtKB條目強制關鍵數據(主要是氨基酸序列,蛋白名稱或描述,分類數據和引用信息)外,還會添加盡可能多注釋信息。這包含廣泛接收生物本體論,分類和交叉引用,以及以試驗數據和計算數據證據歸屬形式注釋質量明確指示。第3頁蛋白質序列從哪里來?由Un

4、iProtKB提供超出95蛋白質序列起源于已經提交給公共核酸數據庫,EMBL-Bank / GenBank / DDBJ數據庫(INSDC)編碼序列(CDS)翻譯。全部這些序列以及作者提交相關數據都自動整合到UniProtKB / TrEMBL中。 除翻譯CDS之外,UniProtKB蛋白質序列能夠來自:1、在PDB數據庫。2、經過直接蛋白質測序試驗取得序列,經過Edman降解或MS / MS試驗并提交給UniProtKB / Swiss-Prot。只有約5UniProtKB / Swiss-Prot條目包含經過直接蛋白質測序取得序列數據(含有關鍵字條目列表Direct protein seq

5、uencing)。3、從文件(ig PRF或其他期刊掃描項目)掃描序列。4、從基因預測,沒有提交序列EMBL-Bank / GenBank登錄/ DDBJ。5、序列起源于內部基因預測,在非常特殊情況下。第4頁Uniprot主要功效查詢蛋白質序列以及其它各種信息查詢蛋白質組找相同蛋白質對比各種蛋白質序列查詢蛋白質相關文件第5頁網站網址為/,先來看看全景圖吧!這個數據庫能夠大致分為6個主題部分,如上圖紅框所表示1、UniProtKB;2、UniRef;3、UNIParc;4、Proteomics;5、Supporting data。6、檢索區第6頁這次我們先游覽第一個主題,也是最經典部分。(其實其

6、它主題我自己還沒有完全搞明白)1、UniProtKB(UniversalProtein Knowledge base)它是經過教授校驗數據集,又分成兩部分(綠框部分,不用擔心,這些都是無償,不是那種濫收費園中園)1.1、Swiss-Prot(經過人工檢驗、校驗條目)高質量、人工注釋、非冗余數據集;主要來自文件中研究結果和E-value校驗過計算分析結果。截止到昨天Swiss-Prot 包含556,196條統計,(8月10日有519,348 條統計,7年后增加了3萬多條統計,評價天天大約10幾條統計,速度還是比較慢。) 1.2、TrEMBL (計算機自動注釋、未經人工校驗條目)該數據主要是利用計

7、算機對大量基因組數據流進行分析注釋(人工校驗速度暫時無法跟上數據產生速度)。截止到昨天年03月19日TrEMBL 包含98,705,220條統計,(8月10日有110,636,205 條統計,7年后數據量降低了很多,預計是去掉了很多重復數據)另外大家會注意到這里數據是Swiss-Pro數據100多倍。進入方式各種多樣,1、主頁默認入口就是UniProt;2、能夠直接點擊紅框1區域進入;3、也能夠經過點擊紅框6,系統會彈出下拉菜單如圖2所表示,選擇UniProt紅框1即可進入。第7頁檢索區主要是為了讓有經驗同學快速找到自己感興趣蛋白質,能夠按照蛋白質名稱、序列,ID號等方式檢索。紅框1區是對這個

8、主題區域簡明介紹第8頁 紅框2區能夠讓游客依據自己喜好來顯示蛋白質數據,比如能夠只顯示經過人工校驗條目;能夠只看專屬于某個物種蛋白質;還能夠檢索物種分類;還有直接快速進入UniRef通道以及視頻化幫助,演示文件紅框3區是主題區,這里列出了全部UniProt數據庫蛋白質條目,因為數據太多(這個數字其實是Swiss-Pro與TrEMBL兩部分總和),每頁顯示25條(您能夠自己選擇每頁顯示數目 10、25、50、100或200),第9頁Entry:是UniProt給每個蛋白質賦予獨一無二ID號Entry name: 是蛋白ID簡明名字Protein names: 蛋白質名字Gene names: 編

9、碼這個蛋白Gene名字Organism:蛋白質種屬起源Length: 氨基酸長度第10頁第11頁首先sp表示,Swiss-Prot數據庫是注釋精煉蛋白序列庫,它全部序列都經過了科學家查閱文件核實(reviewed, manually annotated) 。P02769是蛋白在uniprot上ID號,即蛋白身份證號。ALBU_BOVIN是蛋白在uniprot上登錄名,跟P02769是一個作用。Serum albumin是蛋白名稱,即蛋白姓名啦。OS表示Organism,也就是物種名稱,數據庫中物種名稱普通為拉丁名稱,牛血清白蛋白Bostaurus當然是牛拉丁。GN表示gene name,即基因

10、名稱PE表示ProteinExistence,即蛋白可靠性,PE=1、2、3、4、5分別對應以下,能夠看出數字越小可靠性越高:1. Experimental evidence at protein level 蛋白質水平試驗證據2. Experimental evidence at tran level 轉錄水平試驗證據3. Protein inferred from homology 從同源蛋白質推斷4. Protein predicted 蛋白質預測5. Protein uncertain 蛋白質不確定SV表示SequenceVersion,即序列版本,即蛋白身份證第二代,第三代這里需要指

11、出是,除了sp,有時還會出現TR。第12頁紅框2區只看專屬于某個物種蛋白質第13頁紅框3區第一行t BLAST: 這個按鈕能夠讓你用感興趣蛋白質序列做BLAST分析(就是查一下在UniProt數據庫中,還有哪些蛋白質氨基酸序列與你感興趣蛋白質相同或相同),別小瞧這個功效,知道哪些蛋白與目標蛋白序列相同,就有可能知道這個蛋白含有哪些生物系功效,假如恰好還有其它相同蛋白結構信息,就能幫助你大致知道這個蛋白空間結構。使用這個功效必須先選中,只能選中一個蛋白質。i Align: t BLAST是對單個蛋白序列與數據庫數據進行比對,i Align能夠讓你對多個蛋白質序列之間進行相同性比對,這種分析能夠讓

12、你找到這些蛋白之間結構保守區域,還能夠依據蛋白質相同性,分析這些蛋白之間親緣關系,進化先后次序等。基本局部比對搜索工具第14頁= Download:這個輕易了解,您能夠下載蛋白序列數據,能夠下載選中蛋白,也能夠下載全部蛋白(做蛋白質組學分析人經慣用,不然沒有必要全部下載,不過有時候最好定時下載更新一下,還是很有必要)下載格式也各種多樣,比如FASTA,Text,Excel,XML,List等,假如數據量大,還能夠選擇壓縮以后下載。b Add to basket: 這個按鈕功效是能夠隨時將你感興趣蛋白質條目加入購物籃以備后期使用,最多能夠加400條數據,呵呵,這個不是超市購物籃,是不收費。e C

13、olumns: 這個能夠讓您定制蛋白數據列信息,就是自己定制顯示哪些列信息,這個內容非常多,包含名稱和分類學信息,序列信息(氨基酸長度,分子量,SNP等),功效信息(EC number, 信號通路,活性位點,各種結合位點等),相互作用信息,表示信息,亞細胞定位信息, 翻譯后修飾,結構,家族及結構域信息, 序列信息.太多了,感興趣自己進去看吧!b Add to basket: 這個按鈕功效是能夠隨時將你感興趣蛋白質條目加入購物籃以備后期使用,最多能夠加400條數據,呵呵,這個不是超市購物籃,是不收費第15頁UniProt參考群集(UniRef)提供來自UniProt知識庫(包含同種型)和選定Un

14、iParc統計序列集合集合,方便以各種分辨率取得對序列空間全方面覆蓋,同時從視圖中隱藏冗余序列(但不包含其描述)。與UniParc不一樣,序列片段被合并到UniRef中:UniRef100數據庫將含有來自任何生物體11個或更多殘基相同序列和亞片段組合成單個UniRef條目,顯示代表性蛋白質序列,全部合并登錄號條目和鏈接到對應UniProtKB和UniParc統計。UniRef90是經過用UniRef100序列對11個或更多殘基進行聚類而構建CD-HIT算法(Li W.和Godzik A.,Bioinformatics,22:1658-1659,),使得每個簇由與最長序列(aka)含有最少90序

15、列同一性和80種子序列)。一樣,UniRef50是經過對UniRef90種子序列進行聚類構建,這些序列與聚類中最長序列含有最少50序列同一性,而且含有最少80重合性。在之前,沒有重合閾值,所以簇長度愈加不均勻。UniRef90和UniRef50產生數據庫大小分別降低約58和79,提供顯著更加快序列相同性搜索。種子序列是群集中最長組員。然而,最長序列并不總是最豐富。其它集群組員往往有更多生物相關信息(名稱,功效,交叉引用)第16頁UniParc是一個主要序列庫,是一個全方面存放庫,它反應了全部蛋白質序列歷史。聯合研究中心為全部來自不一樣起源新和經過修改蛋白質序列提供了全部信息,以確保完整覆蓋在一

16、個單一站點。它包含不但UniProtKB還翻譯從EMBL-Bank / DDBJ基因庫核苷酸序列數據庫,利用數據庫真核基因組,H-Invitational數據庫(H-Inv),國際蛋白質指數(IPI),蛋白質數據庫(PDB),蛋白質研究基金會(脈沖),NCBI年代參考序列集合(RefSeq),數據庫模式,SGD,TAIR擬南芥和WormBase TROME和蛋白質序列。為了防止冗余,序列被作為字符串處理,全部序列在整個長度上都是完全相同,不論源組織是什么。新和更新序列天天都被加載,交叉引用源數據庫加入號,并提供一個序列版本,在對底層序列更改上增加。每個UniParc條目中存放基本信息是標識符、

17、序列、循環冗余檢驗號、源數據庫(s)和添加和版本號,以及時間戳。第17頁第18頁UniProt提供了幾組被認為由其基因組已被完全測序有機體表示蛋白質,被稱為“蛋白質組”。在過去,這些集合是基于生物分類學,結合關鍵詞完整蛋白質組,但伴隨越來越多同一生物體基因組正在測序,我們引入了獨特蛋白質組標識符來區分個體蛋白質組。這些蛋白質組能夠從UniProt網站Proteomes部分查詢和下載。作為蛋白質組一部分UniProtKB條目與其蛋白質組相互參考。第19頁文件引用分類亞細胞定位 亞細胞定位是指某種蛋白或表示產物在細胞內詳細存在部位。比如在核內、胞質內或者細胞膜上存在。GFP是綠色熒光蛋白,在掃描共

18、聚焦顯微鏡激光照射下會發出綠色熒光,從而能夠準確地定位蛋白質位置。交叉引用數據庫:UniProtKB條目標交叉引用部分顯示數據庫顯式和隱式鏈接,比如核苷酸序列數據庫,模型生物數據庫以及基因組學和蛋白質組學資源。一個條目能夠交叉引用幾十個不一樣數據庫,并有幾百個單獨鏈接。疾病:包括蛋白質人類疾病關鍵詞第20頁討論與展望UniProt 是一個集中收錄蛋白質資源并能與其它資源相 互聯絡數據庫 , 也是當前為止收錄蛋白質序列目錄最廣泛 、 功效注釋最全方面一個數據庫 。 UniProt 是由歐洲生物信息學研究所(European Bioinformatics Institute)、美國蛋白質信息資源(Prontein Information Resource)以及瑞士生物信息研究所(Swiss Institute of Bioinformatics)等機構共同組成UniProt協會(UniProt Consortium)編輯、制作一個信息資源,意在為從事當代生物研究科研人員提供一個相關蛋白質序列及其相關功效方面廣泛、高質量并可無償使用共享數據庫。它功效有很多,基本能夠滿足做蛋白需求(當前我是這么看因為,我沒做我也不知道還有啥需要補充),不過因為功效繁多,造成真極難明白,尤其是初學者,希望這個網站以后能出一些針對初學者教學文章。第21頁對于生物信息學思索生物

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論