gene ontologyGO基因注釋_第1頁
gene ontologyGO基因注釋_第2頁
gene ontologyGO基因注釋_第3頁
gene ontologyGO基因注釋_第4頁
gene ontologyGO基因注釋_第5頁
已閱讀5頁,還剩3頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、GO(gene ontology)是基因本體聯合會(Gene Onotology Consortium)所建立的數據庫,旨在建立一個適用于各種物種的,堆積因和蛋白質功能進行限定和描述的,并能隨著研究不斷深入而更新的語言詞匯標 準GO是多種生物本體語言中的一種,提供了三層結構的系統定義方式,用于描述基因產物的功能 基因本體論(gene ontology)的建立現今的生物學家們浪費了太多的時間和精力在搜尋生物信息上。這種情況歸結為生物學上定義混亂的原因:不光是精確的計算機難以搜尋到這些 隨時間和人為多重因素而隨機改變的定義,即使是完全由人手動處理也無法完成。舉個例子來說,如果需要找到一個

2、用于制抗生素的藥物靶點,你可能想找到所有的 和細菌蛋白質合成相關的基因產物,特別是那些和人中蛋白質合成組分顯著不同的。但如果一個數據庫描述這些基因產物為“翻譯類”,而另一個描述其為“蛋白質 合成類”,那么這無疑對于計算機來說是難以區分這兩個在字面上相差甚遠卻在功能上相一致的定義。Gene Ontology (GO)項目正是為了能夠使對各種數據庫中基因產物功能描述相一致的努力結果。這個項目最初是由1988年對三個模式生物數據庫的整合開始:: FlyBase (果蠅數據庫Drosophila),t Saccharomyces Genome Database (酵母基因組數據庫SGD) and th

3、e Mouse Genome Database (小鼠基因組數據庫MGD)。 從那開始,GO不斷發展擴大,現在已包含數十個動物、植物、微生物的數據庫。GO的定義法則已經在多個合作的數據庫中使用,這使在這些數據庫中的查詢具有極高的一致性。這種定義語言具有多重結構,因此在各種程度上都能進行查詢。舉 例來說,GO可以被用來在小鼠基因組中查詢和信號轉導相關的基因產物,也可以進一步找到各種生物地受體酪氨酸激酶。這種結構允許在各種水平添加對此基因產 物特性的認識。GO發展了具有三級結構的標準語言(ontologies),如表所示。根據基因產物的相關分子功能,生物學途徑,細胞學組件而給予定義,無物種相關性。

4、本體論內容分子功能本體論基因 產物個體的功能,如與碳水化合物結合或ATP水解酶活性等生物學途徑本體論分子功能的有序組合,達成更廣的生物功能,如有絲分裂或嘌呤代謝等細胞組件本體 論亞細胞結構、位置和大分子復合物,如核仁、端粒和識別起始的復合物等基本來說,GO工作可分為三個不同的部分:第一,給予和維持定義;第二,將位于不同數據庫中的本體論語言、基因和基因產物進行聯系,形成網絡;第三,發展 相關工具,使本體論的標準語言的產生和維持更為便捷。本體論(The ontologies)GO的結構包括三個方面?D?D分子生物學上的功能、生物學途徑和在細胞中的組件作用。當然,它們可能在每一個方面都有多種性質。如

5、細胞色素C,在分子功 能上體現為電子傳遞活性,在生物學途徑中與氧化磷酸化和細胞凋亡有關,在細胞中存在于線粒體質中和線粒體內膜上。下面,將進一步的分別說明GO的具體定義 情況?;虍a物基因產物和其生物功能常常被我們混淆。例如,“乙醇脫氫酶”既可以指放在Eppendorf管里的基因產物,也表明了它的功能。但是這之間其實是存在差別 的?D?D一個基因產物可以擁有多種分子功能,多種基因產物也可以行使同一種分子功能。比如還是“乙醇脫氫酶”,其實多種基因產物都具有這種功能,而并不 是所有的這些酶都是由乙醇脫氫酶基因編碼的。一個基因產物可以同時具有“乙醇脫氫酶”和“乙醛歧化酶”兩種功能,甚至更多。所以,在G

6、O中,很重要的一點 在于,當使用“乙醇脫氫酶活性”這種術語時,所指的是功能,并不是基因產物。許多基因產物會形成復合物后執行功能。這些“基因復合物”有些非常簡單(如血紅蛋白由血紅蛋白基因產物球蛋白、球蛋白和小分子的亞血紅素組成), 有些非常復雜(如核糖體)?,F在,小分子的描述還沒有包括在GO中。在未來,這個問題可望由和現在的Klotho和LIGAND等小分子數據庫聯合而解 決。分子功能分子功能描述在分子生物學上的活性,如催化活性或結合活性。GO分子功能定義功能而不是整體分子,而且不特異性地指出這些功能具體的時空信息。分子功能大 部分指的是單個基因產物的功能,還有一小部分是此基因產物形成的復合物的

7、功能。定義功能的義項包括催化活性、轉運活性、結合活性等,更為狹窄的定義包括腺 苷酸環化酶活性或鐘形受體結合活性等。生物學途徑生物學途徑是由分子功能有序地組成的,具有多個步驟的一個過程。舉例來說,較為 寬泛的是細胞生長和維持、信號傳導。一些更為具體的例子包括嘧啶代謝或配糖基的運輸等。一個生物學途徑并不是完全和一條生物學通路相等。因此,GO并 不涉及到通路中復雜的機制和所依賴的因素。細胞組件細胞中的位置指基因產物位于何種細胞器或基因產物組中(如糙面內質網,核或核糖體,蛋白酶體等)。GO的形式GO 定義的術語有著直接非循環式(directed acyclic graphs (DAGs)的特點,而并非

8、是傳統的等級制(hierarchy)定義方式(隨著代數增加,下一級比上一級更為具體)。舉個例子來說,生物學途徑中有一個 定義是己糖合成,它的上一級為己糖代謝和單糖合成。當某個基因被注解為“己糖合成活性”后,它自動地獲得了己糖代謝和單糖合成地注解。因為在GO中,每個 術語必須遵循“真途徑“法則,即如果下一代的術語可以用于描述此基因產物,其上一代術語也可以適用。GO的注釋(Annotation)那么,GO中的術語如何和相對應的基因產物相聯系的呢?這是由參與合作的數據庫來完成的,它們使用GO的定義方法,對它們所包含的基因產物進行注解,并且 提供支持這種注解的參考和證據。每個基因或基因產物都會有一個列

9、表,列出與之相關的GO術語。每個數據庫都會給出這些基因產物和GO術語的聯系數據庫,并 且也可以在GO的ftp站點上和WEB方式查詢到。并且,GO聯合會提供了簡化的本體論術語(GO slim),這樣,可以在更高級的層面上研究基因組的功能。比如,粗略地估計哪一部分的基因組與信號傳導、代謝合成或復制有關。GO對基因和蛋白的注釋闡明了基因產物和用于定義他們的GO術語之間的關系。基因產物指一個基因編碼的RNA或蛋白產物。因為一個基因可能編碼多個具有很 不相同性質的產物,所以GO推薦的注釋是針對基因產物的而不是基因的。一個基因是和所有適用于它的術語聯系在一起的。一個基因產物可以被一種本體論定義的多種分支或

10、多種水平注釋。注釋需要反映在正常情況下此基因產物的功能,生物途徑,定位等,而并不包括其在突變或病理狀 態下的情況。GO聯合會的各個數據庫成員采用手動或自動的方式生成注釋,這兩種方式共有的原理是:一.所有的注釋都需要有來源,可以是文字、另一個數據庫 或是計算機分析結果;二.注釋必須提供支持這種基因產物和GO術語之間聯系的證據。GO文件格式GO的所有數據都是免費獲得的。GO數據有三種格式:flat(每日更新)、XML(每月更新)和MySQL(每月更新)。 這些數據格式都可以在GO ftp的站點上下載。XML 和 MySQL 文件是被儲存于獨立的GO數據庫中。如果需要找到與某一個GO術語相關的基因或

11、基因產物,可以找到一個相應表格,搜尋到這種注解的編號,并且可以鏈接到與之對應的位于不同數據庫的基因相關文 件。GO瀏覽器和修改器(browser and editor)GO術語和注釋使用了多種不同的工具軟件,它們都可以在web方式的“GO 瀏覽器”下“GO software page”中找到。大多數GO瀏覽器都是web模式的,允許你直觀的看到術語和其相關信息,如定義、同義詞和數據庫參考等。有些GO瀏覽器如AmiGO和 QuickGO,可以看到每個術語的注釋。而可下載的DAG-Edit編輯器,一樣可以離線地顯示注釋和所有本體論定義的信息。對于每一個瀏覽器來說,都 可以選擇最適用于你要求的工具軟件

12、。常見的三種瀏覽器AmiGO from BDGP在 AmiGO中,可以通過查詢一個GO術語而得到所有具有這個注釋的基因產物,或查詢一 個基因產物而得到它所有的注釋關系。還可以瀏覽本體論,得到術語之間的關系和術語對應的基因產物數目。AmiGO直接連接GO下的MySQL。 MGI GO BrowserMGI GO的功能類似于AmiGO,所不同的在于它所得到的基因為小鼠基因。MGI GO瀏覽器直接連接GO下的MGI數據庫。QuickGO at EBIQuickGO,整合在EBI下的InterPro中,可以通過查詢一個GO術語而得到 它的定義與關系描述、在SWISS-PROT中的定位、在酶分類學(EC

13、)和轉運分類學(TC)中的定位和InterPro中的定位等。其他還有一些特殊的瀏覽GO的瀏覽器,其中括號中為建立機構和主要特色:EP GO Browser(EBI,基因表達情況),、GoFish (Harvard,Boolean查詢、GenNav(NLM, 圖像化展示)、GeneOntologyRZPD (RZPD,UniGene)、ProToGO (Hebrew University,GO的亞圖像化)、CGAP GO Browser (癌癥基因組解剖工程,癌癥)、GOBrowser (Illuminae,perl.、TAIR Keyword Browser (TAIR,擬南芥)、PANDOR

14、A (Hebrew University,非一致化蛋白)。修改器GO 術語和本體論結構可以由任何可以讀入GO平板文件的文本修改器進行編輯,但是這需要對平板文件非常熟悉。因此,DAG-Edit是被推薦使用的,它是為 GO特別設計的,能夠保證文件的句法正確。GO注釋可以被多種數據庫特異性的工具所編輯,如TIGR的Manatee和EBI的Talisman tool。但是GO數據庫中寫入新的注釋是需要通過GO認證的管理員方可進行的,如果想提出新的注釋或對本體論的建議,可以聯系GO。主要修改器為DAG-Edit和COBrA。DAG-Edit基于Java語言,提供了能瀏覽、查詢、編輯具 有DAG數據格式的

15、GO數據界面。在SourceForge可以免費下載,伴隨著幫助文件。COBrA能夠編輯和定位GO和OBO本體論。 它一次顯示兩個本體論,因此可以在不同的水平相應定位。(如組織和細胞類型水平)優點在于可以綜合幾種本體論,支持的文件格式多,包括GO平板文件、GO RDF和OWL格式等。如圖為DAG-Edit的界面,可以分為四個部分: 1) 定義編輯面板(term editor panel)顯示當下的本體論。也是主要的編輯本體論結構的工具,可以通過點擊和拖動術語來修改本體論的從屬關系。2) 文本編輯面板(text editor panel)修改術語中的內容。在修改多個術語時,會出現一個選擇菜單,可以

16、選中后逐個修改。3) DAG瀏覽器DAG瀏覽器是一個插件,能夠以圖形的方式展示具有復雜的從屬關系的術語。4) 搜尋/屏蔽面板可搜尋術語、術語類型和術語間關系??勺远x屏蔽條件,限制得出的搜尋結果。GO數據庫的查找和瀏覽FAQ1. 如何搜尋注釋?使用AmiGO瀏覽器,可以在所有參與的數據庫中搜尋一個特定的注解。AmiGO允許使用GO術語或基因產物的搜尋。搜尋結果包括GO對這個術語的等級分 級情況,定義和近義結構,外部鏈接,所有相聯系的基因產物和它的下一級術語。2. 如何得到全部的GO注釋?在GO網站上,基因產物與GO聯系的組信息都有提供。這些文件儲存了基因/基因產物的ID和引用文獻等支持證據(如

17、FlyBase 基因ID, SWISS-PROT蛋白ID),在ftp站點上都可以獲得。3 在一些模式生物中,一個基因通常有多個與之相關的核苷酸序列,如EST、蛋白序列等。要查詢到這些序列,可以從該模式生物數據庫中通過基因聯系(gene association)查詢到基因獲得ID(gene accession ID),或是分別在Compugen中查詢大的轉錄產物(transcipt)和SWISS-PROT/TrEMBL中查詢蛋白。4. 如何得到由GO術語注解的蛋白序列?在GO網頁上選擇能查詢到所有數據庫的Amigo瀏覽器,鍵入GO術語(如“線粒體”),在結果中顯示了被注釋的基因。然后選擇你所需基

18、因,在網頁的最低 端把選項拖至“get fasta sequence”區域,再確定即可。5 如何能夠找到所有和一個特定的GO術語相關的人類基因呢?GO術語是和SWISS-PROT/TrEMBL/InterPro and Ensembl中的蛋白序列無贅余地對應的。這些注釋在EBI上的GOA-Human 文件中,GO的FTP站點上,Ensembl,EMBLBank上都可找到。6可以直接使用GenBank的gi獲取碼在GO數據庫中進行查詢嗎?GO數據庫中除了Compugen所提供的GenBank獲取碼之外,沒有包含其他GenBank獲取碼的信息,但是在EBI的GOA(GO Annotation)中,

19、有一個綜合的對GenBank/EMBL/DDBJ進行查詢的方式,詳細請見:GO與其他分類系統的定位關系(Mapping to GO)GO 并不只是希望為基因組建立一個標準化的、結構清晰的注釋語言。GO致力于各種基因組數據庫的標準化。GO為各種基因組分類系統和GO注釋之間的轉化提供了 轉化表,見數據庫索引文件來源UniProt Knowledgebasespkw2goEvelyn Camon (Note: spkw2go used to be called swp2go, all files remain the same.)Enzyme Commissionec2go Michael Ashb

20、urner EGADegad2goMichael Ashburner GenProtECgenprotec2goHeather Butler and Michael AshburnerTIGR role tigr2go Michael Ashburner TIGR Families tigrfams2go TIGR Staff InterProinterpro2goNicola MulderMIPS Funcatmips2goMichael Ashburner and Midori HarrisMetaCyc Pathwaysmetacyc2go Michael Ashburner and M

21、idori HarrisMultiFun Classificationsmultifun2goMichael Ashburner, Jane Lomax and Margrethe Hauge SerresPfam Domainspfam2goNicola MulderProdom Domains prodom2goNicola MulderPrints Domainsprints2goNicola MulderProSite Domainsprosite2goNicola MulderSmart Domainssmart2go Nicola MulderREADME需要注意的是,這些轉化不是

22、完全而精確的。其中的一個原因可能是GO有一套完整的定義系統,而很多數據庫并不具有。 GO的應用GO的局限性1. GO 不是基因序列或基因產物數據庫,相反的,GO強調基因產物在細胞中的功能。2. GO不是整合數據庫的一種方式(如聯邦式整合數據庫),它并不能做到這點是因為:a. 更新速度較慢b. 由于每個人對數據定義的方式不同,標準難以達到一致。c. GO并不對生物學的每個方面進行描述。如功能域的結構、3D結構、進化等。3GO 是對基因功能的注解,但是有其局限性。比如說,GO不能反映此基因的表達情況,即是否在特定細胞中、特定組織中、特定發育階段或與某種疾病相關。GO雖然 不涉及這些方面,

23、但是支持其他的OBO(open biology ontologies)成員成立其他類型的本體論數據庫(如發育本體學、蛋白組本體學、基因芯片本體學等)用于基因組分析基因組和全長cDNA序列工程通常會根據序列的相似性,推測基因與已注釋的基因功能類似?,F在最常用的手段是在SWISS-PROT序列中設定一個相似性 的域值,使用計算機化的方法來判斷。因此,根據這一原理,也可以得到新的GO注釋(被標記為“根據電子注釋推測”)。一個GO的重要應用方面是對于一個 GO術語,能形成一個相聯系的基因產物組。舉例來說,某一基因產物可以被精確地注釋為在碳水化合物代謝的一個特定的功能,如葡萄糖代謝,而在總結碳水化合 物代謝時,所有這些基因產物都會聚集到一起。GO計劃為每一個高頻出現的術語建立文檔總匯,現在有些已經在“GO Slim”中實現了。用于基因表達分析如在芯片數據中引入GO注釋,通常可以揭示出為什么一個特定組的基因擁有相似的表達模式。共表達的基因可能編碼在同一個生物過程中出現的基因產物,或定位 于同一個細胞部位的。如果未知基因和一些已被GO過程術語相似地注釋了的基因共表達,那么這個未知基因很有可能在同一個過程中發揮功能。分析和操作基因表 達芯片數據,并且又能結合G

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論