資源介紹及使用手冊_第1頁
資源介紹及使用手冊_第2頁
資源介紹及使用手冊_第3頁
資源介紹及使用手冊_第4頁
資源介紹及使用手冊_第5頁
已閱讀5頁,還剩13頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、NCBI資源介紹及使用手冊NCBI 資源介紹  本文目錄:NCBI(美國國立生物技術信息中心) 簡介 NCBI 站點地圖 NCBI癌癥基因組研究 NCBICoffee Break NCBI基因和疾病 NCBIUniGene Cluster of Orthologous Groups of proteins(COG)介紹 Gene Expression Omnibus (GEO)介紹 LocusLink介紹 關于RefSeq:NCBI參考序列   

2、NCBI(美國國立生物技術信息中心)簡介 介紹理解自然無聲但精妙的關于生命細胞的語言是現代分子生物學的要求。通過只有四個字母來代表DNA化學亞基的字母表,出現了生命過程的語法,其最復雜形式就是人類。闡明和使用這些字母來組成新的“單詞和短語”是分子生物學領域的中心焦點。數目巨大的分子數據和這些數據的隱秘而精細的模式使得計算機化的數據庫和分析方法成為絕對的必須。挑戰在于發現新的手段去處理這些數據的容量和復雜性,并且為研究人員提供更好的便利來獲得分析和計算的工具,以便推動對我們遺傳之物和其在健康和疾病中角色的理解。國立中心的建立后來的參議員Claude Pepper意識到信息計算機化過程方

3、法對指導生物醫學研究的重要性,發起了在1988年11月4日建立國立生物技術信息中心(NCBI)的立法。NCBI是在NIH的國立醫學圖書館(NLM)的一個分支。NLM是因為它在創立和維護生物信息學數據庫方面的經驗被選擇的,而且這可以建立一個內部的關于計算分子生物學的研究計劃。NCBI的任務是發展新的信息學技術來幫助對那些控制健康和疾病的基本分子和遺傳過程的理解。它的使命包括四項任務:建立關于分子生物學,生物化學,和遺傳學知識的存儲和分析的自動系統 實行關于用于分析生物學重要分子和復合物的結構和功能的基于計算機的信息處理的,先進方法的研究 加速生物技術研究者和醫藥治療人員對數據庫和軟件的使用。 全

4、世界范圍內的生物技術信息收集的合作努力。 NCBI通過下面的計劃來實現它的四項目的:基本研究 NCBI有一個多學科的研究小組包括計算機科學家,分子生物學家,數學家,生物化學家,實驗物理學家,和結構生物學家,集中于計算分子生物學的基本的和應用的研究。這些研究者不僅僅在基礎科學上做出重要貢獻,而且往往成為應用研究活動產生新方法的源泉。他們一起用數學和計算的方法研究在分子水平上的基本的生物醫學問題。這些問題包括基因的組織,序列的分析,和結構的預測。目前研究計劃的一些代表是:檢測和分析基因組織,重復序列形式,蛋白domain和結構單元,建立人類基因組的基因圖譜,HIV感染的動力學數學模型,數據庫搜索中

5、的序列錯誤影響的分析,開發新的數據庫搜索和多重序列對齊算法,建立非冗余序列數據庫,序列相似性的統計顯著性評估的數學模型,和文本檢索的矢量模型。另外,NCBI研究者還堅持推動與NIH內部其他研究所及許多科學院和政府的研究實驗室的合作。 數據庫和軟件  在1992年10月,NCBI承擔起對GenBank DNA序列數據庫的責任。NCBI受過分子生物學高級訓練的工作人員通過來自各個實驗室遞交的序列和同國際核酸序列數據庫(EMBL和DDBJ)交換數據建立起數據庫。同美國專利和商標局的安排使得專利的序列信息也被整合。GenBank是NIH遺傳序列數據庫,一個所有可以公開獲得

6、的DNA序列的注釋過的收集。GenBank同日本和歐洲分子生物學實驗室的DNA數據庫共同構成了國際核酸序列數據庫合作。這三個組織每天交換數據。GenBank以指數形式增長,核酸堿基數目大概每14個月就翻一個倍。最近,GenBank擁有來自47,000個物種的30億個堿基。 孟德爾人類遺傳(OMIM),三維蛋白質結構的分子模型數據庫(MMDB),唯一人類基因序列集合(UniGene),人類基因組基因圖譜,分類學瀏覽器,同國立癌癥研究所合作的癌癥基因組剖析計劃(CGAP)。Entrez是NCBI的為用戶提供整合的訪問序列,定位,分類,和結構數據的搜索和檢索系統。Entrez同時也提供序列

7、和染色體圖譜的圖形視圖。Entrez是一個用以整合NCBI數據庫中信息的搜尋和檢索工具。這些數據庫包括核酸序列,蛋白序列,大分子結構,全基因組,和通過PubMed檢索的MEDLINE。Entrez的一個強大和獨特的特點是檢索相關的序列,結構,和參考文獻的能力。雜志文獻通過PubMed獲得,PubMed是一個網絡搜索界面,可以提供對在MEDLINE上的九百萬雜志引用的訪問,包含了鏈接到參與的出版商網絡站點的全文文章。 BLAST是一個NCBI開發的序列相似搜索程序,還可作為鑒別基因和遺傳特點的手段。BLAST能夠在小于15秒的時間內對整個DNA數據庫執行序列搜索。NCBI提供的附加的軟件工具有:

8、開放閱讀框尋覓器(ORF Finder),電子PCR,和序列提交工具,Sequin和BankIt。所有的NCBI數據庫和軟件工具可以從WWW或FTP來獲得。NCBI還有E-mail服務器,提供用文本搜索或序列相似搜索訪問數據庫一種可選方法。教育和訓練 NCBI通過贊助會議,研討會,和系列演講來培養在應用于分子生物學和遺傳學的計算機領域的科學交流。一個科學訪問學者項目已經成立,來培養同外部科學家的合作。作為NIH內部的部分研究項目,也提供博士后工作位置。NCBI站點地圖-關于Database的一般介紹  GenBank Overview基本信息 什么是GenBank?GenBank是一

9、個有來自于70,000多種生物的核苷酸序列的數據庫。每條紀錄都有編碼區(CDS)特征的注釋,還包括氨基酸的翻譯。GenBank屬于一個序列數據庫的國際合作組織,包括EMBL和DDBJ。 紀錄樣本 - 關于GenBank的各個字段的詳細描述,以及同Entrez搜索字段的交叉索引。 訪問GenBank - 通過Entrez Nucleotides來查詢。用accession number,作者姓名,物種,基因/蛋白名字,還有許多其他的文本術語來查詢。關于Entrez更多的信息請看下文。用BLAST來在GenBank和其他數據庫中進行序列相似搜索。用E-mail來訪問Entrez和BLAST可以通過

10、Query和BLAST服務器。另外一種選擇是可以用FTP下載整個的GenBank和更新數據。 增長統計 - 參見公布通知的(每個分類的統計),2.2.7(每個物種的統計),2.2.8(GenBank增長)小節。 公布通知,最新 - 最近和即將有的變化,GenBank的分類,數據增長統計,GenBank的引用。 公布通知,舊 - 同上相同,是過去公布的統計。 遺傳密碼 - 15個遺傳密碼的概要。用來確保GenBank中紀錄的編碼序列被正確的翻譯。 (向)GenBank提交(數據) 關于提交序列數據,收到accession number,和對紀錄作更新的一般信息。 BankIt - 用于一條或者少

11、數條提交的基于WWW的提交工具軟件。(請在提交前用VecScreen去除載體) Sequin - 提交軟件程序,用于一條或者很多條的提交,長序列,完整基因組,alignments,人群/種系/突變研究的提交。可以獨立使用,或者用基于TCP/IP的“network aware”模式,可以鏈接到其他NCBI的資源和軟件比如Entrez和PowerBLAST。(請在提交前用VecScreen去除載體) ESTs - 表達序列標簽,短的、單次(測序)閱讀的cDNA序列。也包括來自于差異顯示和RACE實驗的cDNA序列。 GSSs - 基因組調查序列,短的、單次(測序)閱讀的cDNA序列,exon tr

12、ap獲得的序列,cosmid/BAC/YAC末端,及其他。 HTGs - 來自于大規模測序中心的高通量基因組序列,未完成的(階段0,1,2)和完成的(階段3)序列。(注意:完成的人類的HTG序列可以同時在GenBank和Human Genome Sequencing頁面上訪問。) STSs - 序列標簽位點。短的在基因組上可以被唯一操作的序列,用于產生作圖位點。 注:SNPs - 人類的和其他物種的遺傳變異數據可以提交到NCBI數據庫的單核苷酸多態性庫中(dbSNP)。  國際核苷酸序列數據庫合作組織 GenBank,DDBJ,EMBL - 合作計劃的概述,并鏈接到相應的主頁。Gen

13、Bank,DDBJ(DNA Data Bank of Japan),and EMBL (European Molecular Biology Laboratory)數據庫共享的數據是每天都交換的,因此他們是相等的。數據紀錄的格式和搜索方式可能會不一樣,但是accession number,序列數據和注解都是一模一樣的。即,你可以用accession number U12345在GenBank,DDBJ或EMBL中查找相應紀錄,得到的結果是完全一樣的序列數據,參考內容等等。DDBJ/EMBJ/GenBank特性表 特性表格式和標準被合作數據庫用在序列記錄的注釋上,使得數據共享成為可能,包括詳細的

14、描述生物特性和特性限定語的附錄,以及IUPAC規定的核苷酸和氨基酸的代號。  FTP GenBank and Daily UpdatesGenBank普通文件格式 參見GenBank記錄樣本和在GenBank公布通知中的詳細描述,下載大多數最近的完全公告和日常積累或非積累更新數據。ASN.1格式 摘要句法記號1,國際標準組織(ISO)數據表示格式,下載大多數最近的完全公告和日常積累或非積累更新數據。 FASTA格式 定義行號后只跟隨序列數據(示例),參見描述數據庫的readme文件,包括nt.Z(每天更新的非冗余BLAST核酸數據庫,包括GenBank+EMBL+DDBJ+PDB序列

15、,但是不包括EST, STS, GSS, or HTGS序列),nr.Z(每日更新的非冗余蛋白質),est.Z, gss.Z, htg.Z, sts.Z,和其它文件。 核酸序列Entrez核酸 用accession number,作者姓名,物種,基因/蛋白名字,以及很多其它的文本術語來搜索核酸序列記錄(在GenBank + PDB中)。更多的關于Entrez的信息見下。如果要檢索大量數據,也可使用Batch Entrez(批量Entrez)。 RefSeq NCBI數據庫的參考序列。校正的,非冗余集合,包括基因組DNA contigs,已知基因的mRNAs和蛋白,在將來,整個的染色體。Acce

16、ssion numbers用NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和NC_xxxxxx的形式來表示。 dbEST 表達序列標簽數據庫,短的、單次(測序)閱讀的cDNA序列。也包括來自于差異顯示和RACE實驗的cDNA序列。 dbGSS 基因組調查序列的數據庫,短的、單次(測序)閱讀的cDNA序列,exon trap獲得的序列,cosmid/BAC/YAC末端,及其他。 dbSTS 序列標簽位點的數據庫,短的在基因組上可以被唯一操作的序列,用于產生作圖位點。 dbSNP 單核苷酸多態性數據庫,包括SNPs,小范圍的插入/缺失,多態重復單元,和微衛星變異。 完整的基因組

17、 參見下面Genome和Maps部分,包括各種物種資源,人,小鼠,大鼠,酵母,線蟲,瘧原蟲,細菌,病毒,viroids,質粒。 UniGene 被整理成簇的EST和全長mRNA序列,每一個代表一種特定已知的或假設的人類基因,有定位圖和表達信息以及同其它資源的交叉參考。序列數據可以以cluster形式在Unigene網頁下載,完整的數據可以從FTP站點repository/UniGene目錄下下載。 人類UniGene 小鼠UniGene 大鼠UniGene 斑馬魚UniGene BLAST 將你的序列同核酸庫中的的序列比較,檢索相似的序列。(更詳細的信息見下面Tools/Sequence相似搜

18、索部分) 蛋白序列  Entrez蛋白 用accession number,作者姓名,物種,基因/蛋白名字,以及很多其它的文本術語來搜索蛋白序列記錄(在GenPept + Swiss-Prot + PIR + RPF + PDB中)。更多的關于Entrez的信息見下。如果要檢索大量數據,也可使用Batch Entrez(批量Entrez)。 RefSeq NCBI數據庫的參考序列。Curated, 非冗余集合包括基因組DNA contigs,已知基因的mRNAs和蛋白,在將來,整個的染色體。Accession numbers用NT_xxxxxx, NM_xxxxxx, NP_xxxx

19、xx, 和NC_xxxxxx的形式來表示。 FTPGenPept 下載“genpept.fsa.Z”文件,這個文件包含了從GenBank/EMBL/DDBJ記錄中翻譯過來的FASTA格式的氨基酸序列,這些記錄都有一到兩個CDS特性的描述。 完整基因組 參見下面Genome和Maps部分,包括各種物種資源,人,小鼠,大鼠,酵母,線蟲,瘧原蟲,細菌,病毒,viroids,質粒。 Entrez基因組 提供了一個編碼區的概要和各種物種的分類表(TaxTable)。編碼區概要列出了在基因組中所有的的蛋白,并提供鏈接到FASTA文件和BLAST。分類表總結了蛋白BLAST分析的結果,建議他們的可能功能,并

20、用顏色編碼的圖來顯示物種同其它物種之間的關系(參見下面'Genomes和Maps,'部分Entrez基因組的一般描述) FTP基因組蛋白 從ftp站點的genbank/genomes目錄下下載各種物種的FASTA格式的氨基酸序列*.faa和蛋白表文件*.ptt。參見readme文件。蛋白表也可以在Entrez基因組中看到。 PROW Web上的蛋白資源,關于大約200種人類的CD細胞表面分子的簡短官方向導。互相檢索,為每個CD抗原提供大約20中標準信息的分類(生化功能,配體,等等) BLAST 將你的序列同蛋白庫中的的序列比較,檢索相似的序列。(更詳細的信息見下面Tools/S

21、equence相似搜索部分) 結構  結構主頁 關于NCBI結構小組的一般信息和他們的研究計劃,另外也可以訪問分子模型數據庫(MMDB)和用來搜索和顯示結構的相關工具。 MMDB:分子模型數據庫 一個關于三維生物分子結構的數據庫,結構來自于X-ray晶體衍射和NMR色譜分析。MMDB是來源于Brookhaven蛋白數據庫(PDB)三維結構的一部分,排除了那些理論模型。MMDB重新組織和驗證了這些信息,從而保證在化學和大分子三維結構之間的交叉參考。數據的說明書包括生物多聚體的空間結構,這個分子在化學上是如何組織的,以及聯系兩者的一套指針。利用將化學,序列,和結構信息整合在一起,MMDB

22、計劃成為基于結構的同源模型化和蛋白結構預測的資源服務。MMDB的記錄以ASN.1格式存儲,可以用Cn3D, Rasmol, 或 Kinemage來顯示。另外,數據庫中類似的結構已經被用VAST確認,新的結構可以用VASTsearch來同數據庫進行比較。 Cn3D “See in 3-D”, 一個用于NCBI數據庫的結構和序列相似顯示工具,它允許觀察3-D結構和序列結構或結構結構同源比較。Cn3D用起來就象你瀏覽器上的一個幫助工具。 VAST 矢量同源比較搜索工具一個在NCBI開發的計算算法,用于確定相似的蛋白三維結構。每一個結構的“結構鄰居”都是預先計算好的,而且可以通過MMDB的結構概要頁面

23、的鏈接訪問。這些鄰居可以用來確認那些不能被序列比較識別的遠的同源性。 VAST 搜索 結構結構相似搜索服務。比較一個新解出的蛋白結構和在MMDB/PDB數據庫中的結構的三維坐標。VAST搜索計算一系列可能會被交互瀏覽的結構鄰居,用分子圖形來觀察重疊和同源相似。 分類學 NCBI的分類數據庫主頁 關于分類計劃的一般信息,包括分類資源和同NCBI分類學家合作的外部管理者的列表。 分類瀏覽器 搜索NCBI的分類數據庫,包括大于70000個物種的名字和種系,這些物種都至少在遺傳數據庫中有一條核酸或蛋白序列。可以檢索一個特定種或者更高分類(如屬,科)的核酸,蛋白,和結構記錄。如果有新物種的序列數據被放到

24、數據庫中,這個物種就北加到(分類)數據庫中。NCBI的分類數據庫的目的是為序列數據庫建立一個一致的種系發生分類學。 文獻數據庫概要  PubMed 一個關于生物醫藥科學的檢索系統,包括引用,摘要,和雜志的索引術語。它包括直接由出版商提供給NCBI的文獻引用以及鏈接到在出版商網址上的全文的URLs。 PubMed包括MEDLINE和PREMEDLINE的完整內容。它還包括一些被MEDLINE認為超出范圍的文章和雜志,(這些文章或雜志)由于內容或在某一時期不在索引范圍內。因此PubMed是比MEDLINE的更大的集合。 雜志瀏覽器 允許你去查找收錄到PubMed系統的雜志的名字,MEDL

25、INE的縮寫,或ISSN號碼。 PubRef(開發中) 一個關于來自于廣大范圍的科學雜志的數目記錄,和鏈接到出版商網址的全文。PubRef包含了PubMEd,加上了來自其它學科的雜志出版商提供的引用和摘要。因此它是比PubMed更大的集合。這個計劃的啟動是因為NAS要求為科學領域的電子雜志提供一個“白皮書”服務。 PubMed中心(開發中) PubMed中心是一個無障礙的NIH資源,用于在生命科學領域中同業互查的基礎研究報告。從2000年一月開始接受雜志文章。所有在PubMed中心的材料將由目前任一主要的摘要和索引服務中列出的雜志提供,或者在編輯委員會中擁有3個以上有主要資金機構的研究經費的擁

26、有人的雜志提供。 OMIM 在線人類孟德爾遺傳經常更新的人類基因和遺傳失調的目錄,有鏈接到其它相關的文獻參考,序列記錄,和相關數據庫。 書籍 同書籍出版商合作NCBI為網絡改編了教科書,并把他們鏈接到PubMed生物醫藥書目數據庫。這是為了給PubMed提供背景信息,這樣使用者可以探究在PubMed搜索結果中不熟悉的概念。目前收錄的書有: Molecular Biology of the Cell, 3rd ed. Alberts B., Bray D., Lewis J., Raff M., Roberts K., Watson J.D., 1994, Garland Publishing.

27、 外部鏈接 一個登記服務,用于建立從在Entrez中的特定的文章,雜志,或生物數據到外部網址的鏈接。第三方可以提供一個URL,資源名字,關于他們網址的簡要的描述,和關于從NCBI數據的哪里他們希望建立鏈接的詳細說明。這個詳細說明可以用對Entrez有效的布爾查詢來寫,也可以用特定的文章或序列的標志列表來寫。這樣NCBI PubMed的用戶將可以通過“NCBI小房間”服務(開發中)來選擇哪個外部鏈接在他們的搜索中是可見的。 引用匹配 允許你找到任何一篇在PubMed數據庫中的文章的PubMed ID或MEDLINE UID,給出書目信息(雜志,卷,頁碼等)。 單篇文章的引用匹配。 許多文章的批量

28、引用匹配。 E-mail引用匹配也是可以的,也可以用于單篇或許多文章。如果要獲得幫助文件,給citation_寫一封只有內容為HELP的E-Mail。 Genomes and Maps OverviewEntrez基因組:人,小鼠,大鼠,酵母,線蟲,瘧原蟲,細菌,病毒,viroids,質粒,和真核細胞器。 Entrez基因組(各種物種) Entrez基因組 超過800種在GenBank中被完整測序的物種,包括大于500種病毒,25種細菌,酵母,和許多viroids,質粒,和細胞器。還包括正在進行中的基因組,比如人,小鼠,線蟲,瘧原蟲,果蠅,利什曼原

29、蟲,水稻,和玉米。提供完成的基因組/染色體的圖形概覽,并可以探究那些逐步細化的區域。也提供那些已經被NCBI工作人員分析過的物種的編碼區的摘要和TaxTables。另外,Entrez Map Viewer,Entrez基因組的一個軟件組成部分,提供整合的果蠅(細胞遺傳學和序列圖譜)和人類(細胞遺傳學,遺傳連鎖,序列,放射雜交,和其它圖譜)的染色體圖譜的瀏覽。 通過每個物種的Entrez基因組頁面來下載350kb的基因組。 通過NCBI ftp站點來下載350kb的基因組參見在genbank/genomes目錄下的readme文件,ftp鏈接在每個物種的Entrez基因組頁面上也有。  

30、;NCBI站點地圖-Human Genome人類基因組數據介紹向導 人類基因組資源向導 可用的人類基因組數據資源概覽。包括關于人類基因組的公告和進展報告和提供對以前分離的數據的集中訪問。 人類基因組序列數據的狀態 描述了目前在GenBank中的數據的范圍,包括完成的和草圖高通量基因組序列數據的討論。染色體 人類基因組測序 每一條染色體,概述了人類基因組計劃的測序進展(圖示和統計)。提供對基因組序列數據的訪問,也有鏈接到參與的國際基因組中心,各種STS圖譜,疾病基因信息,和選擇出的參考文獻。列出完成的contig的大小和位置。Contig可以被顯示出來,以表示組成他們的GenBank中的記錄的成

31、分,或者那些由e-PCR確定的位于其上的STS標記。Contig用在GenBank中處于第三期的HTG序列記錄來組裝起來,組裝的辦法是用Jang, et al描述的過程,并給于一個NT_*的accession number,作為RefSeq計劃的一部分。關于各期HTG序列的詳細說明見HTG網頁。 Entrez圖譜瀏覽器 整合的染色體圖譜圖譜瀏覽器是Entrez基因組的一個軟件組成部分,用來顯示一個或多個用共同標記或基因名字互相align過的圖譜,以及用相同序列進行比較過的序列圖譜。在人類基因組數據和搜索技巧文件中有關于20種序列,細胞遺傳,遺傳連鎖,放射雜交,和其它的圖譜。Entrez圖譜瀏覽

32、器的幫助文件提供了關于如何使用這個工具的一般說明。 FTP 每個染色體都有一個文件目錄包含各種格式的完成的基因組contig(NT_*記錄): hs_chr*.asn ASN.1 格式 (description above) hs_chr*.fna.gz FASTA 格式(description above) hs_chr*.gbk.gz GenBank flat file 格式 (目前注解包括STS標記,已知和預期的基因將被在將來幾個月中加入) hs_chr*.gbs GenBank summary 格式 (這個格式不含有序列數據,但是包含一個“CONTIG”字段,表明這個contig是如何

33、有獨立的GenBank記錄組裝起來的。) BLAST人類基因組序列數據 BLAST人類染色體 將一個核酸或蛋白序列同已經完成的HTG contig比較。Contig用在GenBank中處于第三期的HTG序列記錄來組裝起來,組裝的辦法是用Jang, et al描述的過程,并給于一個NT_*的accession number,作為RefSeq計劃的一部分。關于各期HTG序列的詳細說明見HTG網頁。同人類染色體作BLAST是人類基因組測序頁面的一個組成部分。 BLAST htgs數據庫 將一個核酸或蛋白序列同未完成的HTG序列(第0,1,2期)進行比較(關于各期HTG序列的詳細說明見HTG網頁)。盡

34、管htgs數據庫包含有來自許多物種的序列,你可以使用Advanced BLAST頁面來限定你的搜索只在人類。 BLAST gss數據庫 將一個核酸或蛋白序列同隨機的“單次(測序)閱讀”的基因組調查序列比較,如同cosmid/BAC/YAC末端序列,exon trap獲得的基因組序列,和Alu PCR序列。盡管gss數據庫包含有來自許多物種的序列,你可以使用Advanced BLAST頁面來限定你的搜索只在人類。   基因  位點鏈接(LocusLink) 為校正過的序列和遺傳位點的描述信息提供一個單次查詢界面。LocusLink給每個位點發布一個穩定的ID,并提供

35、官方的命名,同名,序列accesssion number,表型,EC號碼,OMIM號碼,Unigene簇,圖譜信息,和相關的網址。LocusLink是NCBI,人類基因命名委員會,OMIM和其它組織的合作結果。LocusLink目前包含人類,小鼠,大鼠,斑馬魚,和果蠅的位點,物種可以被分開或合在一起查詢。 OMIM 在線人類孟德爾遺傳經常更新的人類基因和遺傳失調的目錄,有鏈接到其它相關的文獻參考,序列記錄,和相關數據庫。 RefSeq NCBI數據庫的參考序列。校正的,非冗余集合,包括基因組DNA contigs,已知基因的mRNAs和蛋白,在將來,整個的染色體。Accession numbe

36、rs用NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和NC_xxxxxx的形式來表示。 UniGene 被整理成簇的EST和全長mRNA序列,每一個代表一種特定已知的或假設的人類基因,有定位圖和表達信息以及同其它資源的交叉參考。序列數據可以以cluster形式在Unigene網頁下載,完整的數據可以從FTP站點repository/UniGene目錄下下載。 序列 人類基因組測序 每一條染色體,概述了人類基因組計劃的測序進展(圖示和統計)。提供對基因組序列數據的訪問,也有鏈接到參與的國際基因組中心,各種STS圖譜,疾病基因信息,和選擇出的參考文獻。列出完成的contig的大

37、小和位置。Contig可以被顯示出來,以表示組成他們的GenBank中的記錄的成分,或者那些由e-PCR確定的位于其上的STS標記。Contig用在GenBank中處于第三期的HTG序列記錄來組裝起來,組裝的辦法是用Jang, et al描述的過程,并給于一個NT_*的accession number,作為RefSeq計劃的一部分。關于各期HTG序列的詳細說明見HTG網頁。 RefSeq NCBI數據庫的參考序列。校正的,非冗余集合,包括基因組DNA contigs,已知基因的mRNAs和蛋白,在將來,整個的染色體。Accession numbers用NT_xxxxxx, NM_xxxxxx,

38、 NP_xxxxxx, 和NC_xxxxxx的形式來表示。 Entrez 對GenBank, EMBL, DDBJ, PIR-International, PRF, Swiss-Prot, and PDB數據庫中的核酸和蛋白序列數據提供整合的訪問,同時提供對3D蛋白結構,基因組圖譜信息和PubMed MEDLINE的訪問。Entrez包含了對每個數據庫記錄的預先計算好的相似搜索,產生一個相關序列,結構,和MEDLINE記錄的表。包括了來自70000個物種的序列數據,可以用物種字段來限制記錄只在人類搜索。 UniGene 被整理成簇的EST和全長mRNA序列,每一個代表一種特定已知的或假設的人類

39、基因,有定位圖和表達信息以及同其它資源的交叉參考。序列數據可以以cluster形式在Unigene網頁下載,完整的數據可以從FTP站點repository/UniGene目錄下下載。 DbEST 表達序列標簽數據庫短的(300500bp)的cDNA序列,代表mRNA的單次(測序)閱讀。常常有大量的EST被測序,并代表了在一個給定的組織或一個給定的發育階段的基因表達的快照。同時包含了由CGAP計劃產生的ESTs,和來自差異顯示及RACE實驗的序列。 克隆 克隆登記 由多方人類基因組測序中心使用的數據庫,用來記錄哪些克隆已經被選來測序,哪些正在被測序,哪些已經完成,哪些已經被送到GenBank中去

40、了。包括BACs, PACs, cosmids, fosmids。使用統一的克隆名字表示克隆在微量板上的位置(板號,行,和列),位置前面加上庫的縮寫,來產生唯一的名字。包括了克隆定購的信息。 基因組圖譜 Entrez基因組 鏈接到人類基因組測序站點的人類染色體視圖。Entrez基因組同時包括了一個人類線粒體的視圖(通過真核細胞器來訪問),可以查看完整情況或查看逐步詳細的信息。 Entrez圖譜瀏覽器 整合的染色體圖譜圖譜瀏覽器是Entrez基因組的一個軟件組成部分,用來顯示一個或多個用共同標記或基因名字互相align過的圖譜,以及用相同序列進行比較過的序列圖譜。在人類基因組數據和搜索技巧文件中

41、有關于20種序列,細胞遺傳,遺傳連鎖,放射雜交,和其它的圖譜。Entrez圖譜瀏覽器的幫助文件提供了關于如何使用這個工具的一般說明。 GeneMap99 35000個人類基因標記的物理圖譜,由國際放射雜交圖譜聯合用一致的RH試劑和方法建成。提供了突出了染色體上關鍵標志(富含基因區)的框架,從而加速了測序,代表了超過100名科學家的國際合作努力。 NCBI RH圖譜 NCBI整合的RH圖譜,包括來自GeneMap99的G3和GB4的RH單子上的23723個標記。這些標記相對于1084個框架標記(一個G3和GB4共同的子集)被繪制。所有的標記被統一在GB4的尺度上。R. Agarwala et a

42、l.的文章提供了詳細的整合策略,以及評估整合圖譜質量的方法。 Mitelman癌癥染色體變異摘要 由Drs. Mitelman, Mertens, 和 Johansson建立的基因組范圍的人類癌癥中染色體斷裂位點圖譜。參見Nature Genetics, Vol. 15(Spec. No.):417-74 (April 1997)的超文本版本。 OMIM基因圖 被報道的和被許多定位方法決定的基因的細胞遺傳位點。可以用基因代號或細胞遺傳染色體位點來搜索。可以從OMIM頁面上訪問。 OMIM致病圖 按字母排列的疾病和相應的細胞遺傳圖位點,鏈接到OMIM的條目。可以從OMIM頁面訪問。 人類/小鼠同

43、源圖 University of California at Davis的M. F. Seldin建立,一張比較人和老鼠在同源區段DNA上基因的表,按在每個基因組上的位置排列。   繪制的標記  dbSTS 序列標簽位點的數據庫,短的在基因組上可以被唯一操作的序列,因而可以確定在物理圖譜上的特定位置。 電子PCR(e-PCR) 找到一個查詢序列的假設位點圖。用于在DNA序列上發現STS位點計算過程。 GeneMap99 35000個人類基因標記的物理圖譜,由國際放射雜交圖譜聯合用一致的RH試劑和方法建成。提供了突出了染色體上關鍵標志(富含基因區)的框架,從而加速了

44、測序,代表了超過100名科學家的國際合作努力。 人類基因組測序 繪制的標記已經用e-PCR自動被放到完成的HTG序列組成的contig上。標記來源于dbSTS, GeneMap'99(基于基因的標記),Stanford G3 RH單子(又有基因標記也有非基因標記),Whitehead GB4 RH單子和YAC圖譜(又有基因標記也有非基因標記),Genethon遺傳圖譜,和一些染色體特異的圖譜,如NHGRI的7號染色體圖譜,Washington University的X染色體圖譜。 OMIM基因圖 被報道的和被許多定位方法決定的基因的細胞遺傳位點。可以用基因代號或細胞遺傳染色體位點來搜索

45、。可以從OMIM頁面上訪問。基因表達 CGAP cDNA表達譜 在UniGene簇和cDNA庫中的ESTs分布。可以在CGAP頁面上訪問。 SAGEmap CGAP SAGE(Serial Analysis of Gene Expression)庫的差異顯示。也包含了對在人類GenBank記錄中的SAGE標簽的完整分析,在人類GenBank記錄中一個UniGene的標志被分配給了每個含有一個SAGE標簽的人類序列 遺傳變異 dbSNP 單核苷酸多態性數據庫,包括SNPs,小范圍的插入/缺失,多態重復單元,和微衛星變異。DbSNP包含種族特異的頻率和基因型數據,實驗條件,分子上下文,及中性多態和

46、臨床變異的定位信息。 OMIM 在線人類孟德爾遺傳約900個OMIM記錄的等位變異。為了查看這些OMIM記錄的列表,在等位變異字段上搜索“0001”。或者,把一個疾病的名字同“0001”放到一起。如:Gaucher & 0001。 位點特異突變數據庫 從OMIM主頁和相關的LocusLink條目鏈接到許多外部數據庫。 失調 基因和疾病 介紹遺傳因素和人類疾病的關系。有約60種遺傳疾病的概要信息,以及鏈接到相關數據庫和組織。 Mitelman癌癥染色體變異摘要 由Drs. Mitelman, Mertens, 和 Johansson建立的基因組范圍的人類癌癥中染色體斷裂位點圖譜。參見Na

47、ture Genetics, Vol. 15(Spec. No.):417-74 (April 1997)的超文本版本。 OMIM 在線人類孟德爾遺傳經常更新的人類基因和遺傳失調的目錄,有鏈接到其它相關的文獻參考,序列記錄,和相關數據庫。 OMIM Morbid Map - alphabetical listing of diseases and corresponding cytogenetic map locations, with links to OMIM entries. Accessible from OMIM page (see Genes). OMIM致病圖 按字母排列的疾病和

48、相應的細胞遺傳圖位點,鏈接到OMIM的條目。可以從OMIM頁面訪問。 癌癥研究 CCAP 癌癥染色體變異計劃計劃用來加速同惡性轉移相關的顯著染色體變異的定義和詳細的特征描述。 CGAP 癌癥基因組剖析計劃 交叉學科項目,目的是基于cDNA庫,鑒定在不同癌癥階段的人類基因表達,和決定正常,癌前和惡性細胞的分子表達譜。是NCI,NCBI和其它許多實驗室的合作。 Mitelman癌癥染色體變異摘要 由Drs. Mitelman, Mertens, 和 Johansson建立的基因組范圍的人類癌癥中染色體斷裂位點圖譜。參見Nature Genetics, Vol. 15(Spec. No.):417-

49、74 (April 1997)的超文本版本。 SAGE分析 在癌癥庫中的SAGE標簽的差異表達   NCBI站點地圖-其他基因組數據介紹小鼠基因組 小鼠基因組資源向導 把從各個中心來的各種小鼠相關的資源整合在一起,包括序列,圖譜,和克隆信息以及指向小鼠種系和突變資源的指針。 小鼠基因組測序 小鼠基因組計劃的測序進展,HTG序列contigs(可以用大小和染色體號來瀏覽)由測序中心的數據建立,可以contig或染色體的形式來下載。 小鼠UniGene 被整理成簇的EST和全長mRNA序列,每一個代表一種特定已知的或假設的基因,有定位圖和表達信息以及同其它資源的交叉參

50、考。序列數據可以以cluster形式在Unigene網頁下載,完整的數據可以從FTP站點repository/UniGene目錄下下載 位點鏈接(LocusLink) 為校正過的序列和遺傳位點的描述信息提供一個單次查詢界面。LocusLink給每個位點發布一個穩定的ID,并提供官方的命名,序列accesssion number, Unigene簇,圖譜信息,和相關的網址。LocusLink是NCBI,人類基因命名委員會,OMIM和其它組織的合作結果。LocusLink目前包含人類,小鼠,大鼠,斑馬魚,和果蠅的位點,物種可以被分開或合在一起查詢。 Entrez 包括了來自70000個物種的序列數

51、據,可以用物種字段來限制記錄只在小鼠搜索。 人類/小鼠同源圖 University of California at Davis的M. F. Seldin建立,一張比較人和老鼠在同源區段DNA上基因的表,按在每個基因組上的位置排列。  大鼠基因組大鼠UniGene 被整理成簇的EST和全長mRNA序列,每一個代表一種特定已知的或假設的基因,有定位圖和表達信息以及同其它資源的交叉參考。序列數據可以以cluster形式在Unigene網頁下載,完整的數據可以從FTP站點repository/UniGene目錄下下載 位點鏈接(LocusLink) 為校正過的序列和遺傳位點的描述信息提供一

52、個單次查詢界面。LocusLink給每個位點發布一個穩定的ID,并提供官方的命名,序列accesssion number, Unigene簇,圖譜信息,和相關的網址。LocusLink是NCBI,人類基因命名委員會,OMIM和其它組織的合作結果。LocusLink目前包含人類,小鼠,大鼠,斑馬魚,和果蠅的位點,物種可以被分開或合在一起查詢。 斑馬魚基因組斑馬魚UniGene 被整理成簇的EST和全長mRNA序列,每一個代表一種特定已知的或假設的基因,有定位圖和表達信息以及同其它資源的交叉參考。序列數據可以以cluster形式在Unigene網頁下載,完整的數據可以從FTP站點repository/UniGene目錄下下載 位點鏈接(LocusLink) 為校正過的序列和遺傳位點的描述信息提供一個單次查詢界面。LocusLink給每個位點發布一個穩定的ID,并提供官方的命名,序列accesssion number, Unigene簇,圖譜信息,和相關的網址。LocusLink是NCBI,人類基因命名委員會,OMIM和其它組織的合作結果。LocusLink目前包含人類,小鼠,大鼠,斑馬魚,和果蠅的位點,物種可以被分開或合在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論