




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
基因組分析及相關(guān)網(wǎng)絡(luò)分析平臺基因組分析及相關(guān)網(wǎng)絡(luò)分析平臺第一節(jié)基因結(jié)構(gòu)分析及相關(guān)網(wǎng)絡(luò)分析平臺第二節(jié)核酸序列組裝和基因定位分析及相關(guān)網(wǎng)絡(luò)分析平臺第三節(jié)新基因的發(fā)現(xiàn)及功能預(yù)測及相關(guān)網(wǎng)絡(luò)分析平臺第一節(jié)基因結(jié)構(gòu)分析及相關(guān)網(wǎng)絡(luò)分析平臺生物體基因結(jié)構(gòu)基因識別及預(yù)測其他位點分析基因結(jié)構(gòu)分析的一般步驟1、基因是一段與多肽鏈或功能RNA產(chǎn)生有關(guān)的DNA片段,包括編碼區(qū)前的引導(dǎo)序列、編碼區(qū)后的尾部序列、編碼區(qū)內(nèi)的插入序列和編碼區(qū)序列。2、基因是編碼一條多肽鏈或功能RNA(如rRNA、tRNA)所必需的全部核苷酸序列,是DNA分子鏈上特定區(qū)域。3、基因是遺傳信息的一種獨立單位。基因的概念隨著科學(xué)的發(fā)展而不斷發(fā)展,迄今為止,仍有各種說法。Todaywhenwespeakofageneforsomemalady,aregulatorygene,astructuralgene,oragenefrequency,itisentirelypossiblethatwearedeployingdifferentgeneconceptseventhoughweareusingthesameterm.
一生物體基因結(jié)構(gòu)基因的定義(一)原核生物基因結(jié)構(gòu)原核生物(真細(xì)菌、古細(xì)菌)
原核生物(prokaryote):由原核細(xì)胞構(gòu)成的單細(xì)胞生物
DNA分子無核膜包裹,遺傳信息量小;細(xì)胞小,直徑為0.2~10m,有細(xì)胞壁;細(xì)胞內(nèi)無細(xì)胞器,沒有明顯的核結(jié)構(gòu)。原核生物基因組結(jié)構(gòu)的特點1、原核生物基因組一般比真核生物基因組小得多
E.coli的基因組(4.6Mb)約為酵母基因組(12.1Mb)的2/52、絕大部分原核生物基因組由一個單一的環(huán)狀DNA分子組成3、原核生物的基因通常比真核生物的少E.coli:4000多個基因,人:~30000個4、原核生物的基因絕大多數(shù)是連續(xù)基因,不含間隔的內(nèi)含子;基因組結(jié)構(gòu)緊密,重復(fù)序列遠(yuǎn)少于真核生物的基因組。例子:E.coliK-12
雙鏈環(huán)狀DNA分子,全基因組長為4,600kb;
目前已經(jīng)定位的基因有4,289個;
非編碼區(qū)占的比例約為11.4%。高基因密度原核生物基因組的許多信息都是為了維持細(xì)胞的基本功能,如構(gòu)造和復(fù)制DNA,產(chǎn)生新蛋白質(zhì),以及獲得和存儲能量。完全測序的細(xì)菌和古細(xì)菌的基因組數(shù)據(jù)表明,其中85%到88%的核酸序列與基因的編碼直接相關(guān)。例如,在E.coli中總共有4,289個基因,平均編碼長度約為950bp,而基因之間的平均間隔長度只有~120bp。連續(xù)的基因結(jié)構(gòu)與真核基因結(jié)構(gòu)相比較,原核基因的結(jié)構(gòu)相對簡單。原核基因為連續(xù)基因,其編碼區(qū)是一個完整的DNA片段。但原核基因的轉(zhuǎn)錄起始、翻譯起始的調(diào)控機制比較復(fù)雜。完整的基因結(jié)構(gòu)從基因的5’-端啟動子區(qū)域開始,到3’-端終止區(qū)結(jié)束。基因的轉(zhuǎn)錄開始位置由轉(zhuǎn)錄起始位點確定,轉(zhuǎn)錄過程直至遇到轉(zhuǎn)錄終止位點結(jié)束,轉(zhuǎn)錄的內(nèi)容包括5’UTR、開放閱讀框以及3’UTR。基因翻譯的準(zhǔn)確起止位置由起始密碼子和終止密碼子決定,翻譯的對象即為介于這兩者之間的開放閱讀框。啟動子啟動子(promoter):是一段位于結(jié)構(gòu)基因5‘端上游區(qū)的DNA序列,能活化RNA聚合酶,使之與模板準(zhǔn)確地相結(jié)合并具有轉(zhuǎn)錄起始地特異性。Pribnow區(qū)或-10區(qū)Sextama或35區(qū)轉(zhuǎn)錄起點終止子(terminator)提供終止信號地序列,引發(fā)延伸聚合酶從DNA上脫離并且釋放它已經(jīng)合成的RNA鏈發(fā)卡結(jié)構(gòu)rU.dA區(qū)原核生物基因組的操縱子與基因群結(jié)構(gòu)操縱子(operator):
原核生物基因上,功能相關(guān)的幾個結(jié)構(gòu)基因前后連接,再加上一個共同的調(diào)節(jié)基因和一組共同的控制位點長開放閱讀框(ORF,openreadingframe)每條mRNA的蛋白質(zhì)編碼區(qū)由連續(xù)的、不交叉的、稱作可讀框的密碼子串組成,每個ORF對應(yīng)一個蛋白質(zhì),其起始和終止子都位于mRNA內(nèi)部,即ORF的終止子不同于mRNA的終止子。絕大部分原核生物蛋白質(zhì)的長度大于60個氨基酸;——(E.coli:蛋白質(zhì)編碼區(qū)域平均長度為316.8個密碼子,不到1.8%的基因的長度小于60個密碼子)長ORF表明該區(qū)域可能對應(yīng)于一個原核生物基因的編碼序列原核生物的基因結(jié)構(gòu)STOPATGATG…CCCTCGAAGC…ATGTranscriptionInitiationMotifCodingORFTranslationInitiationMotifUpstreamregionTextsfromcoding/noncodingregionsinDNAsequenceGTGAGGGATCGTGGGCATATTTCACAAACTTACTTTTAAAACCATACAACGAAGAAGCGGCCATAATGAACGACTCTTTACAGAATACGGATCTCATTTCACACTTCTCACATCCATTTTAGTTGGAAACACATGAAAGTGAGACCATCAGTTAAACCAATCTGCGAAAAATGTAAAGTTATTTCGCAGAAAAGGAAAAGTAATGGTGATCTGTGAAAATCCAAAGCATAAACAAAAACAAGGATAAGGTTATATAAATGAAAAGATTTCTGATTGGCGCAGGCGTCGCAGCGGTGATTTTATCAGGTTTGGTTTATTGCGGACCATCAAACCCACTCACAGGAAATGAAAGTCGCTGAGAAAATGATTGGATAAGAGATTATTGATGAAAATCAGCCGGATTCTATTGGCAGCAGTGATTTTAAGTAGTGTATTTTTCAATAACTTATTTGCAAAGTGATCATAATACTGAAATTAAAGTTGCTGCAGATCGGGTAGGGGCATAGGTGAGTTTGTATGAAATTGAAGTCTAAACTATTACTCTCTTGTCTGGCTCTAAGCACTGTGGTTCGTGGCAACAACTATTGCAAATGCACCTACACACCAAATTGAAGTTGCACAACGAGGAATGATTTAAAGCCCTCTCGATGGAAAAGATCCCTTGCTTCGCGGAGGAATTGATTATAGGCCTCTCTATCCTGGGGCCGCAAATATTCAAAGTCGAAATGAATGTCACGGAAGCCATATCTTCTGGCATTCTCGACTAGCACGGGACATATGATGGCTTGCAGGTCTTTTAAAGAGACAGCGGCGGTTTGTGACAAGTCAATCAGAAATCCTTCACCCGAGCGCTGCCGGCTGTTCATTTTCCGAAATGCTTCTATGTCTTTTTCATTCTGACGCCTGAAATATGGTCCGCGTGAAGATGTGTATCAAATACGTGAGTAATCGTTGCACCCTTCCCCTTCGCAAAATCTATAAAGAAATTCACCATACGTGTCGCATCAATAATTGCTGCTTCACCATTTGAAAAGCCAAAAATGATCGACACAGCTATGAAATCGGAGAAGAAATCATGCTTCCGAGTGAAACACGCATGGGCAGAAGGGCCAGCTTTTTTGATTTTTTTAAACTGCGCCCTTTCAAAATGGGGATTTTGATATATGTAATATGTATGAATTCTTGATTGATGATCGTATCATCAGTTATTTCAATTGCCTCAACGTCAAACTCTTGTTGCAGCGCTTTGACAAACCTTTTTACATTTCCTGTTTTACTCTCATATGTAATTAACAATGTCCCTATGAAAATACTGCCCTCTGTCCCGATCACCTCCGCCCGGATGTCATGTCCGTATGGAGAGGTTCTGCTTGCCTCGACGTCCCCCGCTGCGCCCGAGTCAAATTCAATATACGTCAGCTGAStartcodonStopcodonATGGTGTTGTAATAGTGAProteincodinggenesNoncodingsequences人類基因組的物理結(jié)構(gòu)
核基因組(nucleargenome):
由大約30億bp組成,分為24條線性DNA分子(55~250Mb),分別包含在24條不同的染色體中(22條常染色體和2條性染色體X、Y)
線粒體基因組(mitochondriongenome):長為16,569bp的環(huán)狀DNA分子,位于產(chǎn)生能量的細(xì)胞器——線粒體中真核生物的基因結(jié)構(gòu)基因家族、假基因
多數(shù)真核生物基因表現(xiàn)為多拷貝(某些基因多次重復(fù)),稱為基因家族(genefamily);
真核生物的基因多拷貝為大量產(chǎn)生RNA、蛋白質(zhì)所需要;或者可以在不同組織、不同發(fā)育階段被表達;基因家族產(chǎn)生的推測:進化過程中的基因加倍;由于突變導(dǎo)致失去功能的基因拷貝叫假基因(pseudogene)。假基因:與功能性基因密切相關(guān)的DNA系列,但由于缺失、插入和無義突變失去閱讀框架而不能編碼蛋白質(zhì)產(chǎn)物。有些人類假基因可以轉(zhuǎn)錄但不能翻譯成蛋白質(zhì)。假基因的兩種類型:(1)、由于一種基因的加倍而不能表達,但保留原來親本基因的外顯子及內(nèi)含子;(2)、僅含有親本基因的外顯子,源于mRNA并通過逆轉(zhuǎn)錄而重新整合進基因組的。低重復(fù)序列:在基因組中只有一個或幾個拷貝,占DNA總量的40%-80%。結(jié)構(gòu)基因基本上屬于。中度重復(fù)序列:這類序列的重復(fù)數(shù)在101-104
之間,占DNA總量的10%-40%,各種rRNA,tRNA以及某些結(jié)構(gòu)基因(如組蛋白基因)。高度重復(fù)序列:衛(wèi)星DNA,由6-100個堿基組成,占DNA總量的10%-60%,在DNA鏈上串聯(lián)重復(fù)高達數(shù)百萬次,衛(wèi)星DNA是不轉(zhuǎn)錄的。目前的一些認(rèn)識:(1)、GC含量低,AT含量高。(AT的氫鍵弱);(2)、3'端和5'端有直接重復(fù)序列的存在。有利于形成環(huán)狀結(jié)構(gòu)。重復(fù)DNA序列重復(fù)DNA序列是多數(shù)真核生物基因組的主要成分真核生物的基因結(jié)構(gòu)內(nèi)含子(intron)和外顯子(exon)
真核生物的基因一般為斷裂基因(interruptedgene),由內(nèi)含子和外顯子組成,編碼區(qū)被內(nèi)含子分隔成若干段;內(nèi)含子-外顯子結(jié)構(gòu)的意義:提供編碼區(qū)進行重組的機會,產(chǎn)生新基因,有利于真核生物的進化。IntergenicregionGeneExonIntron例子:人類第21號染色體的Contig3部分(長3,450,497bp)基因“TRPC7”的總長為62,668bp,其中編碼部分總長為3,345bp,由25個外顯子組成,長度范圍48~354bp。RNA剪接RNA剪接(RNAsplicing):從pre-mRNA中除去內(nèi)含子的過程。真核生物基因結(jié)構(gòu)和轉(zhuǎn)錄過程
可變剪接Alternativesplicing在個體發(fā)育或細(xì)胞分化時由選擇地越過某些外顯子或某個剪切位點進行變位剪接,產(chǎn)生出組織或發(fā)育階段特異性mRNA啟動子增強子GC區(qū)CAAT區(qū)-110-40-30-20TATA+1mRNA轉(zhuǎn)錄起始位點PyAPy與轉(zhuǎn)錄有關(guān)的調(diào)控信號(1)、啟動子(promoter)(2)、增強子(enhancer)(3)、負(fù)性調(diào)節(jié)元件(4)、LCR(Locuscontrolregions)(基因座調(diào)控區(qū))(5)、轉(zhuǎn)錄因子(6)、與轉(zhuǎn)錄終止有關(guān)的序列:(7)、mRNA的剪接人類結(jié)構(gòu)基因的結(jié)構(gòu)示意圖(1)、人類細(xì)胞核基因組中編碼序列不到2%,約含3萬左右不同的基因,且有近1/3為多拷貝;(2)、結(jié)構(gòu)基因大多含有插入序列。即大部分基因為斷裂基因(interruptedgene);(3)、外顯子(exon)一般不長于800bp,內(nèi)含子(intron)則在30bp~數(shù)十kb不等;(4)、mRNA剪接位點(Splicesites)的識別信號:每個外顯子和內(nèi)含子接頭區(qū)都有一段高度保守序列(consensussequence),即內(nèi)含子5’端大多數(shù)是GT(稱為donorsite)開始,3’端大多數(shù)是AG(稱為acceptorsite)結(jié)束,稱為GT-AG法則;人類基因組結(jié)構(gòu)的特點(5)、盡管擁有相同的一套基因組,不同的分化細(xì)胞中所表達的基因也不同,每個細(xì)胞只表達一部分基因(例如:人腦細(xì)胞的基因表達百分比最高,為22%);(6)、轉(zhuǎn)錄在細(xì)胞核內(nèi)進行,翻譯在細(xì)胞質(zhì)核糖體中進行,二者在時間空間上是分開的。DNA的編碼序列首先通過轉(zhuǎn)錄合成mRNA(messageRNA);在mRNA中,每3個核苷酸翻譯成蛋白質(zhì)中的1個氨基酸。把這3個核苷酸稱為遺傳密碼或三聯(lián)體密碼(tripletcode),每個三聯(lián)碼稱為密碼子(codon)。遺傳密碼的提出G.Gamow(1954),4種核苷酸
20種氨基酸:二聯(lián)碼氨基酸?42=16<20三聯(lián)碼氨基酸?43=64>20四聯(lián)碼氨基酸?……尋找確定每種氨基酸的具體密碼遺傳密碼的破譯1960~1964:三個重要實驗確定出每種氨基酸的具體密碼。大自然做任何事情,都是采用最簡單的形式。遺傳密碼(geneticcode)遺傳密碼的性質(zhì)遺傳密碼的簡并性(degeneracy)64codons
20aminoacids:同一個氨基酸有1個或1個以上密碼子3種氨基酸
6codons(Leu,Ser,Arg)5種氨基酸
4codons(Val,Pro,Ala,Gly,Thr)1種氨基酸
3codons(Ile,STOP)9種氨基酸
2codons(Phe,Tyr,His,Gln,Asn,Lys,Asp,Glu,Cys)2種氨基酸
1codons(Met,Trp)同義密碼子(synonymouscodon):對應(yīng)于同一氨基酸的密碼子mRNA三聯(lián)碼氨基酸的遺傳密碼遺傳密碼的普遍性與特殊性1、普遍性:對大多數(shù)病毒、原核生物、真菌、植物、動物都適用;2、特殊性:支原體:UGA
色氨酸(Trp)
嗜熱四膜蟲:UAA谷氨酰胺(Gln)
線粒體:與核DNA編碼的氨基酸有部分差異線粒體DNA與核DNA密碼差異物種密碼線粒體DNA編碼的氨基酸核DNA編碼的氨基酸所有UGATrpSTOP酵母CUAThrLeu果蠅AGASerArg哺乳類AGA/AGGSTOPArgAUAMetIle二基因識別及預(yù)測與相關(guān)網(wǎng)絡(luò)分析平臺為什么要進行基因?qū)ふ遥炕驅(qū)ふ遥骄幋a蛋白質(zhì)區(qū)域的預(yù)測和識別 (ORF預(yù)測)基因組序列信息的獲得基因?qū)ふ彝葱蛄兴阉骰蚬δ茏⑨?.啟動子識別啟動子是基因表達所必須的重要序列,識別出啟動子對于基因識別十分重要。增強子GC區(qū)CAAT區(qū)-110-40-30-20TATA+1mRNA轉(zhuǎn)錄起始位點PyAPy但是,由于真核基因表達和調(diào)控由多種因子參與,調(diào)節(jié)的途徑多,多個轉(zhuǎn)錄因子存在協(xié)同作用以及它們結(jié)構(gòu)具有復(fù)雜性,使得用計算方法來分析啟動子變得很困難。識別方法:利用轉(zhuǎn)錄因子結(jié)合位點的密度之比推導(dǎo)啟動子和非啟動子序列的密度之比,各密度之比組合就可得到關(guān)于啟動子的大致的輪廓。啟動子結(jié)合位點分析工具資源網(wǎng)址說明PromoterScanwww:///molbio/proscan/webBDGP/seq_tools/promoter.htmlwebTFsearchwww.cbrc.jp/research/db/TFSEARCH.HTMLwebPromoserhttp:///zlab/PromoSerwebSigscanhttp:///software/sigscan.htmlWeb/windowsPromoterScan能夠基于轉(zhuǎn)錄因子結(jié)合位點分布密度預(yù)測轉(zhuǎn)錄調(diào)控區(qū),及其轉(zhuǎn)錄起始位點、核心啟動子和其他轉(zhuǎn)錄因子結(jié)合位點。輸入序列注意:啟動子預(yù)測程序往往會返回很多的預(yù)測結(jié)果,而且,大部分屬于假陽性,因此在找到啟動子序列后,對于真核生物的序列可以進一步查看該預(yù)測的轉(zhuǎn)錄起始位點上游是否包含CpG島、核心啟動子與轉(zhuǎn)錄起始位點以及起始密碼子ATG所在位置信息,也可以選擇多個啟動子預(yù)測程序工具比較預(yù)測結(jié)果。2轉(zhuǎn)錄終止信號的預(yù)測轉(zhuǎn)錄終止信號是在mRNA序列的3’端終止密碼子下游位置上的加尾信號(tailingsignal),也稱為多聚腺苷酸信號序列(PotentialPolyadenylationSignalsSequence,PPSS)標(biāo)志:AATAAA
轉(zhuǎn)錄終止信號預(yù)測工具工具網(wǎng)址備注Hcpolyahttp://125.r.it/webgene/wwwHC_polyawebPOLYAHwebPOLYADQhttp:///tools/polyadq/polyadq_from.htmlweb輸入序列3CpG島CpG島(CpGislands)是短的、分散的,非甲基化的核酸序列,它常出現(xiàn)在持家基因和受調(diào)節(jié)表達的基因5‘端。CpG島定義為長度超過200bp,P(CG)>0.6*P(C)*P(G)值,且GC含量大于50%的序列區(qū)域。對CpG島的識別,有助于轉(zhuǎn)錄起始信號的識別。統(tǒng)計表明在人和鼠的基因中80%含有CpG島。CpG島長度一般大于200bp,覆蓋5’啟動子區(qū)域,并常向3‘端延伸約1000bp,進入基因的翻譯區(qū),通過CpG島分析可幫助確定基因5‘末端位置。CpGIsland分析CpGIsland/cpgislands2/cpg.aspxWebCpGfinder/berry.phtml?topic=cpgfinder&group=programs&subgroup=promoterWebCpGPlot/CpGReport/Isochorehttp://www.ebi.ac.uk/emboss/cpgplot/index.htmlWebCpGislandsrevealingr.it/cgi-bin/wwwcpg.pl輸入序列CpGPlot
willproduceaparameterreportalongwithagraphdepictingtheObs/Exp,%CGandPutativeIslandsplots.
CpGReportwillproduceanEMBLformatedreportwithaFeatureTablethatcontainsaKeyforeachislandfoundalongwithlocation/qualifiersthatdepictthepositionoftheisland,itssize,thetotalsumofC+G'sintheisland,the%CGandtheobserved/expectedvaluemaxforit.Atthebottomofeachreportthetotalnumberofislandsfoundisprintedora'Noislandsfound'text.
IsochoreplotsGCcontentoverasequence.Itisintendedforlargesequencessuchascompletechromosomesorlargegenomiccontigs,althoughinterestingresultscanalsobeobtainedfromshortersequences.ThissetstheminimumaverageobservedtoexpectedratioofCplusGtoCpGinasetof10windowsthatarerequiredbeforeaCpGislandisreportedCpGReportCpGPlot4.基因開放讀碼框識別開放讀碼框(openreadingframe,ORF)
每條mRNA的蛋白質(zhì)編碼區(qū)由連續(xù)的、不交叉的、稱作可讀框的密碼子串組成。每個ORF對應(yīng)一個蛋白質(zhì),它包括5‘端翻譯起始密碼子(ATG)到終止密碼子(TAA,TAG,TGA)的編碼蛋白的序列。5’…ATGCTGCATGC3’…TACGACGTACGATGGGATATAGGCCTTAGTACCCTATATCCGGAATCCACAGCTCC…3’GTGTGCAGG…5’TranscriptionInitiationsiteInitiationcodonStopcodonTranscriptionInitiationsiteOpenreadingFrame(ORF)5’-GCUGCAUGCAUGGGAUAUAGGCCUUAGCACACGU-3’InitiationcodonStopcodonTranslated(coding)region5’-Untranslatedregion3’-UntranslatedregionTranscriptionTranslationfMet-Gly-Tyr-Arg-Pro特性1.ORF長度一般很難隨機發(fā)現(xiàn)很長的ORF,因而長的ORF很可能意味著存在CDS。2.Kozak
序列真核生物mRNA起始密碼子AUG上游的第三個核苷酸常常是嘌呤,且多A(-3A);其次緊跟在AUG后面的核苷酸,常常也是嘌呤,但多數(shù)情況下是G(+4G),而沒有起始功能的AUG附近的核苷酸則無此保守性。GCCACC(ATG)CATGGG(ATG)AAAAAA(ATG)CGGGGT(ATG)強Kozak同源序列弱Kozak同源序列高等真核生物酵母CompilationandanalysisofsequencesupstreamfromthetranslationalstartsiteineukaryoticmRNAs
作者:MarilynKozak
(1983)Kozak規(guī)則可描述如下:
(1)
第4位的偏好堿基為G;
(2)ATG的5’端約15bp范圍的側(cè)翼序列內(nèi)不含堿基T;
(3)在-3,-6和-9位置,G是偏好堿基;
(4)除-3,-6和-9位,在整個側(cè)翼序列區(qū),C是偏好堿基。
Kozak規(guī)則是基于已知數(shù)據(jù)的統(tǒng)計結(jié)果,不見得必須全部滿足,一般來說,滿足前兩項即可。預(yù)測方法1.以統(tǒng)計學(xué)分析和模式識別為基礎(chǔ)(statistics-based)的方法,從基因序列本身進行預(yù)測,不需要與大規(guī)模的數(shù)據(jù)庫進行比較,預(yù)測速度快。2.以同源比對為基礎(chǔ)(homology-based)的方法,依賴于已知的數(shù)據(jù)庫來源、數(shù)量和質(zhì)量,預(yù)測的正確性比第一類高。六框翻譯由于蛋白質(zhì)序列由三聯(lián)體密碼子編碼,同時DNA序列在兩個方向上都是有可能轉(zhuǎn)錄表達,所以一段雙鏈DNA序列在理論上有6個潛在的閱讀框,正鏈上的3個閱讀框稱為“正向”(forward)閱讀框,而負(fù)鏈(或互補鏈)上的閱讀框稱為“反向”(reverse)閱讀框。ORF識別工具ORFFinder/gorf/gorf.htmlwebGetOrfhttp://bioweb.pasteur.fr/seqanal/interfaces/getorf.htmlweb/LinuxBestORF/all.htmwebPlotorf.tw:9091/Pise/Plotorf.htmlweb/LinuxGENSCANhttp:///GENSCAN.HTMLweb/LinuxGeneMarkhttp:///GeneMarkwebGeneFinderhttp:///tools/genefinder/webGlimmerM/software/glimmer/LinuxGenerationhttp:///generationweb
ORFFinder(/gorf/gorf.html)
輸入序列SARS填入要求結(jié)果返回到的Email地址GetOrf(http://bioweb.pasteur.fr/seqanal/interfaces/getorf.html)使用標(biāo)準(zhǔn)密碼子輸出序列類型是起始和終止密碼子之間的核苷酸序列輸入的基因組序列是環(huán)形的GENSCAN(http:///GENSCAN.html)5內(nèi)含子/外顯子剪切位點識別對基因組序列的讀碼框區(qū)域進行預(yù)測內(nèi)含子5’端供體位點(donorsplicesite):GT內(nèi)含子3’端受體位點(acceptorsplicesite):AG預(yù)測工具:GENSCAN,GENEMARKNetGene2,SpliceView如何分析mRNA/cDNA的外顯子組成?與相應(yīng)的基因組序列比對,分析比對片段的分布位置預(yù)測工具:Spidey,SIM4,BLAT,BLAST,F(xiàn)ASTA內(nèi)含子/外顯子剪切位點識別工具NetGene2www.cbs.dtu.dk/services/NeGene2/webSpidey/spidey/weGeneSplicer/tdb/GeneSplicer/index.shtmlweb/LinuxBCMGeneFinder/urllists/genefind.htmlwebGrAILHttp:///Grail-1.3webSpidey
/spidey/FXYD5FXYD5mRNAgenomicsequenceFXYD5mRNAmousegenomicsequencehumanNM_008761SpliceView
r.it/~webgene/wwwspliceview_ex.htmlNetGene2
http://www.cbs.dtu.dk/services/NetGene2/6選擇性剪切(Alternativesplicing)分析選擇性剪接是調(diào)控基因表達的重要機制了解不同物種、細(xì)胞、發(fā)育階段、環(huán)境壓力下基因的調(diào)控表達機制分析方法:查詢選擇性剪切相關(guān)的網(wǎng)站多序列比對查詢選擇性剪切相關(guān)的網(wǎng)站http://www.ebi.ac.uk/asd/index.html綜合http://splicenest.molgen.mpg.de/綜合/new_alt_exon_db2/綜合5/AsMamDB/哺乳動物/tigr-scripts/tgi/splnotes.pl?species=human.tw/http://.au/altExtron人http:///~kent/intronerator/altsplice.html線蟲http:///index.jsp植物/tdb/e2k1/ath1/altsplicing/splicing_variations.shtml擬南芥核苷酸序列分析GeneStructure
從已知基因的功能推測剪切機制基于序列比對分析選擇性剪切在序列上高度相似的mRNA/cDNA/EST序列相匹配的基因組序列序列比對對分布位置進行分析cDNA/mRNA/EST序列比對收集序列核苷酸序列分析GeneStructure
.tw/
查詢NOX1核苷酸序列分析GeneStructure
SpideyNCBI開發(fā)的在線預(yù)測程序http:///spidey基于BLAST和DotView局部聯(lián)配的算法核苷酸序列分析
practice序列在線提交形式:界面中有兩個窗口:上方窗口用于輸入基因組序列(直接粘貼序列或用GenbankID/AC號)下方窗口用于輸入cDNA/mRNA序列(直接粘貼序列或用GenbankID/AC號)可同時輸入多條cDNA/mRNA序列與同一條基因組序列進行分析主要選項/參數(shù)輸入基因組序列Z83819輸入5條序列判斷用于分析的序列間的差異,并調(diào)整比對參數(shù)不受默認(rèn)內(nèi)含子長度限制,默認(rèn)長度:內(nèi)部內(nèi)含子為35kb,末端內(nèi)含子為100kb比對閾值選擇物種輸出格式核苷酸序列分析輸出結(jié)果第一條序列為基因組序列淺藍(lán)色為mRNA/cDNA序列橘黃色為外顯子外顯子對應(yīng)于基因組上的起始/結(jié)束位置外顯子對應(yīng)于mRNA/cDNA上的起始/結(jié)束位置外顯子長度一致性百分比錯配和gap序列聯(lián)配結(jié)果外顯子序號核苷酸序列分析
practiceNox基因AF127763,AF166326,AF166327和AF166328
核苷酸序列分析
practice7.編碼區(qū)綜合分析核苷酸序列分析GeneStructureCpG島分析No調(diào)控序列所在位置Cister結(jié)果:881-896CCAAT908-923CCAAT轉(zhuǎn)錄終止信號……GetOrfGenScan735-773964-10201054-11461112-11561341-1625…1054-1490(1054-1145,1268-1490)CCTAGTCCAGACGCCATGGGT比對分析(Blastx,Blastn,Blastp)Blastx結(jié)果:gammaglobin:1054-11461266-1493Humangene5HSA004013:-1000~1000GeneBuilderr.it/~webgene/genebuilder.html核苷酸序列分析Tools核苷酸序列綜合分析軟件GeneBuilderr.it/~webgene/genebuilder.htmlDNAToolhttp://www.crc.dk/dnatools/downloads/setup/dt6_setup.exeSEQtoolshttp://www.seqtools.dk/DNAssist/dnassist20.zipGeneTool
http:///DNAmanhttp:///pc/framepc.htmlDNAStrider/downloads/dnastrider1_1_sit.binpDRAW32http:///GCGhttp:///products/gcg/基因探索者/DNASTARhttp:///VectorNTIhttp://※
Sequenceassembly※
Sequencemanipulation※
Homologycomparison※
Multiplealignment※Genestructureanalysis
※
Primer/Oligoanalysis※
Restrictionanalysis※
Codonsanalysis核苷酸序列分析Tools三其他位點分析及相關(guān)網(wǎng)絡(luò)分析平臺1限制性酶切位點分析2重復(fù)序列分析1限制性核酸內(nèi)切酶位點分析限制性核酸內(nèi)切酶(restrictionendonucleases)能識別特定的DNA序列并在特定位點切割DNA,它們通常識別4-8bp的短的靶序列,一般為反向重復(fù)序列(回文palindrome),具有保守性,并在其中的特定位置切割。限制性核酸內(nèi)切酶位點分析工具Watcuthttp://watcut.uwaterloo.ca/watcut/WatCut/template.phpwebWebcutter/cutter/cut2.htmlwebNEBcutter/NEBcutter2/index.phpwebBioEdit/BioEdit/bioedit.htmlwindowsDNAMAN/windows
NEBcutter
/NEBcutter2/index.php
Watcut
http://watcut.uwaterloo.ca/watcut/WatCut/template.php
應(yīng)用例如:在中藥標(biāo)準(zhǔn)化需鑒別藥材的真?zhèn)?目前可通過基因序列進行識別,如用PCR法測定不同產(chǎn)地金銀花ITS區(qū)的DNA序列2重復(fù)序列中度重復(fù)序列:一般是不編碼序列,通常認(rèn)為它們在基因調(diào)控中起到重要作用,包括開啟和關(guān)閉基因的活性。高度重復(fù)序列:一些是rRNA基因和某些tRNA基因,另一些可能與細(xì)胞分裂時染色體的運動有關(guān)。對這些重復(fù)序列的定位能為基因定位提供重要的反向信息,同時重復(fù)序列還常會干擾序列其他特性分析。Repeat
r.it/cgi-bin/wwwrepeat.pl輸入序列RepeatMasker
/cgi-bin/WEBRepeatMasker四基因結(jié)構(gòu)分析的一般步驟查找重復(fù)序列同源體搜索基因模式識別啟動子預(yù)測轉(zhuǎn)錄終止位點預(yù)測裝配外顯子和翻譯編碼區(qū)
重復(fù)序列的存在會干擾比對結(jié)果,并且?guī)缀醪粫采w啟動子或外顯子編碼區(qū)
將序列以6框翻譯,并作為氨基酸序列在蛋白質(zhì)數(shù)據(jù)庫中搜索,一旦發(fā)現(xiàn)同源序列,則可從同源序列已知的功能中推斷新基因的功能。
發(fā)現(xiàn)潛在的轉(zhuǎn)錄結(jié)合位點和啟動子信號,可以幫助理解待測序列的功能意義
若蛋白數(shù)據(jù)庫中沒有發(fā)現(xiàn)同源體,就可通過編碼統(tǒng)計學(xué)原理和潛在的功能位點如剪接信號、起始密碼子來預(yù)測基因結(jié)構(gòu)
對于真核基因,需要先除去其中的內(nèi)含子區(qū)域,再把分割的外顯子拼接在一起,翻譯成蛋白質(zhì)。
當(dāng)研究的序列可能含有多個基因時,確定基因模型何時轉(zhuǎn)錄終止至關(guān)重要第二節(jié)核酸序列組裝和基因定位分析及相關(guān)網(wǎng)絡(luò)分析平臺一,核酸序列組裝及電子克隆二,基因定位分析什么是ESTs
?表達序列標(biāo)簽(ExpressedSequencetags
)是從已建好的cDNA庫中隨機取出一個克隆,從5’末端或3’末端對插入的cDNA片段進行一輪單向自動測序,所獲得的約60-500bp的一段cDNA序列。一核酸序列組裝及電子克隆EST技術(shù)流程體內(nèi):翻譯體外研究:反轉(zhuǎn)錄連接,轉(zhuǎn)化轉(zhuǎn)化效率問題(基因芯片)文庫構(gòu)建技術(shù)已經(jīng)成熟測序采樣問題(SAGE)測序成本已經(jīng)大大降低大數(shù)據(jù)量分析理念已經(jīng)形成大規(guī)模EST序列測定的開始ESTs的來源
上世紀(jì)80年代,對cDNA序列進行大規(guī)模測序的想法就曾提出,但對此一直存在爭論,有人認(rèn)為這種方法能發(fā)現(xiàn)成千上萬的新基因;而反對者則認(rèn)為cDNA序列缺少重要的基因調(diào)控區(qū)域的信息。90年代初CraigVenter提出了EST的概念,并測定了609條人腦組織的EST,宣布了cDNA大規(guī)模測序的時代的開始(Adamsetal.,1991)。
●
1993年前ESTs數(shù)據(jù)收錄于GenBank,EBI和DDBJ。●
1993年NCBI(NationalCenterofBiotechnologyInformation)建立了一個專門的EST數(shù)據(jù)庫dbEST來保存和收集所有的EST數(shù)據(jù)。電子克隆電子克隆(insilicocloning)是指利用計算機技術(shù),依托現(xiàn)有的網(wǎng)絡(luò)資源(EST數(shù)據(jù)庫、核苷酸數(shù)據(jù)庫、蛋白質(zhì)數(shù)據(jù)庫、基因組數(shù)據(jù)庫等)采用生物信息學(xué)方法(包括同源性檢索、聚類、序列拼裝等)延伸EST序列,以期獲得部分乃至全長cDNA序列的一種方法。
流程測序方向的選擇根據(jù)不同的實驗?zāi)康倪x擇不同的測序方向:◆5’端
5’上游非翻譯區(qū)較短且含有較多的調(diào)控信息。一般在尋找新基因或研究基因差異表達時用5’端EST較好,大部分EST計劃都是選用5’端進行測序的,而且從5’端測序有利于將EST拼接成較長的基因序列。◆3’端
3’端mRNA有一20-200bp的plyA結(jié)構(gòu),同時靠近plyA又有特異性的非編碼區(qū),所以從3’端測得EST含有編碼的信息較少.但研究也表明,10%的mRNA3’端有重復(fù)序列,這可以作為SSR標(biāo)記;非編碼區(qū)有品種的特異性,可以作為STS標(biāo)記.◆兩端測序
獲得更全面的信息。1.
去除低質(zhì)量的序列(Phred)2.
應(yīng)用BLAST、RepeatMasker或Crossmatch遮蔽數(shù)據(jù)組中不屬于表達的基因的贗象序列(artifactualsequences)。●載體序列(ftp:///repository/vector)
●重復(fù)序列(RepBase,http://)●污染序列
(如核糖體RNA、細(xì)菌或其它物種的基因組DNA等)3.
去除其中的鑲嵌克隆。4.
最后去除長度小于100bp的序列。序列前處理(pre-processing)
ESTs的聚類和拼接
聚類的目的就是將來自同一個基因或同一個轉(zhuǎn)錄本的具有重疊部分(over-lapping)的ESTs整合至單一的簇(cluster)中。聚類作用:產(chǎn)生較長的一致性序列(consensussequence),用于注釋。降低數(shù)據(jù)的冗余,糾正錯誤數(shù)據(jù)。可以用于檢測選擇性剪切。ESTs聚類的數(shù)據(jù)庫主要有三個:
UniGene(/UniGene)TIGRGeneIndices(http:///tdb/tgi/)STACK(http://www.sanbi.ac.za/Dbases.html)
(ESTclusteringtutorial,httP://www.sanbi.ac.za)不嚴(yán)格的和嚴(yán)格的聚類(looseandstringentclustering)◆looseclustering●產(chǎn)生的一致性序列比較長●表達基因ESTs數(shù)據(jù)的覆蓋率高●含有同一基因不同的轉(zhuǎn)錄形式,如各種選擇性剪接體●每一類中可能包含旁系同源基因(paralogousexpressedgene)的轉(zhuǎn)錄本●序列的保真度低◆stringentclustering●產(chǎn)生的一致性序列比較短●表達基因ESTs數(shù)據(jù)的覆蓋率低●因此所含有的同一基因的不同轉(zhuǎn)錄形式少●序列保真度高
有參照的和無參照的聚類(Supervisedandunsupervisedclustering)◆Supervisedclustering
根據(jù)已知的參考序列(如全長mRNA、已拼接好的一致性序列)聚類。◆
Unsupervisedclustering
沒有根據(jù)參考序列進行分類。
常用的拼接軟件◆Phrap
(http:///UWGC/analysistools/Phrap.cfm)◆CAP3(XiaoqiuHuang
,huang@)◆TIGR_Assember
(/software/assembler/)Cluster的連接利用cDNA克隆的信息和5’,3’端Reads的信息,不同的Cluster可以連接在一起。二基因的電子定位
基因定位(genelocation)是指用一定的方法將目的基因確定到染色體的實際位置上。基因的電子定位是指利用日益豐富的生物信息學(xué)資源運用生物信息學(xué)的方法,將目的基因確定到染色體的實際位置上直接利用基因序列電子定位基因利用同源序列電子定位基因1直接利用基因序列電子定位基因?qū)⒋治鲂蛄兄苯釉贕enBank中進行庫同源性檢索,得到該基因序列對應(yīng)的基因序列后,點擊/Genomeview,可觀察其基因組結(jié)構(gòu),再點擊染色體列表中對應(yīng)的染色體及區(qū)域,就可獲得詳細(xì)的基因定位結(jié)果實例:定位人ARFGAP1基因(GenBank序列接受號AF111847)。AF111847AF1118472利用同源序列電子定位基因由于生物間,特別是在分類學(xué)上親緣關(guān)系近的物種間的基因具有很大的保守性,如人和鼠之間有90%以上的序列是相同的,反芻動物牛和羊的基因組基本相同,因此可根據(jù)已知的某物種的同源基因序列(氨基酸或DNA序列),利用NCBI資源,確定它在所研究物種染色體上的位置,現(xiàn)以電子定位編碼人的視黃醇結(jié)合蛋白的基因(RBP)為例,來簡要介紹這種定位方法(從同源序列小鼠開始)人類TECTB基因的電子克隆1將小鼠的Tectb基因(GenBank:NM009348)和雞的Tectb基因(GenBank:L38519)的編碼區(qū)在NCBI的nr、months、HumandbEST和Htgs(High
ThroughpGenomicSequences)數(shù)據(jù)庫中進行Blastn分析。2找到一個同源性很高的大規(guī)模測序的gDNA序列(GenBank:AL157786),可以肯定AL157786包含了人的TECTB基因。3
用GENSCAN,MZEF軟件預(yù)AL157786中可能包含基因的外顯子4將推測的外顯子拼接成cDNA序列,用ORF程序分析其中的開放閱讀框,人TECTB基因的開放閱讀框為990bp,起始密碼子的-3位為鳥嘌呤G而+4位為鳥嘌呤G,符合Kozak規(guī)則;5用Translate程序?qū)⒃揷DNA序列的開放閱讀框翻譯成氨基酸序列,推測編碼329個氨基酸,人TECTB基因與小鼠的Tectb基因在990bp有88.11%的一致性,在329aa有94.2%的一致性,與小雞的Tectb基因在973bp有74.6%的一致性,在329aa有73.6%的一致性6基因定位:AL157786是15號染色體上的一個gDNA序列,獲得TECTB基因的cDNA片段后,在NCBI的Htgs進行Blastn分析,又得到另一個包含人TECTB基因的大規(guī)模測序的序列(GenBank:AL391986),用ElectronicPCR分析AL157786和AL391986,存在5個STS,如WI212237、stSG28436sts2N63655、sts2F04204和sts2H98829,在GDB中分析這些STS的位置,將TECTB基因定位于10q25,小鼠的Tectb基因定位于19號染色體,在人/小鼠的同源圖譜中,小鼠的19號染色體與人類的屬于同源區(qū)域,與小鼠Tectb基因相鄰的Adrb1基因在人的ortholog(垂直同源物)也位于10q24226,證實人TECTB基因的定位的準(zhǔn)確性
腦膿腫相關(guān)新基因RBAG2-3的電子克隆及其功能預(yù)測
見文獻第三節(jié)新基因的發(fā)現(xiàn)及功能預(yù)測一利用EST數(shù)據(jù)庫(dbEST)發(fā)現(xiàn)新基因二從基因組DNA序列中預(yù)測新ORF三通過核酸序列同源性比較進行功能預(yù)測一利用EST數(shù)據(jù)庫(dbEST)發(fā)現(xiàn)新基因1EST
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 政策效果評估的方法與技術(shù)研究及答案
- 機電工程新知試題及答案
- 機電工程專業(yè)發(fā)展試題及答案
- 數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)解析與試題及答案
- 機電工程技術(shù)新趨勢2025年試題及答案
- 管理變更對項目影響的評估試題及答案
- 自查自糾2025年管理師試題及答案
- 網(wǎng)絡(luò)投資回報分析模型試題及答案
- 項目團隊建設(shè)中的信任管理試題及答案
- 軟件設(shè)計師考試經(jīng)驗分享與試題及答案
- 2025年湖南長沙穗城軌道交通限公司社會招聘261人高頻重點模擬試卷提升(共500題附帶答案詳解)
- 應(yīng)急藥品知識培訓(xùn)課件
- 差分進化算法研究
- 2025年湖北省武漢城市職業(yè)學(xué)院面向社會招聘人事代理人員27人歷年高頻重點提升(共500題)附帶答案詳解
- 國家開放大學(xué)《經(jīng)濟學(xué)(本)》形考任務(wù)1-6答案
- 職業(yè)教育與成人教育科2024年工作總結(jié)
- T-CNAS 12─2020 成人經(jīng)口氣管插管機械通氣患者口腔護理
- T∕CACM 1021.92-2018 中藥材商品規(guī)格等級 獨活
- 車位租賃協(xié)議
- DB11T 1382-2022 空氣源熱泵系統(tǒng)應(yīng)用技術(shù)規(guī)程
- 氣壓傳動課件 項目六任務(wù)二 吸吊機氣動系統(tǒng)回路
評論
0/150
提交評論