




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1基因預測開放讀碼框GENSCANGenomeScanGeneMarkGLIMMER基因結構分析內含子/外顯子剪切位點NetGene2Spidey選擇性剪切ProSplicerSpidey轉錄調控序列分析啟動子/轉錄起始位點DBTSSPromoterScanCpG島CpGPlot轉錄終止信號Hcpolya序列組分分析GC含量cgview密碼子偏好性使用CodonW限制性核酸內切酶位點NEBcutter核酸序列分析基因預測:早期指預測DNA序列中編碼蛋白質的部分,即外顯子部分;現在指整個基因結構的預測,綜合各種外顯子預測的算法及對基因結構信號的認識,預測出可能的完整基因。(啟動子預測、重復序列預測、CpG島的預測等等)
通過生物信息學手段發現基因的一般過程①獲取DNA目標序列②查找ORF并將目標序列翻譯成蛋白質序列③在數據庫中進行序列搜索④多序列比對,查找基因家族⑤查找目標序列中的特定模序⑥預測目標序列的二級、三級結構⑦獲取相關蛋白質的功能信息3開放讀碼框的識別開放閱讀框開放閱讀框(英語:Openreadingframe;縮寫:ORF;其他譯名:開放閱讀框架、開放式閱讀框架,開放讀架等)是生物個體的基因組中,可能是蛋白質編碼序列的部分。基因中的ORF包含并位于開始編碼與終止編碼之間。由于一段DNA或RNA序列有多種不同讀取方式,因此可能同時存在許多不同的開放閱讀框架。開放閱讀框包含一段可以編碼蛋白的堿基序列,不能被終止子打斷。單鏈DNA序列可能有3種閱讀框,但通常只有一種具有編碼的作用,稱為開放閱讀框(openreadingframeorORF)。封閉閱讀框(blockreadingframe)
當一個新基因被識別,其DNA序列被解讀,DNA序列可以按六種框架閱讀和翻譯。例如一段5'-UCUAAAGGUCCA-3'序列。此序列共有3種讀取法:
UCUAAAGGUCCA
CUAAAGGUC
UAAAGGUCA
ORF識別包括檢測這六個閱讀框架并決定哪一個包含以啟動子和終止子為界限的DNA序列而其內部不包含啟動子或密碼子,符合這些條件的序列有可能對應一個真正的單一的基因產物。ORF的識別是證明一個新的DNA序列為特定的蛋白質編碼基因的部分或全部的先決條件。
基因結構分析(1)原核基因結構?原核生物基因組小,基因密度高,很少存在重復序列, 一個基因是由編碼一個蛋白質或RNA的開封閱讀框構成, 中間沒有間斷。?細菌的起始密碼子為:ATG,GTG,TTG?核糖體結合位點(Shine-Delgaronsequence)?終止密碼子較容易確定?轉錄終止子?密碼子偏好性翻譯起始位點翻譯終止位點編碼區轉錄終止子TTTTT
7轉錄起始位點
AGGAGGT
核糖體結合位點(2)真核基因結構
?基因組較大,基因密度低,富含重復序列和轉座元件;最重要 的是基因被插入的非編碼序列(內含子)切分成小段(外顯 子)。?初生的轉錄產物需要經過三個步驟轉變成成熟的可翻譯為蛋白的mRNA。?真核基因預測的主要問題是識別外顯子、內含子和間接位點。?真核基因中存在一些保守序列特征有助于進行計算預測,如:GT-AG規則,密碼子偏好性,六聚體頻率,kozak序列,CpG島,poly-A8名稱TATA框(TATAbox)CAAT框(CAATbox)GC框(GCbox)所處位置轉錄起始點上游約19~27bp處位于轉錄起始點上游70~80bp有兩個拷貝,分別位于CAAT框的兩側組成TATA(A/T)A(A/T)GG(T/C)CAATCTGGCGGG功能與轉錄因子TFⅡ結合,能夠準確識別轉錄起始點與轉錄因子CTF結合,促進轉錄與轉錄因子SP1結合,起增強轉錄效率的作用9原核和真核生物基因轉錄起始位點上游區結構原核生物真核生物TTGACATATAATAmRNA+1-10-35PyAPyTATAATGC區CAAT區mRNA+1-40-25-110增強子上游啟動子元件,UPE核心啟動子元件轉錄起始位點10轉錄終止信號加polyA信號:AAUAAA轉錄終止信號:GCrich二重對稱區、UUUUUUC-GC-GG-CG-CU-AG-CG-CC-GG-CUUUUUUUUURNA5’3’AAUAAACAAAAAAAAAAAAA成熟mRNA5’3’AAUAAACAGUmRNA前體5’3’真核基因組中的重復序列存在方式單一序列重復序列中度重復序列高度重復序列長度大于300bp2~200bp拷貝數出現一次或很少幾次拷貝數102~106之間拷貝數106~108之間功能編碼蛋白質的結構基因(3萬~4萬個)一般不編碼蛋白質,但在基因調控中起重要作用一般不能轉錄,但參與染色體結構的維持、形成結構基因間隔等,如構成著絲粒、端粒等的衛星DNARepBase是真核生物DNA中重復序列數據庫Kozak序列(真核生物)
該序列是在起始密碼子之前與核糖體作用的位點,真核生物mRNA起始密碼AUG上游的第三個核苷酸常常是嘌呤,且多為A(-3A);其次緊跟在AUG后面的核苷酸,常常也是嘌呤,但多數情況下是G(+4G)。高等真核生物的Kozak同源序列為:GCCACC(ATG),弱Kozak同源序列是:CATTGG(ATG);酵母的Kozak同源序列是:AAAAAA(ATG),弱Kozak序列是:CGGTGT(ATG),而沒有起始功能的AUG附近的核苷酸序列則無此保守性。
不同生物對密碼子的使用有不同的偏好,在編碼區和非編碼區,特定氨基酸密碼子的出現頻率是不同的,因而蛋白質編碼區密碼存在一定的規則性。
CodonW
/密碼子使用頻度142、
內含子/外顯子分析對基因組序列的讀碼框區域進行預測內含子5’端供體位點(donorsplicesite):GT內含子3’端受體位點(acceptorsplicesite):AG預測工具:GENSCAN,GENEMARKNetGene2,SpliceView
CpG島(CpGisland)是短的、分散的、非甲基化核酸序列,它常出現在持家基因和受調節表達的基因5’端,CpG島定義為長度超過200bp,p(CG)>0.6×p(C)×p(G)值,且GC含量大于50%的序列區域。統計表明在人和鼠的基因中80%含有CpG島。覆蓋5’啟動子區域,并常向3端延伸約1000bp,進入基因翻譯區。通過CpG島分析可幫助確定基因5’末端位置。分析序列中的CpG島可用WebGene或CpGplot。(三)、CpG島存在的主要問題?假陽性(FalsePositive,FP):多預測了假的編碼區,即在非編碼區預測出編碼區。?假陰性FalseNegative,FN):漏掉了真實的編碼區,即將編碼區預測為非編碼區。(Over?
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 長春大學旅游學院《學科教學設計與案例分析》2023-2024學年第二學期期末試卷
- 民辦四川天一學院《卓越教師綜合訓練》2023-2024學年第二學期期末試卷
- 山東女子學院《果蔬加工工藝學實驗》2023-2024學年第二學期期末試卷
- 蘭州理工大學《模擬電子技術仿真設計實驗》2023-2024學年第二學期期末試卷
- 廣西自然資源職業技術學院《中國區域經濟》2023-2024學年第二學期期末試卷
- 吉首大學張家界學院《水文學與水資源》2023-2024學年第一學期期末試卷
- 溫州肯恩大學《工程倫理與藝術》2023-2024學年第二學期期末試卷
- 河北農業大學現代科技學院《精神病學》2023-2024學年第一學期期末試卷
- 武漢電力職業技術學院《熱學》2023-2024學年第二學期期末試卷
- 山西財貿職業技術學院《EDA設計》2023-2024學年第二學期期末試卷
- 品管工具在護理質量中的應用
- 防曬服產品省級監督抽查實施細則
- 茶館劇本臺詞
- 2024年03月江蘇射陽農商銀行春季校園招考筆試歷年參考題庫附帶答案詳解
- “得到”知識APP商業模式的分析及問題
- 【教無憂】高考二輪復習課件地理微專題33冰雪運動
- 2025年中國郵政寧夏地區社會招聘90人管理單位筆試遴選500模擬題附帶答案詳解
- 重癥患者的疼痛管理
- 投標人對本項目的合理化建議和改進措施
- 右半結腸癌手術中國專家共識(2024版)
- 二年級下冊語文《寫字表》生字組詞
評論
0/150
提交評論