




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、生物信息學復習題一、名詞解釋生物信息學,二級數據庫,FASTAff歹I格式,genbank序列格式,Entrez,BLAST查詢序列(query),打分矩陣(scoringmatrix),空位(gap),空位罰分,E值,低復雜度區域,點矩陣(dotmatrix),多序列比對,分子鐘,系統發育(phylogeny),進化樹的二歧分叉結構,直系同源,旁系同源,外類群,有根樹,除權配對算法(UPGMA鄰接法構樹,最大簡約法構樹,最大似然法構樹,一致樹(consensustree),bootstrap,開放閱讀框(ORF),密碼子偏性(codonbias),基因預測的從頭分析法,結構域(domain)
2、,超家族,模體(motif),序列表譜(profile),PAM邱BLOSUMPSI-BLAST,RefSeq,PD吸據庫,GenPept,折疊子,TrEMBL,MMD,BSCOP,PROSITE,GeneOntologyConsortium,表譜(profile)。二、問答題1)生物信息學與計算生物學有什么區別與聯系?2)試述生物信息學研究的基本方法。3)試述生物學與生物信息學的相互關系。4)美國國家生物技術信息中心(NCBI)的主要工作是什么?請列舉3個以上NCBI維護的數據庫。5)序列的相似性與同源性有什么區別與聯系?6)BLAS檢件的blastn、blastp、blastx、tblas
3、tn和tblastx子工具的用途什么?7)簡述BLASTi索的算法。8)什么是物種的標記序列?9)什么是多序列比對過程的三個步驟?10)簡述構建進化樹的步驟。11)簡述除權配對法(UPGMA的算法思想。12)簡述鄰接法(NJJ)的算法思想。13)簡述最大簡約法(MP的算法思想。14)簡述最大似然法(MD的算法思想。15)UPGMA樹法不精確的原因是什么?16)在MEGA軟件中,提供了多種堿基替換距離模型,試列舉其中2種,解釋其含義。17)試述DNAff列分析的流程及代表性分析工具。18)如何用BLAS儂現新基因?19)試述SCOPS白質分類方案。20)試述SWISS-PROT的數據來源。21)
4、TrEMBLW兩個部分?22)試述PSI-BLAST搜索的5個步驟。三、操作與計算題1)如何獲取訪問號為U49845的genbank文件?解釋如下genbank文件的LOCUS亍提供的信息:LOCUSSCU498455028bpDNAlinearPLN21-JUN-19992)利用Entrez檢索系統,對核酸數據搜索,輸入如下信息,將獲得什么結果:AF114696:AF114714ACCN3) 相比使用BLAS松件搜索數據庫,BLAST21具在結果呈現上有什么優點?4) MEGA卻何將其它多序列比又t格式文件轉化為MEG潞式的多序列比對文件?5)什么簡約信息位點Pi?6)以下軟件的主要用途是什
5、么?RepeatMasker,CpGPlot,SpliceView,Genscan,ORFfinder,neuralnetworkpromoterprediction.7)為下面的序列比對確定比對得分:匹配得分=+1,失配得分=0,空位得分二-1。TGTACGGCTATATC-CGCCT-TA8)用UPGMA建系統發生樹,距離矩陣如下:物種ABCDB9C811D1211510E15181359)畫出4個物種的3棵不同的無根樹.這4個物種在某位置上的核甘酸分別是T,T,C和C,為每個內部節點推斷的祖先序列標出最可能的候選核甘酸,3棵可能的無根樹中有幾棵是一樣簡約的(因為他們有最小替換數)?有幾棵
6、樹的替換樹是2?有大于2個替換的樹嗎?10)如何將所研究的蛋白質與其他相關蛋白質做結構比對。答案部分一、名詞解釋:生物信息學:研究大量生物數據復雜關系的學科,其特征是多學科交叉,以互聯網為媒介,數據庫為載體。利用數學知識建立各種數學模型;利用計算機為工具對實驗所得大量生物學數據進行儲存、檢索、處理及分析,并以生物學知識對結果進行解釋。二級數據庫:在一級數據庫、實驗數據和理論分析的基礎上針對特定目標衍生而來,是對生物學知識和信息的進一步的整理。P11,第2段。FASTAff列格式:是將DNA1£者蛋白質序列表示為一個帶有一些標記的核甘酸或者氨基酸字符串,大于號()表示一個新文件的開始,
7、其他無特殊要求。genbank序列格式:是GenBank數據庫的基本信息單位,是最為廣泛的生物信息學序列格式之一。該文件格式按域劃分為4個部分:第一部分包含整個記錄的信息(描述符);第二部分包含注釋;第三部分是引文區,提供了這個記錄的科學依據;第四部分是核甘酸序列本身,以“”結尾。P13,第2段。Entrez檢索系統:是NCBI開發的核心檢索系統,集成了NCBI的各種數據庫,具有鏈接的數據庫多,使用方便,能夠進行交叉索引等特點。P83-85。BLAST基本局部比對搜索工具,用于相似性搜索的工具,對需要進行檢索的序列與數據庫中的每個序列做相似性比較。P94查詢序列(querysequence):
8、也稱被檢索序列,用來在數據庫中檢索并進行相似性比較的序列。P98,第1段。打分矩陣(scoringmatrix):在相似性檢索中對序列兩兩比對的質量評估方法。包括基于理論(如考慮核酸和氨基酸之間的類似性)和實際進化距離(如PAM)兩類方法。P29,第2段。空位(gap):在序列比對時,由于序列長度不同,需要插入一個或幾個位點以取得最佳比對結果,這樣在其中一序列上產生中斷現象,這些中斷的位點稱為空位。P29,第2段。空位罰分:空位罰分是為了補償插入和缺失對序列相似性的影響,序列中的空位的引入不代表真正的進化事件,所以要對其進行罰分,空位罰分的多少直接影響對比的結果。P37,倒數第2段。E值:衡量
9、序列之間相似性是否顯著的期望值。E值大小說明了可以找到與查詢序列(query)相匹配的隨機或無關序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味著序列的相似性偶然發生的機會越小,也即相似性越能反映真實的生物學意義。P95低復雜度區域:BLASTS索的過濾選項。指序列中包含的重復度高的區域,如poly(A)。P10O,第一段。點矩陣(dotmatrix):構建一個二維矩陣,其X軸是一條序列,Y軸是另一個序列,然后在2個序列相同堿基的對應位置(x,y)加點,如果兩條序列完全相同則會形成一條主對角線,如果兩條序列相似則會出現一條或者幾條直線;如果完全沒有相似性則不能連成直線。P39-
10、41。多序列比對:通過序列的相似性檢索得到許多相似性序列,將這些序列做一個總體的比對,以觀察它們在結構上的異同,來回答大量的生物學問題。P48,需要概括。分子鐘:認為分子進化速率是恒定的或者幾乎恒定的假說,從而可以通過分子進化推斷出物種起源的時間。P112-113系統發育分析:通過一組相關的基因或者蛋白質的多序列比對或其他性狀,可以研究推斷不同物種或基因之間的進化關系。P112,第一段。進化樹的二歧分叉結構:指在進化樹上任何一個分支節點,一個父分支都只能被分成兩個子分支。P113,最后一段。系統發育圖:P114直系同源:指由于物種形成事件來自一個共同祖先的不同物種中的同源序列,具有相似或不同的
11、功能。P28,P146旁系(并系)同源:指同一個物種中具有共同祖先,通過基因重復產生的一組基因,這些基因在功能上的可能發生了改變。P28,P147外類群:是進化樹中處于一組被分析物種之外的,具有相近親緣關系的物種。P120有根樹:能夠確定所有分析物種的共同祖先的進化樹。P113除權配對算法(UPGM):A最初,每個序列歸為一類,然后找到距離最近的兩類將其歸為一類,定義為一個節點,重復這個過程,直到所有的聚類被加入,最終產生樹根。P119鄰接法(neighbor-joiningmethod):是一種不僅僅計算兩兩比對距離,還對整個樹的長度進行最小化,從而對樹的拓撲結構進行限制,能夠克服UPGMA
12、法要求進化速率保持恒定的缺陷。P118。最大簡約法(MP):在一系列能夠解釋序列差異的的進化樹中找到具有最少核酸或氨基酸替換的進化樹。P120最大似然法(ML):它對每個可能的進化位點分配一個概率,然后綜合所有位點,找到概率最大的進化樹。最大似然法允許采用不同的進化模型對變異進行分析評估,并在此基礎上構建系統發育樹。P122一致樹(consensustree):在同一算法中產生多個最優樹,合并這些最優樹得到的樹即一致樹。P121自舉法檢驗(Bootstrap):放回式抽樣統計法。通過對數據集多次重復取樣,構建多個進化樹,用來檢查給定樹的分枝可信度。P122開放閱讀框(ORF):開放閱讀框是基因
13、序列的一部分,包含一段可以編碼蛋白的堿基序列。P131密碼子偏好性(codonbias):氨基酸的同義密碼子的使用頻率與相應的同功tRNA的水平相一致,大多數高效表達的基因僅使用那些含量高的同功tRNA所對應的密碼子,這種效應稱為密碼子偏好性。P133基因預測的從頭分析:依據綜合利用基因的特征,如剪接位點,內含子與外顯子邊界,調控區,預測基因組序列中包含的基因。P134-145簡約信息位點:指基于DNAg蛋白質序列,利用最大簡約法構建系統發育樹時,如果每個位點的狀態至少存在兩種,每種狀態至少出現兩次的位點。其它位點為都是非簡約性信息位點。P121,第2行結構域(domain):保守的結構單元,
14、包含獨特的二級結構組合和疏水內核,可能單獨存在,也可能與其他結構域組合。相同功能的同源結構域具有序列的相似性。P158模體(motif):短的保守的多肽段,含有相同模體的蛋白質不一定是同源的,一般10-20個殘基。P161,最后一行PAM矩陣:PAM旨可接受突變百分率。一個氨基酸在進化中變成另一種氨基酸的可能性,通過這種可能性可以鑒定蛋白質之間的相似性,并產生蛋白質之間的比對。一個PAM單位是蛋白質序列平均發生1%勺替代量需要的進化時間。P30-31BLOSUM巨陣:模塊替代矩陣。矩陣中的每個位點的分值來自蛋白比對的局部塊中的替代頻率的觀察。每個矩陣適合特定的進化距離。例如,在BLOSUM62
15、陣中,比對的分值來自不超過62%一致率的一組序列。P34折疊子(Fold):在兩個或更多的蛋白質中具有相似二級結構的大區域,這些大區域具有特定的空間取向。P162TrEMBL是與SWISS-PRO相關的一個數據庫。包含從EMB駭酸數據庫中根據編碼序列(CDS)翻譯而得到的蛋白質序列,并且這些序列尚未集成到SWISS-PROT數據庫中。P21PDB(ProteinDataBank):PDB收錄了大量通過實驗(X射線晶體衍射,核磁共振NMR測定的生物大分子的三維結構,記錄有原子坐標、配基的化學結構和晶體結構的描述等。PDBt據庫的訪問號由一個數字和三個字母組成(如,4HHB,同時支持關鍵詞搜索,還
16、可以FASTA1序進行搜索。P22MMDB(MolecularModelingDatabase):是(NCBI)所開發的生物信息數據庫集成系統Entrez的一個部分,數據庫的內容包括來自于實驗的生物大分子結構數據。與PD琳目比,對于數據庫中的每一個生物大分子結構,MMDB有許多附加的信息,如分子的生物學功能、產生功能的機制、分子的進化歷史等,還提供生物大分子三維結構模型顯示、結構分析和結構比較工具。?SCO嗷據庫:提供關于已知結構的蛋白質之間結構和進化關系的詳細描述,包括蛋白質結構數據庫PDB中的所有條目。SCO嗷據庫除了提供蛋白質結構和進化關系信息外,對于每一個蛋白質還包括下述信息:到PDB
17、勺連接,序列,參考文獻,結構的圖像等。可以按結構和進化關系對蛋白質分類,分類結果是一個具有層次結構的樹,其主要的層次依次是類(class)、折疊子(fold)、超家族(superfamily)、家族(family)、單個PDBS白結構記錄。P23PROSITE是蛋白質家族和結構域數據庫,包含具有生物學意義的位點、模式、可幫助識別蛋白質家族的統計特征。PROSITE中涉及的序列模式包括酶的催化位點、配體結合位點、與金屬離子結合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質結合的區域等;PROSITE3S包括根據多序列比對而構建的序列統計特征,能更敏感地發現一個序列是否具有相應的特征。P22Ref
18、Seq:給出了對應于基因和蛋白質的索引號碼,對應于最穩定、最被人承認的Genbank序列。?PSI-BLAST:位點特異性迭代比對。是一種專門化的的比對,通過調節序列打分矩陣(scoringmatrix)探測遠緣相關的蛋白。P97GeneOntology協會:編輯一組動態的、可控的基因產物不同方面性質的字匯的協會。從3個方面描述基因產物的性質,即,分子功能,生物過程,細胞區室。表譜(PSSM):指一張基于多序列比對的打分表,表示一個蛋白質家族,可以用來搜索序列數據庫。P97比較基因組學:P148二、問答題1緒論1) 生物信息學的發展經歷了那幾個階段2) 生物信息學步入后基因組時代后,其發展方向
19、有哪幾個方面。1)請列舉3個以上Entrez系統可以檢索的數據庫。答:P832)序列的相似性與同源性有什么區別與聯系?答:相似性是指序列之間相關的一種量度,兩序列的的相似性可以基于序列的一致性的百分比;而同源性是指序列所代表的物種具有共同的祖先,強調進化上的親緣關系。P1473) BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么?答:blastn是將給定的核酸序列與核酸數據庫中的序列進行比較;Blastp是使用蛋白質序列與蛋白質數據庫中的序列進行比較,可以尋找較遠的關系;Blastx將給定的核酸序列按照六種閱讀框架將其翻譯成蛋白質與蛋白質
20、數據庫中的序列進行比對,對分析新序列和EST很有用;Tblastn將給定的氨基酸序列與核酸數據庫中的序列(雙鏈)按不同的閱讀框進行比對,對于尋找數據庫中序列沒有標注的新編碼區很有用;Tblastx只在特殊情況下使用,它將DNAM僉索的序列和核酸序列數據庫中的序列按不同的閱讀框全部翻譯成蛋白質序列,然后進行蛋白質序列比對。P974)簡述BLAST5索的算法思想。答:BLAST1一種局部最優比對搜索算法,將所查詢的序列打斷成許多小序列片段,然后小序列逐步與數據庫中的序列進行比對,這些小片段被叫做字”word”;當一定長度的的字(W與檢索序列的比對達到一個指定的最低分(T)后,初始比對就結束了;一個
21、序列的匹配度由各部分匹配分數的總和決定,獲得高分的序列叫做高分匹配片段(HSP,程序將最好的HSP雙向擴展進行比對,直到序列結束或者不再具有生物學顯著性,最后所得到的序列是那些在整體上具有最高分的序列,即,最高分匹配片段(MSP,這樣,BLASTM呆持了整體的運算速度,也維持了比對的精度。P955)什么是物種的標記序列?答:指物種特有的一段核苷酸序列。可以通過相似性查詢,得到某一序列在數據庫中的某一物種中反復出現,且在其他物種中沒有的明顯相似的序列。6)什么是多序列全局比對的累進算法?答:第一,所有的序列之間逐一比對(雙重比對);第二,生成一個系統樹圖,將序列按相似性大致分組;第三,使用系統樹
22、圖作為引導,產生出最終的多序列比對結果。P527)簡述構建進化樹的步驟,每一步列舉1-2種使用的軟件或統計學方法。答:(1)多序列比對:ClustalW(2)校對比對結果:BIOEDIT(3)建樹:MEGA(4)評估系統發育信號和進化樹的牢固度:自舉法(Bootstrap)P1148)簡述除權配對法(UPGMA的算法思想。答:通過兩兩比對聚類的方法進行,在開始時,每個序列分為一類,分別作為一個樹枝的生長點,然后將最近的兩序列合并,從而定義出一個節點,將這個過程不斷的重復,直到所有的序列都被加入,最后得到一棵進化樹。P1199)簡述鄰接法(NJ)構樹的算法思想。答:鄰接法的思想不僅僅計算最小兩兩
23、比對距離,還對整個樹的長度進行最小化,從而對樹的拓撲結構進行限制。這種算法由一棵星狀樹開始,所有的物種都從一個中心節點出發,然后通過計算最小分支長度的和相繼尋找到近鄰的兩個序列,每一輪過程中考慮所有可能的序列對,把能使樹的整個分支長度最小的序列對一組,從而產生新的距離矩陣,直到尋找所有的近鄰序列。P11710)簡述最大簡約法(MP的算法思想。P68答:是一種基于離散特征的進化樹算法。生物演化應該遵循簡約性原則,所需變異次數最少(演化步數最少)的演化樹可能為最符合自然情況的系統樹。在具體的操作中,分為非加權最大簡約分析(或稱為同等加權)和加權最大簡約分析,后者是根據性狀本身的演化規律(比如DNA
24、同位點進化速率不同)而對其進行不同的加權處理。P12011)簡述最大似然法(MLL的算法思想。P69答:是一種基于離散特征的進化樹算法。該法首先選擇一個合適的進化模型,然后對所有可能的進化樹進行評估,通過對每個進化位點的替代分配一個概率,最后找出概率最大的進化樹。P12212)UPGMA樹法不精確的原因是什么?P69答:由個于UPGMA設在進化過程中所有核甘酸/氨基酸都有相同的變異率,也就是存在著一個分子鐘;這種算法當所構建的進化樹的序列進化速率明顯不一致時,得到的進化樹相對來說不準確的。P119,倒數第2段,前4行。13)在MEGA軟件中,提供了哪些堿基替換距離模型,試列舉其中3種,解釋其含
25、義。答:堿基替換模型包括,No.ofdifferences、p-distance、Jukes-Cantor、Tamuradistance、Tajima-Neidistance、Kimur2-parameterdistance3-parameterdistance、Tamura-Neidistancep-distance:表示有差異的核甘酸位點在序列中所占比例,將有差異的核甘酸位點數除已經比對的總位點數就可以得到Jukes-Cantor:模型假設ATCG的替換速率是一致的,然后給出兩個序列核甘酸替換數的最大似然估計Kimura2-parameter:模型考慮到了轉換很顛換隊多重擊中的影響,但假I
26、設整個序列中4鐘核甘酸的頻率是相同哈彳惠在不同位點上的堿基替換頻率是相同的14)列舉5項DNAJ列分析的內容及代表性分析工具。(1)尋找重復元件:RepeatMasker(2)(3)(4)(5) CpG同源性檢索確定是否存在已知基因:BLASTn從頭開始方法預測基因:Genscan分析各種調控序歹U:TRES/DRAGONPROMOTORFINDER島:CpGPlotP130,表格15)如何獲取訪問號為U49845的genbank文件?解釋如下genbank文件的LOCUS行提供的信息:LOCUSSCU498455028bpDNAlinearPLN21-JUN-1999答:(1)訪問NCBI的
27、Entrez檢索系統,(2)選擇核酸數據庫,(3)輸入U49845序列訪問號開始檢索。第一項是LOCU宓稱,前三個字母代表物種名第二項是序列長度第三項是序列分子類型第四項是分子為線性的第五項是GenBank分類碼P13第六項是最后修訂日期16)利用Entrez檢索系統對核酸數據搜索,輸入如下信息,將獲得什么結果:AF114696:AF114714ACCNiP35答:獲得序列訪問號AF114696到AF114714之間的連續編號的序列。MEG格式的多序列比對文件?Editor and Format Coverter 工4)獲得轉換后的MEGA&式的=+1 ,失配得分=0 ,空位得分17)
28、MEGA2口何將其它多序列比對格式文件轉化為答:(1)選擇菜單file,(2)選擇TextFile具,(3)調入需要轉換的序列和相應的格式,(文件并保存。18)為下面的序列比對確定比對得分:匹配得分=-1oTGTACGGCTATATC-CGCCT-TATT1GC0T-1A-1CC1GG1GC0CC1TT1A-1TT1AA1最后得分1+0+(-1)+(-1)+1+1+0+1+1+(-1)+1+1=419)用UPGMA建系統發生樹,距離矩陣如下:物種ABCDB9C811D1211510E1518135答:用Newick格式表示的樹圖:(A。B)(DE)。分析過程:(1)兩條序列間的最小距離是dDE
29、,所以物種D和E聚到一組,如下圖(2)計算新的距離矩陣,其中復合物種(DE替換D和E,如下表。其他物種與新物種組之間的距離由它們與組中兩個物種(D和E)之間距離的平均值決定如,d(D日A=1/2(dAD+dAE)=1/2(12+15)=13.5物種ABCB9C811DE13.516.511.5第二次聚類在A和C之間,組成AC類。如下圖,DEAC(AC)(DE)(3)將A和C合并,計算新的矩陣,如下表,最后一次聚類(ACB)將物種B的分支點放在(A。和(DEE的共同祖先之間。物種BACAC10DE16.512.520)畫出4個物種的3棵不同的無根樹.這4個物種在某位置上的核甘酸分別是T,T,C和C,為每個內部節點推斷的祖先序列,標出最可能的候選核甘酸.3棵可能的無根樹中有幾棵是一樣簡約的(因為他們有最小替換數)?有幾棵樹的替換樹是2?,有大于
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年四川蒼溪大宇糧食經營管理有限公司招聘筆試參考題庫附帶答案詳解
- 2025年浙江蘭湖旅游度假區經營管理有限公司招聘筆試參考題庫含答案解析
- 江蘇揚州公開招聘社區工作者筆試帶答案2024年
- 2024年青海玉樹州事業單位招聘考試真題答案解析
- 2025年貴州六盤水中聯合眾勞務服務有限公司招聘筆試參考題庫含答案解析
- 2025年江蘇常熟市永協勞動服務有限責任公司招聘筆試參考題庫含答案解析
- 2024年安徽滁州事業單位招聘考試真題答案解析
- 湖北省黃岡市十五校2024-2025學年高二下學期期中聯考 歷史試題(含答案)
- 珍愛生命演講稿500字(29篇)
- 2025辭職申請書(18篇)
- 基于全生命周期的綠色建筑成本影響因素研究
- 2025年普法知識競賽題庫及答案(共80題)
- 碎石外包合同協議
- 2025年第三屆天揚杯建筑業財稅知識競賽題庫附答案(1001-1536題)
- 2025科技輔導員培訓
- 樹木修剪合同協議
- 新疆維吾爾自治區2024年普通高校招生普通類國家及地方專項、南疆單列、對口援疆計劃 本科一批次投檔情況 (理工)
- 智研咨詢發布:2025年紙漿模塑餐飲具行業市場規模及主要企業市占率分析報告
- 2025年國家糧食和物資儲備局垂直管理系事業單位招聘筆試參考題庫附帶答案詳解
- DB32-T 4281-2022 江蘇省建筑工程施工現場專業人員配備標準
- 自卸車整車裝配檢驗規范-ok
評論
0/150
提交評論