




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
人類
組計劃HGP
(Human
Genome
Project),同NIH和能源部提出和美、英、德、法、日、參與的國際合作項目。重大國際研究項目:測定人類
組全部組遺傳圖譜和物DNA序列,構建人類理圖譜。1990年:正式啟動,30億。2001年:人類
組草圖公開。2005年:
工作已經基本完成。生物信息學定義的歷史演變定義一:生物信息學是一門收集、分析遺傳數據以及分發給研究機構的新學科(Bioinformatics
is
a
new
subject
of
geneticd
ollection, ysis
and
dissemination
to
the
researchcommunity)。(Dr.
Hwa
A.
Lim,1987)定義二:生物信息學特指數據庫類的工作,包括持久穩固的在一個穩定的地方提供對數據的支持(Bioinformatics
refersto
database-like
activities,involving
persistent
setsof
datathatare
maintained
in
a
consistent
state
over
essentially
indefiniteperiods
of
time)。(Dr.
Hwa
A.Lim,1994)定義三:生物信息學是在大分子方面的概念型的生物學,并且使用了信息學的技術,這包括了從應用數學、計算機科學以及統計學等學科衍生而來各種方法,并以此在大尺度上來理解和組織與生物大分子相關的信息。
(
be,2001)生物信息學?Bioinformatics
is
the
field
of
science
in
which
biology,computer
science,
and
information
technology
mergeinto
a
single
discipline.
The
ultimate
goal
of
the
fieldis
to
enable
the
discovery
of
new
biological
insights
aswell
as
to
create
a
global from
whichunifying
principles
in
biology
can
be
discerned.Biology
in
the
21st
century
is
being
transformed
from
apurely
lab-based
science
to
aninformation
science
as
well.from
NCBI’s
science
primer
v/About/primer/bioinformatics.html生物信息學?生物信息學是一門交叉學科,它包含了生物信息的獲取、處理、
、分發、分析和解釋等在內的所有方面,它綜合運用數學、計算機科學和生物學的各種工具,來闡明和理解大量數據所包含的生物學意義。(
人類
組計劃第一個五年總結報告,1995)生物信息學最重要的任務:數據→
信息→
知識廣義生物信息學觀點Biology
may
be
viewed
as
the
study
of
transmissionof
information:
from
mother
cell
to
daughter
cell,from
one
cell
or
tissue
type
to
another,
from
onegeneration
to
the
next,
and
from
one
species
toanother.
This
informational
viewpoint
is
termedbioinformatics.生物學研究可以被看成是研究信息的傳遞:從DNA經轉錄翻譯到蛋白質,從細胞質中到細胞核內,從母細胞到子細胞,從一個細胞或到另一個細胞或另,從一代到下一代,從一個物種到另一個物種的進化演變。這種信息論的觀點即可稱為生物信息學。(Bioinformatic
challenges
for
the
next
decade(s),
David
Eisenberg
et
al.,
2006)、分發、分析生物數據的獲取、處理、和解釋等在內的所有方面;生物體內/外的信息/信號的傳遞;生物學信息學生物信息學生物信息學的主要研究內容與查詢;生物信息的序列比對;序列模式識別;及
組分析;分子進化與系統發育分析;RNA結構
;蛋白質結構分析與
;分子設計與藥物篩選設計;生物網絡;生物
;…生物信息學的發展歷程結果,推斷蛋白質是1952年,Sanger根據胰島素蛋白質的排列完美的分子。1955年,Sanger與合作者分別對牛、豬和羊的胰島素蛋白質進行了
并做了序列上的比較。-最早的序列比對。1962年,
提出分子進化的理論,推測在人中可能存在50,000~100,000個不同的
/蛋白質。-分子進化理論的奠定。1965年,Margaret
Dayhoff構建蛋白質序列圖譜1970年,Needleman-Wunsch算法:全局優化比對。1981年,Smith-Waterman算法
部優化比對。1990年,快速序列相似性搜索工具BLAST的開發生物信息學發展過程中的里程碑性事件早期的發展階段示意圖最早的序列分析:胰島素蛋白質Insulin
Chain
A:8-10位存在著不同(牛,ASV;豬,TSI;羊,AGV)(Brown
et
al.,1955)。Madeby
GeneDoc不同物種的系統發育分析80年代:DNA序列數據庫1974年,Ge eI.Bell等人收集DNA序列,構建GenBank數據庫。1982~1992開發第一個版本。1980年,EMBL數據庫成立。1984年,
DDBJ數據庫成立。核酸序列數據的去冗余:Refseq數據庫,對于相同的序列只列一條
。核酸數據庫數據的增長獲取序列及檢索公共數據庫NCBI:可通過Entrez系統進行檢索。提供關鍵字的搜索的方法。“硬搜索”:包含關鍵字的,完全匹配的結果。“軟搜索”:與查詢內容相關的信息。查詢內容:
/蛋白質的名稱、標識符,文獻、蛋白質結構,等等。序列比對工具的開發
1970年,Gi AJ
和McIntyre
GA,點陣法進行氨基酸和核酸的序列比較:當相同的字母在兩條序列中同時出現時,在交叉處置點。
1970年,Needleman-Wunsch,全局優化的序列比對算法:允許匹配、錯配和缺失。動態規劃的算法:任務可分割,分成更小的子問題進行解決。
1981年,Smith-Waterman,局部優化的序列比對算法。FASTA
&
BLAST的開發,啟發式優化算法。多序列比對:CLustalW/X,POA,
MUSCLE.AGCTAGGAGACTAGGC兩條DNA序列的點陣法比較全局優化vs.局部優化ACTGTTCCGAA…
…100kbp……AGCCTGA…
…100kbp……ACTACTGACGCCTG全局優化ACTGTTCCGAA…
…100kbp……AGCCTGA…
…100kbp……ACTACTGAC---…---GCC---…---TGACTGTTCCGAA…
…100kbp…
…A-GCCTGA……100kbp…
…ACTACTGACGCCTG局部優化Needleman-Wunsch算法GATCTAGATCA數據庫中搜索相似序列通過搜索數據庫中相似序列發現
功能。例如反轉錄
編碼的
v-sis和v-src通過和模式生物已知遺傳或生化信息的
序列進行相似性搜索,
新
功能。FASTA和BLASTFASTA:以幾個殘基長度的’word’為單元進行檢索;W.
Pearson和D.Lipman開發。BLAST:應用最廣泛的序列相似性搜索工具,相比FASTA有
改進,速度更快。PSI-BLAST:位點特異性迭代BLASTPHI-BLAST:模式發現迭代BLAST全局性的多序列比對Made
by
GENEDOC基于序列信息研究分子進化及亞構建進化樹,分析蛋白質的超分類。尋找Ortholog(直系同源物)或者Paralog(旁系同源物)。分子進化樹的構建方法:鄰接法(Neighbor-Joining),
最大簡約法(最大似然性法(um
Pasimony),um
Likelihood),以及類算法(MCMC)。構建進化樹的第一步:可靠的多序列比對。構建進化樹Taxon
ATaxon
BTaxon
CTaxon
D116遺傳變化Tree
of
Life模式識別模塊/BLOCKSUMO化的序列模體:Ψ-K-X-E(Ψ:A,I,L,V,M,F,P;
X:任意氨基酸)模體/MotifStrong
MotifACGTAGCACpG島:HMM存在兩種狀態:是CpG島(CpG
Island,
I),不是CpG島(Genome,G)組大小&數真核生物的
結構5’3’3’5’~
1-100
Mbp3’5’5’
…3’
………~
1-1000
kbpexons
(cds
&
utr)
/(~
102-103bp)introns(~
102-105
bp)promoter
(~103
bp)enhancers
(~101-102
bp)Polyadenylationsiteother
regulatory
sequences(~
101-102
bp)RNA二級結構的RNA分子中,如果存在重復且反向互補,則可以形成發卡結構。動態規劃法:最多配對的堿基對。應用:構建RNA分子數據庫。蛋白質結構等大量序列已知vs.少量結構解析實驗方法測定:X射線晶體學,核磁三級結構主要由一級序列決定。蛋白質折疊的類型相對有限(~1,000)。蛋白質二級結構的
->
三級結構蛋白質相互作用網絡生物信息學的過去、現在和未來生物信息學:學科交叉生物信息學的相關知識儲備生物學背景:e.g.,分子生物學、細胞生物學、發育生物學、生物化學,…數學知識:概率論與統計學,…算法及編程能力:JAVA,Perl/Python,PHP+MySQL,…生物信息學的常用算法與方法動態規劃算法(Dynamic
programming);統計(bayesian
statistic);人工神經網絡(ANNs);馬爾可夫模型和隱
模型(HMM);遺傳算法(Genetic
Algorithm);方法(Monte
Carlo);模擬退火算法(Simulated
Annealing);支持向量機(SVM);…NIH下屬國立科研機構及網絡資源中心NCBI:
國立衛生生物技術信息中心NCBI。下屬歐EMBL-EBI:歐洲分子生物學洲生物信息學
。EMBnet:歐洲分子生物學網絡ExPASy:
(Expert
ProteinysisSIB下屬的蛋System)白質分析生物信息系統;科研機構及網絡資源中心Bioinformatics
Links
Directory:各種數據庫等如GenBank,PDB
(Protein
Data
Bank)UniProt
數據庫等資源:國內生物信息中心舉例CBIPKU:
生物信息中心
chinese/BioSino:中國生物信息中國
生命
生物信息中心生物生物信息學的相關雜志生物信息學研究的一般步驟1.確立研究的生物學體系。例如:生物
數據分析;蛋白質三級結構與功能;確定研究的問題。已有哪些計算方面的工作?是否需要實驗的支持?構建生物學/數學模型,例如:ligand結合位點的預測,構建特異性識別位點的結構模式模型。計算方法的選擇或開發:HMM,SVM,ANN或新方法。計算結果分析,與同類工具做比較。構建相應的數據庫/
/
等。擴展及應用:有哪些用處?計算生物學vs.生物信息學計算生物學(Computational
Biology):根據
國家衛生
(NIH)的定義,它是指開發和應用數據分析及理論的方法、數學建模和計算機仿真技
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論