周四下午-聚類_第1頁
周四下午-聚類_第2頁
周四下午-聚類_第3頁
周四下午-聚類_第4頁
周四下午-聚類_第5頁
免費預覽已結束,剩余27頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

聚類、富集分析原理與實踐2013年12月1數據2OUTLINE1.Cluster聚類1.距離計算2.聚類方法3.

R語言實現2.Enrient富集1.正態分布2.超幾何分布3.富集工具3聚類分析-1.1距離算法A.PEARSON

CORRELATIONIf

you

were

to

make

a

scatterplot

of

the

values

of

x

against

y

(pairing

x1

with

y1,x2

withy2,etc),then

r

reportshow

well

you

can

fit

a

line

to

thevalues.反應了變量間的線性相關程度的大小(趨勢)identicalcomple y

uncorrelated10-1

perfect

oppositeD=1-rD=1-

|r|45聚類分析-1.1距離算法B.NON-PARAMETRIC

DISTANCEMEASURESSpearman

rank

correlationKendall’s

τ為了使用Pearson線性相關系數,必須假設數據是成對地從正態分布中取得的(服從二維正太分布)These

methods

are

more

robust

against

outliers聚類分析-1.1距離算法B.NON-PARAMETRIC

DISTANCEMEASURES-Spearman

rank

correlation6聚類分析-1.1距離算法B.NON-PARAMETRIC

DISTANCEMEASURES-Kendall

tau

correlation7聚類分析-1.1距離算法B.NON-PARAMETRIC

DISTANCEMEASURES-Kendall

tau

correlation8聚類分析-1.1距離算法B.NON-PARAMETRIC

DISTANCEMEASURES-Kendall

tau

correlation9聚類分析-1.1距離算法B.Euclidean

distanceUnlike

thecorrelation-based

distancemeasures,

the

Euclidean

distance

takes

themagnitude

of

changes

in

t

eexpression

levels

into

account,It

shouldtherefore

only

be

used

for

expression

datathat

are

suitably

normalized.1011聚類分析-1.2聚類方法A.HIERARCHICAL

CLUSTERINGHierarchical

clustering

methods

organizes

genesor/and

samples

in

a

tree

structure,

based

on

theirsimilarity.The

basic

idea

is

to

assemble

a

set

of

items

(genesor

arrays)

into

a

tree,

where

items

are

joined

byvery

short

branches

if

they

are

very

similar

to

each

other,

and

by

increasingly

longer

branches

astheir

similarity

decreases.聚類分析-1.2聚類方法A.HIERARCHICAL

CLUSTERING1213聚類分析-1.2聚類方法B.K-MEANS

CLUSTERINGChoose

k

initial

center

points

randomlyCluster

data

using

Euclidean

distance

(or

other

distancemetric)Calculate

new

center

points

for

each

cluster

using

only

pointswithin

the

clusterRe-Cluster

all

data

using

the

new

center

pointsRepeat

steps

3

&

4

for

defined

times聚類分析-1.3

R語言實現union_for_cluster.txtclustering.r14聚類分析-1.3其它方法15OUTLINE1.Cluster聚類1.距離計算2.聚類方法3.

R語言實現2.Enrient富集1.正態分布2.超幾何分布3.富集工具16富集分析17富集分析-2.1正態分布一(mu),尺度參數為σ(sigma)若隨

量X服從的概率分布,且其量,正態隨量服從的分布就稱則這個隨

量就稱為正態隨為正態分布。記作X~N(μ,σ2)18富集分析-2.1正態分布量的疊加結果,那么這量都可以用正態分布表示或一個變量如果是由大量微小的、獨立的隨個變量就服從正態分布。因此許多隨近似描述。表達量例子:microarray考試成績身高19富集分析-2.1正態分布在一個假設檢驗問題中原假設H0所需的最小顯著性水平稱為檢驗的p值20富集分析-2.2超幾何分布在一個口袋中裝有60個球,其中有10個白球,其余為黑球。

者一次從中摸出8個球。摸到5個白球的概率是多少?摸到x個白球的概率呢?a.排列組合的解法>choose()>factorial()>(choose(10,5)*choose(50,3))/choose(60,8)[1]

0.001930415b.超幾何分布分布律與分布函數dhyper(5,10,50,8)[1]

0.0019304151-phyper(4,10,50,8)[1]

0.00203332phyper(4,10,50,8,

lower.tail=FALSE)[1]

0.0020333221富集分析-2.2超幾何分布在一個口袋中裝有60個球,其中有10個白球,其余為黑球。

者一次從中摸出8個球。摸到5個白球的概率是多少?摸到x個白球的概率呢?列聯表(contingency

table)抽中未抽中合計白色5510黑色34750合計85260counts<-matrix(c(5,3,5,47),

nrow=2,ncol=2)counts[,1]

[,2][1,]

5

5[2,] 3

47fisher.test(counts)Fisher's

Exact

Test

for

Count

Datadata:

countsp-value

=

0.002033alternative

hypothesis:

true

odds

ratio

is

not

equalto

195

percent

confidence

interval:2.124677

123.487719sample

estimates:odds

ratio14.4213822富集分析-2.2超幾何分布GO

accession:

GO:0008283Desription:

cell

proliferationTerm

type:

biological_process差異差異背景背景中與該term相關的總數:2545中與該term相關的總數:18374數:113數:528Is

“cell

proliferation”

overrepresented

in

the

diffe

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論