




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、關聯(lián)分析: 基本概念和算法第6章關聯(lián)分析: 基本概念和算法定義:關聯(lián)分析(association analysis)關聯(lián)分析用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的令人感興趣的聯(lián)系,所發(fā)現(xiàn)的模式通常用關聯(lián)規(guī)則或頻繁項集的形式表示。關聯(lián)分析可以應用于生物信息學、醫(yī)療診斷、網(wǎng)頁挖掘、科學數(shù)據(jù)分析等Rules Discovered: Diaper - Beer6.1 問題定義項集(Itemset)包含0個或多個項的集合例子: Milk, Bread, Diaperk-項集如果一個項集包含k個項支持度計數(shù)(Support count )()包含特定項集的事務個數(shù)例如: (Milk, Bread,Diaper) =
2、 2 支持度(Support)包含項集的事務數(shù)與總事務數(shù)的比值例如: s(Milk, Bread, Diaper) = 2/5頻繁項集(Frequent Itemset)滿足最小支持度閾值( minsup )的所有項集定義: 關聯(lián)規(guī)則(Association Rule)關聯(lián)規(guī)則關聯(lián)規(guī)則是形如 X Y的蘊含表達式, 其中 X 和 Y 是不相交的項集例子:Milk, Diaper Beer 定義: 關聯(lián)規(guī)則(Association Rule)Example:關聯(lián)規(guī)則的強度支持度 Support (s)確定項集的頻繁程度置信度 Confidence (c)確定Y在包含X的事 務中出現(xiàn)的頻繁程度關聯(lián)規(guī)
3、則挖掘問題關聯(lián)規(guī)則挖掘問題:給定事務的集合 T, 關聯(lián)規(guī)則發(fā)現(xiàn)是指找出支持度大于等于 minsup并且置信度大于等于minconf的所有規(guī)則, minsup和minconf是對應的支持度和置信度閾值挖掘關聯(lián)規(guī)則的一種原始方法是:Brute-force approach:計算每個可能規(guī)則的支持度和置信度這種方法計算代價過高,因為可以從數(shù)據(jù)集提取的規(guī)則的數(shù)量達指數(shù)級從包含d個項的數(shù)據(jù)集提取的可能規(guī)則的總數(shù)R=3d-2d+1+1,如果d等于6,則R=602挖掘關聯(lián)規(guī)則(Mining Association Rules)大多數(shù)關聯(lián)規(guī)則挖掘算法通常采用的一種策略是,將關聯(lián)規(guī)則挖掘任務分解為如下兩個主要的
4、子任務: 頻繁項集產(chǎn)生(Frequent Itemset Generation)其目標是發(fā)現(xiàn)滿足最小支持度閾值的所有項集,這些項集稱作頻繁項集。規(guī)則的產(chǎn)生(Rule Generation)其目標是從上一步發(fā)現(xiàn)的頻繁項集中提取所有高置信度的規(guī)則,這些規(guī)則稱作強規(guī)則(strong rule)。6.2 頻繁項集產(chǎn)生(Frequent Itemset Generation)格結構(lattice structure)頻繁項集產(chǎn)生(Frequent Itemset Generation)Brute-force 方法: 把格結構中每個項集作為候選項集將每個候選項集和每個事務進行比較,確定每個候選項集的支持
5、度計數(shù)。時間復雜度 O(NMw),這種方法的開銷可能非常大。降低產(chǎn)生頻繁項集計算復雜度的方法減少候選項集的數(shù)量 (M)先驗(apriori)原理減少比較的次數(shù) (NM)替代將每個候選項集與每個事務相匹配,可以使用更高級的數(shù)據(jù)結構,或存儲候選項集或壓縮數(shù)據(jù)集,來減少比較次數(shù)先驗原理( Apriori principle)先驗原理:如果一個項集是頻繁的,則它的所有子集一定也是頻繁的相反,如果一個項集是非頻繁的,則它的所有超集也一定是非頻繁的:這種基于支持度度量修剪指數(shù)搜索空間的策略稱為基于支持度的剪枝(support-based pruning)這種剪枝策略依賴于支持度度量的一個關鍵性質,即一個項
6、集的支持度決不會超過它的子集的支持度。這個性質也稱為支持度度量的反單調性(anti-monotone)。非頻繁項集例子被剪枝的超集Apriori算法的頻繁項集產(chǎn)生Apriori算法的頻繁項集產(chǎn)生Items (1-itemsets)Pairs (2-itemsets)Triplets (3-itemsets)支持度閾值=60%最小支持度計數(shù) = 3枚舉所有項集將產(chǎn)生 個候選而使用先驗原理,將減少為6 + 6 + 1 = 13Apriori 算法Apriori 算法Apriori算法的頻繁項集產(chǎn)生的部分有兩個重要的特點:它是一個逐層算法。即從頻繁1-項集到最長的頻繁項集,它每次遍歷項集格中的一層它
7、使用產(chǎn)生-測試策略來發(fā)現(xiàn)頻繁項集。在每次迭代,新的候選項集由前一次迭代發(fā)現(xiàn)的頻繁項集產(chǎn)生,然后對每個候選的支持度進行計數(shù),并與最小支持度閾值進行比較。該算法需要的總迭代次數(shù)是kmax+1,其中kmax是頻繁項集的最大長度候選的產(chǎn)生與剪枝(構造apriori-gen函數(shù))候選項集的產(chǎn)生候選項集的剪枝蠻力方法蠻力方法把所有的k-項集都看作可能的候選,然后使用候選剪枝除去不必要的候選第k層產(chǎn)生的候選項集的數(shù)目為雖然候選產(chǎn)生是相當簡單的,但是候選剪枝的開銷極大,因為必須考察的項集數(shù)量太大。設每一個候選項集所需的計算量為O(k),這種方法 的總復雜度為候選的產(chǎn)生與剪枝Items (1-itemsets)
8、Pairs (2-itemsets)Triplets (3-itemsets)支持度閾值=60%最小支持度計數(shù) = 3枚舉所有項集將產(chǎn)生 個候選而使用先驗原理,將減少為6 + 6 + 1 = 13候選的產(chǎn)生與剪枝 這種方法用其他頻繁項來擴展每個頻繁(k-1)-項集這種方法將產(chǎn)生 個候選k-項集,其中|Fj|表示頻繁j-項集的個數(shù)。這種方法總復雜度是這種方法是完全的,因為每一個頻繁k-項集都是由一個頻繁(k-1)-項集和一個頻繁1-項集組成的。因此,所有的頻繁k-項集是這種方法所產(chǎn)生的候選k-項集的一部分。候選的產(chǎn)生與剪枝候選的產(chǎn)生與剪枝 然而,這種方法很難避免重復地產(chǎn)生候選項集。 如:面包,尿
9、布,牛奶不僅可以由合并項集面包,尿布和牛奶得到,而且還可以由合并面包,牛奶和尿布得到,或由合并尿布,牛奶和面包得到。候選的產(chǎn)生與剪枝避免產(chǎn)生重復的候選項集的一種方法是確保每個頻繁項集中的項以字典序存儲,每個頻繁(k-1)-項集X只用字典序比X中所有的項都大的頻繁項進行擴展 如:項集面包,尿布可以用項集牛奶擴展,因為“牛奶”(milk)在字典序下比“面包”(Bread)和“尿布”(Diapers)都大。盡管這種方法比蠻力方法有明顯改進,但是仍然產(chǎn)生大量不必要的候選。 例如,通過合并啤酒,尿布和牛奶而得到的候選是不必要的。因為它的子集啤酒,牛奶是非頻繁的。候選的產(chǎn)生與剪枝 這種方法合并一對頻繁(k
10、-1)-項集,僅當它們的前k-2個項都相同。 如頻繁項集面包,尿布和面包,牛奶合并,形成了候選3-項集面包,尿布,牛奶。算法不會合并項集啤酒,尿布和尿布,牛奶,因為它們的第一個項不相同。然而,由于每個候選都由一對頻繁(k-1)-項集合并而成,因此,需要附加的候選剪枝步驟來確保該候選的其余k-2個子集是頻繁的。候選的產(chǎn)生與剪枝支持度計數(shù)支持度計數(shù)過程確定在apriori-gen函數(shù)的候選項剪枝步驟保留下來的每個候選項集出現(xiàn)的頻繁程度。計算支持度的主要方法:一種方法是將每個事務與所有的候選項集進行比較,并且更新包含在事務中的候選項集的支持度計數(shù)。這種方法是計算昂貴的,尤其當事務和候選項集的數(shù)目都很
11、大時。另一種方法是枚舉每個事務所包含的項集,并且利用它們更新對應的候選項集的支持度。枚舉事務t的所有包含3個項的子集產(chǎn)生Hash樹2 3 45 6 71 4 51 3 61 2 44 5 71 2 54 5 81 5 93 4 53 5 63 5 76 8 93 6 73 6 81,4,72,5,83,6,9Hash functionHash函數(shù)h(p)=p mod 3假設有15個候選3-項集: 1 4 5, 1 2 4, 4 5 7, 1 2 5, 4 5 8, 1 5 9, 1 3 6, 2 3 4, 5 6 7, 3 4 5, 3 5 6, 3 5 7, 6 8 9, 3 6 7, 3
12、6 8Hash樹結構1 5 91 4 51 3 63 4 53 6 73 6 83 5 63 5 76 8 92 3 45 6 71 2 44 5 71 2 54 5 81,4,72,5,83,6,9Hash FunctionCandidate Hash TreeHash on 1, 4 or 7Hash樹結構1 5 91 4 51 3 63 4 53 6 73 6 83 5 63 5 76 8 92 3 45 6 71 2 44 5 71 2 54 5 81,4,72,5,83,6,9Hash FunctionCandidate Hash TreeHash on 2, 5 or 8Hash樹
13、結構1 5 91 4 51 3 63 4 53 6 73 6 83 5 63 5 76 8 92 3 45 6 71 2 44 5 71 2 54 5 81,4,72,5,83,6,9Hash FunctionCandidate Hash TreeHash on 3, 6 or 9使用Hash樹進行支持度計數(shù)1 5 91 4 51 3 63 4 53 6 73 6 83 5 63 5 76 8 92 3 45 6 71 2 44 5 71 2 54 5 81 2 3 5 61 +2 3 5 63 5 62 +5 63 +1,4,72,5,83,6,9Hash Functiontransacti
14、on使用Hash樹進行支持度計數(shù)1 5 91 4 51 3 63 4 53 6 73 6 83 5 63 5 76 8 92 3 45 6 71 2 44 5 71 2 54 5 81,4,72,5,83,6,9Hash Function1 2 3 5 63 5 61 2 +5 61 3 +61 5 +3 5 62 +5 63 +1 +2 3 5 6transaction使用Hash樹進行支持度計數(shù)1 5 91 4 51 3 63 4 53 6 73 6 83 5 63 5 76 8 92 3 45 6 71 2 44 5 71 2 54 5 81,4,72,5,83,6,9Hash Func
15、tion1 2 3 5 63 5 61 2 +5 61 3 +61 5 +3 5 62 +5 63 +1 +2 3 5 6transaction15個項集中的9個與事務進行比較存放在被訪問的葉結點中的候選項集與事務進行比較,如果候選項集是該事務的子集,則增加它的支持度計數(shù)。在該例子中 ,訪問了9個葉子結點中的5個。15個項集中的9個與事務進行比較計算復雜性支持度閾值 降低支持度閾值通常將導致更多的項集是頻繁的。計算復雜度增加隨著支持度閾值的降低,頻繁項集的最大長度將增加,導致算法需要掃描數(shù)據(jù)集的次數(shù)也將增多項數(shù) 隨著項數(shù)的增加,需要更多的空間來存儲項的支持度計數(shù)。如果頻繁項集的數(shù)目也隨著數(shù)據(jù)項
16、數(shù)增加而增長,則由于算法產(chǎn)生的候選項集更多,計算量和I/O開銷將增加事務數(shù) 由于Apriori算法反復掃描數(shù)據(jù)集,因此它的運行時間隨著事務數(shù)增加而增加事務的平均寬度頻繁項集的最大長度隨事務平均寬度增加而增加隨著事務寬度的增加,事務中將包含更多的項集,這將增加支持度計數(shù)時Hash樹的遍歷次數(shù)6.3 規(guī)則產(chǎn)生忽略那些前件或后件為空的規(guī)則,每個頻繁k-項集能夠產(chǎn)生多達2k-2個關聯(lián)規(guī)則關聯(lián)規(guī)則的提取:將一個項集 Y劃分成兩個非空的子集 X 和Y-X,使得X Y X滿足置信度閾值。如果 A,B,C,D 是頻繁項集, 候選項集為:ABC D, ABD C, ACD B, BCD A, A BCD,B A
17、CD,C ABD, D ABCAB CD,AC BD, AD BC, BC AD, BD AC, CD AB,這樣的規(guī)則必然已經(jīng)滿足支持度閾值,因為它們是由頻繁項集產(chǎn)生的。規(guī)則產(chǎn)生怎樣有效的從頻繁項集中產(chǎn)生關聯(lián)規(guī)則?一般,計算關聯(lián)規(guī)則的置信度并不需要再次掃描事務數(shù)據(jù)集。規(guī)則A,B,C D的置信度為(ABCD)/ (ABC)。 因為這兩個項集的支持度計數(shù)已經(jīng)在頻繁項集產(chǎn)生時得到,因此不必再掃描整個數(shù)據(jù)集如果規(guī)則X Y-X不滿足置信度閾值,則形如XY-X的規(guī)則一定也不滿足置信度閾值,其中X是X的子集。 例如:c(ABC D) c(AB CD) c(A BCD) 因為(AB) (ABC),則(ABC
18、D)/ (ABC) (ABCD)/ (AB) ,則c(ABC D) c(AB CD) Apriori 算法中規(guī)則的產(chǎn)生被剪枝的規(guī)則低置信度規(guī)則Apriori 算法中規(guī)則的產(chǎn)生6.4 頻繁項集的緊湊表示由事務數(shù)據(jù)集產(chǎn)生的頻繁項集的數(shù)量可能非常大。因此,從中識別出可以推導出其他所有的頻繁項集的,較小的,具有代表性的項集是有用的。頻繁項集的數(shù)量需要緊湊的表示最大頻繁項集(Maximal Frequent Itemset)頻繁項集的邊界不頻繁項集最大頻繁項集最大頻繁項集是這樣的頻繁項集,它的直接超集都不是頻繁的非頻繁的頻繁的最大頻繁項集的特點優(yōu)點:最大頻繁項集有效地提供了頻繁項集的緊湊表示。 換句話說
19、,最大頻繁項集形成了可以導出所有頻繁項集的最小的項集的集合。從圖中,可以看出,所有的頻繁項集是最大頻繁項集 A,D, A,C,E, B,C,D,E的子集缺點:盡管最大頻繁項集提供了一種緊湊表示,但是它卻不包含它們子集的支持度信息。頻繁閉項集(Closed Frequent Itemset)閉項集(Closed Itemset):項集X是閉的,如果它的直接超集都不具有和它相同的支持度計數(shù)。換句話說,如果至少存在一個X的直接超集,其支持度計數(shù)與X相同,X就不是閉的。頻繁閉項集: 一個項集是頻繁閉項集,如果它是閉的,并且它的支持度大于或等于最小支持度閾值。頻繁閉項集Transaction IdsNo
20、t supported by any transactions頻繁閉項集minsup = 40%# Closed Frequent Itemset = 9# Maximal Frequent itemset = 4頻繁項集、最大頻繁項集和頻繁閉項集之間的關系使用頻繁閉項集進行支持度計數(shù)6.5 產(chǎn)生頻繁項集的其他方法項集格遍歷一般到特殊 vs 特殊到一般。一般到特殊:適合于頻繁項集的最大長度不是太長的時候。特殊到一般:適合于處理頻繁項集的最大長度較長的時候產(chǎn)生頻繁項集的其他方法項集格遍歷等價類:將格劃分為兩個不相交的節(jié)點組(或等價類)。頻繁項集產(chǎn)生算法依次在每個等價類內搜索頻繁項集Apriori
21、算法采用的逐層策略可以看作根據(jù)項集的大小劃分格。等價類也可以根據(jù)項集的前綴或后綴來定義。產(chǎn)生頻繁項集的其他方法項集格遍歷寬度優(yōu)先與深度優(yōu)先通常,深度優(yōu)先搜索方法是用于發(fā)現(xiàn)最大頻繁項集的算法產(chǎn)生頻繁項集的其他方法事務數(shù)據(jù)集的表示水平數(shù)據(jù)分布(horizontal data layout)垂直(vertical data layout)6.6 FP增長算法(FP-growth Algorithm)不產(chǎn)生候選項集的算法該算法采用完全不同的方法來發(fā)現(xiàn)頻繁項集。該算法不同于Apriori算法的“產(chǎn)生-測試”范型。而是使用一種稱作FP樹的緊湊數(shù)據(jù)結構組織數(shù)據(jù),并直接從該結構中提取頻繁項集。FP樹是一種輸入
22、數(shù)據(jù)的壓縮表示,它通過逐個讀入事務,并把每個事務映射到FP樹中的一條路徑來構造。 構造FP樹掃描一次數(shù)據(jù)集,確定每個項的支持度計數(shù)。丟棄非頻繁項,將頻繁項按照支持度的遞減排序算法第二次掃描數(shù)據(jù)集,構建FP樹:創(chuàng)建根節(jié)點,用null標記;將每個事務中的項按遞減支持度計數(shù)排列,并對每個事務創(chuàng)建一個分支;當為一個事務考慮增加分支時,沿共同前綴上的每個節(jié)點的計數(shù)加1,為跟隨前綴后的項創(chuàng)建節(jié)點并連接。繼續(xù)該過程,直到每個事務都映射到FP樹的一條路徑。創(chuàng)建一個項頭表,以方便遍歷,每個項通過一個節(jié)點鏈指向它在樹中的出現(xiàn)。構造FP樹nullA:1B:1nullA:1B:1B:1C:1D:1讀入事務 TID=1
23、后:讀入事務 TID=2后:構造FP樹D:1E:1nullA:2B:1B:1C:1D:1讀入事務 TID=3后:C:1構造FP樹nullA:8B:5B:2C:2D:1C:1D:1C:3D:1D:1E:1E:1D:1E:1Header table構造FP樹通常,F(xiàn)P樹的大小比未壓縮的數(shù)據(jù)小,因為購物籃數(shù)據(jù)的事務常常共享一些共同項。如果共同項較少,F(xiàn)P樹對存儲空間的壓縮效果將不明顯。FP樹的大小也依賴于項如何排序。一般按照支持度計數(shù)遞減序可以導致較小的FP樹。但也有一些例外。FP樹還包含一個連接具有相同項的結點的指針列表。這些指針有助于方便快捷地訪問樹中的項。構造FP樹FP增長(FP-growth
24、)算法FP增長是一種以自底向上方式探索樹,由FP樹產(chǎn)生頻繁項集的算法。由于每一個事務都映射到FP樹中的一條路徑,因而通過僅考察包含特定結點(例如e)的途徑,就可以發(fā)現(xiàn)以e結尾的頻繁項集。使用與結點e相關聯(lián)的指針,可以快速訪問這些路徑。FP增長(FP-growth)算法FP增長(FP-growth)算法FP增長(FP-growth)算法發(fā)現(xiàn)以e結尾的頻繁項集的任務:收集包含e結點的所有路徑。前綴路徑通過把與e相關聯(lián)的支持度計數(shù)相加得到e的支持度計數(shù)。如果e是頻繁的,則解決發(fā)現(xiàn)以de、ce、be和ae結尾頻繁項集的子問題。先將前綴路徑轉化為條件FP樹,步驟如下:更新前綴路徑上的支持度計數(shù)。刪除e的
25、結點,修剪前綴路徑。刪除不頻繁項。FP增長使用e的條件FP樹來解決發(fā)現(xiàn)以de,ce,be和ae結尾的頻繁項集的子問題。FP增長(FP-growth)算法6.7 關聯(lián)模式的評估(Pattern Evaluation)關聯(lián)分析算法往往產(chǎn)生大量的規(guī)則,而其中很大一部分可能是不感興趣的。 因此,建立一組廣泛接受的評價關聯(lián)模式質量的標準是非常重要的。第一組標準可以通過統(tǒng)計論據(jù)建立。涉及相互獨立的項或覆蓋少量事務的模式被認為是不令人感興趣的,因為它們可能反映數(shù)據(jù)中的偽聯(lián)系。這些令人感興趣的模式可以使用客觀興趣度度量來排除。第二組標準可以通過主觀論據(jù)建立。一個模式被主觀認為是無趣的,除非它能夠揭示料想不到的
26、信息或提供導致有益的行動的有用信息。例如:黃油 面包可能不是有趣的,盡管有很高的支持度和置信度,但是它表示的關系顯而易見。另一方面,規(guī)則尿布 啤酒是有趣的,因為這種聯(lián)系十分出乎意料,并且可能為零售商提供新的交叉銷售機會。將主觀知識加入到模式的評價中是一項困難的任務,因為需要來自領域專家的大量先驗信息。興趣度客觀度量(objective interestingness measure)客觀興趣度度量使用從數(shù)據(jù)推導出的統(tǒng)計量來確定模式是否是有趣的。客觀興趣度度量的例子包括支持度、置信度、相關性。給定一個規(guī)則 X Y, 我們可以構建一個相依表(contingency table)。YY Xf11f1
27、0f1+X f01f00fo+f+1f+0|T|Contingency table for X Y支持度-置信度框架的局限性現(xiàn)有的關聯(lián)規(guī)則的挖掘算法依賴于支持度和置信度來除去沒有意義的模式。例子:假定希望分析愛喝咖啡和愛喝茶的人之間的關系。收集一組人關于飲料偏愛的信息,并匯總到下表6-8。CoffeeCoffeeTea15050200Tea6501508008002001000支持度-置信度框架的局限性可以使用表中給出的信息來評估關系規(guī)則茶 咖啡。似乎喜歡喝茶的人也喜歡喝咖啡,因為該規(guī)則的支持度(15%)和置信度(75%)都相當高。但是所有人中,不管他是否喝茶,喝咖啡的人的比例為80%。這意味
28、著,一個人如果喝茶,則他喝咖啡的可能性由80%減到了75%。置信度的缺點在于該度量忽略了規(guī)則后件中項集的支持度。由于支持度-置信度框架的局限性,各種客觀度量已經(jīng)用來評估關聯(lián)模式。下面,簡略介紹這些度量并解釋它們的優(yōu)點和局限性。興趣因子相關分析IS度量興趣因子茶和咖啡的例子表明,由于置信度度量忽略了規(guī)則后件中出現(xiàn)的項集的支持度,高置信度的規(guī)則有時存在誤導。解決這個問題的一種方法是使用稱作提升度(lift)的度量: 它計算規(guī)則置信度和規(guī)則后件中項集的支持度之間的比率對于二元變量,提升度等價于另一種稱作興趣因子(interest factor)的客觀度量,其定義如下:對于相互獨立的兩個變量,I(A,
29、B)=1。如果A和B是正相關的,則I(A,B)1。對于表6-8中的例子,I=0.15/(0.2*0.8)=0.9375, 這表明存在負相關。興趣因子的局限性表6-9顯示了兩個詞p,q和r,s出現(xiàn)的頻率。p,q和r,s的興趣因子分別為1.02和4.08.這表明雖然p和q同時出現(xiàn)在88%的文檔中,但是它們的興趣因子接近于1,表明二者是相互獨立的。另一方面,r,s的興趣因子比p,q的高,盡管r和s很少同時出現(xiàn)在同一個文檔中。這種情況下,置信度可能是一個更好的選擇,因為置信度表明p和q之間的關聯(lián)(94.6%)遠遠強于r和s之間的關聯(lián)(28.6%).表6-9ppq88050930q50207093070
30、1000rrs205070s50880930709301000相關分析對于二元變量,相關度可以用以下公式表示。相關度的值從-1(完全負相關)到+1(完全正相關)。如果變量是統(tǒng)計獨立的,則值為0.例如:在表6-8中給出的飲茶者和喝咖啡者之間的相關度為-0.0625。相關分析的局限性相關性的缺點通過表6-9所給出詞的關聯(lián)可以看出.雖然p和q同時出現(xiàn)的次數(shù)比r和s更多,但是它們的系數(shù)是相同的,都等于0.232。這是因為,這種方法把項在事務中出現(xiàn)和同時不出現(xiàn)視為同等重要。因此,它更適合于分析對稱的二元變量。這種度量的另一個局限性是,當樣本大小成比例變化時,它不能夠保持不變。IS度量IS是另一種度量,用
31、于處理非對稱二元變量。該度量定義如下:表6-9中顯示的詞對p,q和r,s的IS值分別是0.946和0.286.IS度量暗示p,q之間的關聯(lián)強于r,s,這與期望的文檔中詞的關聯(lián)一致。可以證明IS數(shù)學上等價于二元變量的余弦變量IS度量也可以表示為從一對二元變量中提取出的關聯(lián)規(guī)則的置信度的幾何平均值:IS度量的局限性一對相互獨立的項集A和B的IS值是:盡管表6-10中所顯示的項p和q之間的IS值相當大(0.889),當項統(tǒng)計獨立時它仍小于期望值(ISindep=0.9)。表6-10ppq800100900q10001009001001000其他客觀興趣度度量不同度量間的比較客觀度量的性質反演性客觀度
32、量M在反演操作下是不變的,如果交換頻度計數(shù)f11和f00、f10和f01它的值保持不變.在反演操作下保持不變的度量有系數(shù)、幾率、k和集體強度。這些度量可能不適合于分析非對稱的二元數(shù)據(jù)。一些非反演不變的度量包括興趣因子、IS、PS、Jaccard系數(shù)。零加性客觀度量M在零加操作下是不變的,如果增加f00而保持相依表中所有其他的頻度不變并不影響M的值.對文檔分析或購物籃分析這樣的應用,期望度量多在零加操作下保持不變。滿足零加性的度量包括余弦(IS)和Jaccard度量,而不滿足該性質的度量包括興趣因子、PS、幾率和系數(shù)。縮放性客觀度量M在行/列縮放操作下是不變的,如果M(T)=M(T),其中T是頻度計數(shù)為f11,f00,f10,f01的相依表。T是頻度計數(shù)為k1k3f11, k2k3f10, k1k4f01, k2k4f00的相依表。MaleFemaleHigh302050Low4010507030100MaleFemaleHigh6060120Low803011014090230表6-16顯示了
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025五指山市灣嶺鎮(zhèn)社區(qū)工作者考試真題
- 2025唐山市遷西縣太平寨鎮(zhèn)社區(qū)工作者考試真題
- 2025唐山市樂亭縣胡家坨鎮(zhèn)社區(qū)工作者考試真題
- 2025三明市將樂縣大源鄉(xiāng)社區(qū)工作者考試真題
- 2025年安徽省阜陽市中考一模語文試題含答案
- 探索月球的秘密
- 2025年高考政治常考易錯的92個高頻失分點
- 第一色度學基礎
- 蒙田《論對孩子的教育》省課賽課獲獎課件市賽課一等獎課件
- 推廣普通話 寫規(guī)范字
- 中藥飲片出庫單
- 國開2023春《語言學概論》形考任務1-3+大作業(yè)參考答案
- 宿舍樓施工方案方案
- 甲醇-水精餾塔
- 中國話劇史專題知識
- GB/T 15544.1-2023三相交流系統(tǒng)短路電流計算第1部分:電流計算
- GB/T 90.3-2010緊固件質量保證體系
- GB/T 18799-2020家用和類似用途電熨斗性能測試方法
- 科技公司涉密計算機軟件安裝審批表
- GA/T 1369-2016人員密集場所消防安全評估導則
- GA 1517-2018金銀珠寶營業(yè)場所安全防范要求
評論
0/150
提交評論