




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、本章學習目的:本章學習目的:(1) 經過知識發掘系統的體系構造的學習掌握知識發現的定義和知識發現系經過知識發掘系統的體系構造的學習掌握知識發現的定義和知識發現系統的構造統的構造 。(2) 經過現代發掘技術及運用的學習掌握規那么型、神經網絡型、遺傳算法經過現代發掘技術及運用的學習掌握規那么型、神經網絡型、遺傳算法型、粗糙集型和決策樹型現代發掘技術。型、粗糙集型和決策樹型現代發掘技術。(3) 經過知識發現工具與運用的學習掌握知識發掘工具的系統構造、運用中經過知識發現工具與運用的學習掌握知識發掘工具的系統構造、運用中的問題和知識發掘的價值。的問題和知識發掘的價值。(4) 經過數據發掘技術的開展的學習
2、了解文本發掘、經過數據發掘技術的開展的學習了解文本發掘、Web發掘、可視化數據發發掘、可視化數據發掘、空間數據發掘和分布式數據發掘。掘、空間數據發掘和分布式數據發掘。 6.1知識發掘系統的體系構造 6.2現代發掘技術及運用 6.3知識發現工具與運用 6.4數據發掘技術的開展 練 習 數據倉庫知識庫數 據庫 接口數據選擇知識發現引擎知識發現評價知識發現描畫知識發現管理器商業分析員圖6.1 知識發現系統構造1.知識發現系統管理器 控制并管理整個知識發現過程 2.知識庫和商業分析員 知識庫包含了源于各方面的知識。商業分析員要按一種有效的方式指點關注信息的發現。3.數據倉庫的數據庫接口 知識發現系統的
3、數據庫接口可以直接與數據倉庫通訊。 4.數據選擇 確定從數據倉庫中需求抽取的數據及數據構造 5.知識發現引擎 將知識庫中的抽取算法提供應數據選擇構件抽取的數據 6.發現評價 有助于商業分析員挑選方式,選出那些關注性的信息 7.發現描畫 發現、評價并輔助商業分析員在知識庫中保管關注性發現結果以備未來援用,并堅持知識發現與管理人員的通訊。 頻繁方式是頻繁的出如今數據集中的方式頻繁方式是頻繁的出如今數據集中的方式 如項集、子序或者子構造如項集、子序或者子構造 動機:發現數據中蘊含的內在規律動機:發現數據中蘊含的內在規律 那些產品經常被一同購買?那些產品經常被一同購買?-啤酒和尿布?啤酒和尿布? 買了
4、買了PC之后接著都會買些什么?之后接著都會買些什么? 哪種哪種DNA對這種新藥敏感對這種新藥敏感 我們可以自動的分類我們可以自動的分類WEB文檔嗎?文檔嗎? 運用運用 購物籃分析、購物籃分析、WEB日志點擊流分析、捆綁銷日志點擊流分析、捆綁銷售、售、DNA序列分析等序列分析等 提示數據集的內在的、重要的特性提示數據集的內在的、重要的特性 作為很多重要數據發掘義務的根底作為很多重要數據發掘義務的根底 關聯、相關和因果分析關聯、相關和因果分析 序列、構造序列、構造e.g.子圖方式分析子圖方式分析 時空、多媒體、時序和流數據中的方式分析時空、多媒體、時序和流數據中的方式分析 分類:關聯分類分類:關聯
5、分類 聚類分析:基于頻繁方式的聚類聚類分析:基于頻繁方式的聚類 數據倉庫:冰山方體計算數據倉庫:冰山方體計算 假設問題的全域是商店中一切商品的集合,那么對每種商品都可以用一個布爾量來表示該商品能否被顧客購買,那么每個購物籃都可以用一個布爾向量表示;而經過分析布爾向量那么可以得到商品被頻繁關聯或被同時購買的方式,這些方式就可以用關聯規那么表示e.g. 0001001100 關聯規那么的兩個興趣度度量 支持度 置信度 通常,假設關聯規那么同時滿足最小支持度閾值和最小置信度閾值,那么此關聯規那么是有趣的%60%,2sup_confidenceportsoftwareantiviruscomputer
6、 給定:給定: 項的集合:項的集合:I=i1,i2,.,in 義務相關數據義務相關數據D是數據庫事務的集合,每個事務是數據庫事務的集合,每個事務T那么是項的集合,使得那么是項的集合,使得 每個事務由事務標識符每個事務由事務標識符TID標識;標識; A,B為兩個項集,事務為兩個項集,事務T包含包含A當且僅當當且僅當 那么關聯規那么是如下蘊涵式:那么關聯規那么是如下蘊涵式: 其中其中 并且并且 ,規那么,規那么 在在事務集事務集D中成立,并且具有支持度中成立,并且具有支持度s和置信度和置信度cIT TA , csBA IBIA , BABA 項的集合 I=A,B,C,D,E,F 每個事務T由事務標
7、識符TID標識,它是項的集合 TID(2000)=A,B,C 義務相關數據D是數據庫事務的集合支持度支持度s是指事務集是指事務集D中包含中包含 的百分比的百分比置信度置信度c是指是指D中包含中包含A的事務同時也包含的事務同時也包含B的百分比的百分比假設最小支持度閾值假設最小支持度閾值為為50%,最小置信度,最小置信度閾值為閾值為50%,那么有,那么有如下關聯規那么如下關聯規那么A C (50%, 66.6%)C A (50%, 100%)同時滿足最小支持度同時滿足最小支持度閾值和最小置信度閾閾值和最小置信度閾值的規那么稱作強規值的規那么稱作強規那么那么Customerbuys diaperCu
8、stomerbuys bothCustomerbuys beerBA)( )(supBAPBAport)(/ )()|( )( APBAPABPBAconfidence布爾關聯規那么、單維規那么 buys(x,“computer)=buys(x,“finacial_management_software)量化關聯規那么、多維關聯 a g e ( “ 3 0 . . 4 0 ) i n c o m e ( “ 4 2 0 0 0 . . 5 0 0 0 0 )=buys(x,“high_resolution_TV)多層關聯規那么 單層關聯規那么 age(x,“30.40)=buys(x,“IBM
9、 computer) (6.3)age(x,“30.40)=buys(x,“computer) (6.4)關聯規那么6.2可以用下面的SQL查詢語句完成。 Select C, P.item_name from Purchases,P group by Cust.ID having (Cust.age=30.and.Cust.age=42000 and Cust.income 40否是普通良好2.決策樹的運用編號編號年齡年齡學生學生信譽等級信譽等級類別標號類別標號1=30是是良好良好會購買會購買240否否一般一般會購買會購買440否否良好良好不會購買不會購買540否否一般一般會購
10、買會購買63140是是一般一般會購買會購買740是是一般一般會購買會購買940否否良好良好不會購買不會購買11=30否否一般一般不會購買不會購買123140是是一般一般會購買會購買133140否否一般一般會購買會購買143140是是良好良好會購買會購買“年齡在各個屬性中具有最大的信息增益,所以選擇年齡在各個屬性中具有最大的信息增益,所以選擇“年年齡屬性作為第一個測試屬性,創建一個節點,用齡屬性作為第一個測試屬性,創建一個節點,用“年齡年齡標志。標志。計算剩余各個屬性的相應的信息增益,選擇信息增益最大計算剩余各個屬性的相應的信息增益,選擇信息增益最大的屬性作為測試屬性,這時信息增益最大的是的屬性
11、作為測試屬性,這時信息增益最大的是“學生屬學生屬性,創建一個節點,用性,創建一個節點,用“學生標志學生標志 。6.3.1 知識發掘工具的系統構造知識發掘工具的系統構造1.無耦合無耦合no couplingDM系統不利用系統不利用DB或或DW系統的任何功能系統的任何功能 2.松散耦合松散耦合loose couplingDM系統將運用系統將運用DB/DW的某些工具的某些工具 3.半嚴密耦合半嚴密耦合semitight couplingDM系統銜接到一個系統銜接到一個DB/DW系統,一些根本數據系統,一些根本數據發掘原語可以在發掘原語可以在DB/DW系統中實現。系統中實現。 4.嚴密耦合嚴密耦合ti
12、ght couplingDM系統被平滑地集成到系統被平滑地集成到DB/DW系統中系統中 6.3.2 知識發掘工具運用中的問題知識發掘工具運用中的問題1.數據發掘技術運用中的共性問題數據發掘技術運用中的共性問題(1)數據質量數據質量(2)數據可視化數據可視化(3)極大數據庫極大數據庫(vLDB)的問題的問題(4)性能和本錢性能和本錢(5)商業分折員的技藝商業分折員的技藝(6)處置噪聲和不完全數據處置噪聲和不完全數據(7)方式評價方式評價興趣度問題興趣度問題6.3.2 知識發掘工具運用中的問題知識發掘工具運用中的問題2.數據發掘技術運用中的個性問題數據發掘技術運用中的個性問題(1)規那么歸納運用中
13、的問題規那么歸納運用中的問題主要用于顯式描畫數據抽取的規那么主要用于顯式描畫數據抽取的規那么 、找到一切、找到一切的規那么,任務量是宏大的的規那么,任務量是宏大的 (2)神經網絡運用中的問題神經網絡運用中的問題受訓練過度的影響受訓練過度的影響 、神經網絡的訓練速度問題、神經網絡的訓練速度問題 (3)遺傳算法運用中的問題遺傳算法運用中的問題6.3.3 知識發掘的價值知識發掘的價值1.了解商業活動了解商業活動2.發現商業異常發現商業異常3.預測模型預測模型6.3.4 現代數據發掘工具簡介現代數據發掘工具簡介1.DBMiner的體系構造的體系構造2.DBMiner的數據發掘類型的數據發掘類型6.4.
14、1 文本發掘文本發掘1.文本分析和語義網絡文本分析和語義網絡文本分析文本分析為一個大型文本集合提供內容概略為一個大型文本集合提供內容概略例如,可以發現一個客戶反響集合中文檔的顯著例如,可以發現一個客戶反響集合中文檔的顯著簇,這樣能夠會發現公司的產品或效力在哪里需簇,這樣能夠會發現公司的產品或效力在哪里需求改良。求改良。指出對象間的隱藏構造指出對象間的隱藏構造在組織一個企業內部網站時,文本分析可以找出在組織一個企業內部網站時,文本分析可以找出對象間的隱藏構造,這樣有關聯的文檔就能被超對象間的隱藏構造,這樣有關聯的文檔就能被超鏈接銜接起來。鏈接銜接起來。提高發現類似或相關信息搜索過程的效率和有提高
15、發現類似或相關信息搜索過程的效率和有效性效性例如,可以從一個新聞效力機構搜索文章和發現例如,可以從一個新聞效力機構搜索文章和發現獨有的文檔,這些文檔含有到如今為止在別的文獨有的文檔,這些文檔含有到如今為止在別的文章中沒有提到過的新趨勢或技術的線索。章中沒有提到過的新趨勢或技術的線索。偵查存檔中的反復文檔偵查存檔中的反復文檔文本分析可以用于大量文本需求分析的地方。雖文本分析可以用于大量文本需求分析的地方。雖然自動處置不能到達人類閱讀分析的深度,但它然自動處置不能到達人類閱讀分析的深度,但它可以被用來抽取關鍵點、產生總結、分類文檔等。可以被用來抽取關鍵點、產生總結、分類文檔等。語義網絡語義網絡一個
16、有效文本分析的第一步是創建該文本的一個一個有效文本分析的第一步是創建該文本的一個語義網絡。一個語義網絡是一系列來自分析的文語義網絡。一個語義網絡是一系列來自分析的文本的最重要概念詞與詞的組合以及文本中這本的最重要概念詞與詞的組合以及文本中這些概念間的語義聯絡。一個語義網絡為分析的文些概念間的語義聯絡。一個語義網絡為分析的文本提供了一個簡明和非常準確的總結。與人工神本提供了一個簡明和非常準確的總結。與人工神經網絡一樣,語義網絡的每個元素經網絡一樣,語義網絡的每個元素概念都被概念都被它的權重和一組與此網絡其他元素的聯絡所標它的權重和一組與此網絡其他元素的聯絡所標識識一個上下文結點。一旦為調查研討的
17、文本一個上下文結點。一旦為調查研討的文本構造的一組準確的語義網絡建立起來,一切文本構造的一組準確的語義網絡建立起來,一切文本分析義務就可以執行。分析義務就可以執行。在現有的大部分算法中,一個語義網絡是在一些在現有的大部分算法中,一個語義網絡是在一些已定義的規那么和概念的根底上建立起來的。不已定義的規那么和概念的根底上建立起來的。不過,也存在一些比較強大的算法,這些算法不需過,也存在一些比較強大的算法,這些算法不需求任何關于主題的預先背景知識,可以僅僅在一求任何關于主題的預先背景知識,可以僅僅在一個調查研討文本的根底上完全自動建立起一個語個調查研討文本的根底上完全自動建立起一個語義網絡。義網絡。
18、2.文本發掘文本發掘文本總結文本總結從文檔中抽取關鍵信息,用簡約的方式對文檔內從文檔中抽取關鍵信息,用簡約的方式對文檔內容進展摘要或解釋。用戶不需求閱讀全文就可以容進展摘要或解釋。用戶不需求閱讀全文就可以了解文檔或文檔集合的總體內容。了解文檔或文檔集合的總體內容。基于關鍵字的關聯分析基于關鍵字的關聯分析首先搜集經常一同出現的關鍵字或詞匯,然后找首先搜集經常一同出現的關鍵字或詞匯,然后找出其關聯或相互關系。在這類分析中,每一個文出其關聯或相互關系。在這類分析中,每一個文檔被視為一個事務,文檔中的關鍵字組可視為事檔被視為一個事務,文檔中的關鍵字組可視為事務中的一組事務項。這樣,這種基于關鍵字的關務
19、中的一組事務項。這樣,這種基于關鍵字的關聯分析就變成事務數據庫中事務項的關聯發掘問聯分析就變成事務數據庫中事務項的關聯發掘問題。題。 一組經常延續出現或嚴密相關的關鍵字可構成一一組經常延續出現或嚴密相關的關鍵字可構成一個詞或詞組。關聯分析有助于找出復合關聯,即個詞或詞組。關聯分析有助于找出復合關聯,即領域相關的詞或詞組,如領域相關的詞或詞組,如中國,長江,三峽中國,長江,三峽。還。還有助于找出非復合關聯,即領域不相關的詞或詞有助于找出非復合關聯,即領域不相關的詞或詞組,如組,如人民幣,買賣,總額,證券,傭金,參股人民幣,買賣,總額,證券,傭金,參股。基于這些詞或詞組關聯的發掘被稱為基于這些詞或
20、詞組關聯的發掘被稱為“詞級關聯發詞級關聯發掘。利用這種詞和詞組的識別,詞級發掘可以掘。利用這種詞和詞組的識別,詞級發掘可以用于找出詞或關鍵字之間的關聯。用于找出詞或關鍵字之間的關聯。2.文本發掘文本發掘文檔分類分析文檔分類分析在已有的數據根底上學會一個分類函數或構造出在已有的數據根底上學會一個分類函數或構造出一個分類模型。對文檔進展分類。文檔的分類分一個分類模型。對文檔進展分類。文檔的分類分析,普通是先把一組預先分類過的文檔作為訓練析,普通是先把一組預先分類過的文檔作為訓練集,然后對訓練集加以分析以便得出分類方式。集,然后對訓練集加以分析以便得出分類方式。這種分類方式普通要經過一定的測試過程,
21、不斷這種分類方式普通要經過一定的測試過程,不斷細化。最后用分類方式對其他文檔加以分類。細化。最后用分類方式對其他文檔加以分類。常用的一種對文檔分類的有效方法是基于關聯的常用的一種對文檔分類的有效方法是基于關聯的分類。這種分類方法是基于一組相關聯的、經常分類。這種分類方法是基于一組相關聯的、經常出現的文本方式對文檔加以分類。其處置過程為:出現的文本方式對文檔加以分類。其處置過程為:首先,經過簡單的信息檢索技術或關聯分析技術首先,經過簡單的信息檢索技術或關聯分析技術提出關鍵字或詞匯。然后,運用已有的詞類,或提出關鍵字或詞匯。然后,運用已有的詞類,或基于專家知識,或用關鍵字分類系統,生成關鍵基于專家
22、知識,或用關鍵字分類系統,生成關鍵字和詞的概念層次。最后,運用詞級關聯發掘方字和詞的概念層次。最后,運用詞級關聯發掘方法發現一組關聯詞。這樣,每一類文檔相關有一法發現一組關聯詞。這樣,每一類文檔相關有一組關聯規那么表示。這些分類規那么可以基于其組關聯規那么表示。這些分類規那么可以基于其出現頻率和識別才干,加以排序,并用于對新的出現頻率和識別才干,加以排序,并用于對新的文檔進展分類。文檔進展分類。文檔聚類分析文檔聚類分析文檔聚類是把文檔集分成不同組的自動過程。沒文檔聚類是把文檔集分成不同組的自動過程。沒有預先定義好主題類別,它的目的是將文檔集合有預先定義好主題類別,它的目的是將文檔集合分成假設干
23、個組,要求同一組內文檔內容的類似分成假設干個組,要求同一組內文檔內容的類似度盡能夠大,而不同組間的類似度盡能夠小。當度盡能夠大,而不同組間的類似度盡能夠小。當文檔的內容作為聚類的根底時,不同組是對應于文檔的內容作為聚類的根底時,不同組是對應于集合中討論的不同主題或論題。因此,聚類是找集合中討論的不同主題或論題。因此,聚類是找出集合所含內容的一條途徑。為協助識別出一組出集合所含內容的一條途徑。為協助識別出一組主題,聚類工具可以識別出在此組文檔中頻繁出主題,聚類工具可以識別出在此組文檔中頻繁出現的術語或詞的列表。聚類也能根據文檔的屬性現的術語或詞的列表。聚類也能根據文檔的屬性集實施,例如它們的長度
24、、日期等進展聚類。集實施,例如它們的長度、日期等進展聚類。文本發掘的運用文本發掘的運用利用文本發掘構造的電子郵件路由,可以對電子利用文本發掘構造的電子郵件路由,可以對電子郵件進展文本發掘以后,確定由哪一個部門、哪郵件進展文本發掘以后,確定由哪一個部門、哪一個人來處置這些電子郵件,并可以根據電子郵一個人來處置這些電子郵件,并可以根據電子郵件的內容進展相關統計。件的內容進展相關統計。文本發掘可以協助組織對成千上萬的文檔實現有文本發掘可以協助組織對成千上萬的文檔實現有效的管理,可以使組織很快地了解到所需求查找效的管理,可以使組織很快地了解到所需求查找的文檔所在位置,以及其包含的主要內容。的文檔所在位
25、置,以及其包含的主要內容。可以利用文本發掘建立一個客戶自動問答系統,可以利用文本發掘建立一個客戶自動問答系統,對客戶所郵寄的信件、電子郵件進展文本發掘以對客戶所郵寄的信件、電子郵件進展文本發掘以后,根據其反映的主要問題,可以確定客戶的需后,根據其反映的主要問題,可以確定客戶的需求置信度后,就可以自動給客戶發送適宜的回信。求置信度后,就可以自動給客戶發送適宜的回信。企業并且還可以利用聯機文本發掘系統對因特網企業并且還可以利用聯機文本發掘系統對因特網上所出現的特定詞、概念、主題進展發掘統計,上所出現的特定詞、概念、主題進展發掘統計,對市場進展客觀的統計分析。對市場進展客觀的統計分析。企業甚至可以利
26、用一些具有文本發掘功能的自動企業甚至可以利用一些具有文本發掘功能的自動智能網絡爬蟲來搜集與企業有關的市場、競爭對智能網絡爬蟲來搜集與企業有關的市場、競爭對手和市場環境的信息,給出總結性的分析報告。手和市場環境的信息,給出總結性的分析報告。6.4.2 Web發掘技術發掘技術Web的特點的特點Web的龐大性、的龐大性、Web的動態性、的動態性、Web的異構性、的異構性、非構造化的數據構造、用戶群體多種多樣非構造化的數據構造、用戶群體多種多樣2. Web內容發掘內容發掘基于文本信息的發掘基于文本信息的發掘和通常的平面文本發掘比較類似。和通常的平面文本發掘比較類似。Web文檔多為文檔多為HTML、XM
27、L等言語,因此可以利用等言語,因此可以利用Web文檔文檔中的標志,如中的標志,如、等額外信息,等額外信息,利用這些信息來提高利用這些信息來提高Web文本發掘的性能。文本發掘的性能。在對在對Web文檔進展分類分析中,可以基于一組預文檔進展分類分析中,可以基于一組預先分類好的文檔,從預定義好分類目錄中為每先分類好的文檔,從預定義好分類目錄中為每一文檔賦予一個類標簽。例如,一文檔賦予一個類標簽。例如,Yahoo!的文檔的文檔和其相關文檔可以作為訓練集,用于導出和其相關文檔可以作為訓練集,用于導出Web文檔的分類方式,這一方式可以用于對新的文檔的分類方式,這一方式可以用于對新的Web文檔加以分類。由于
28、超鏈接包含了有關頁文檔加以分類。由于超鏈接包含了有關頁面內容的高質量信息,因此,可以利用這些信面內容的高質量信息,因此,可以利用這些信息對息對Web文檔進展分類。這種分類比基于關鍵文檔進展分類。這種分類比基于關鍵字的分類方法要更準確、更完美。字的分類方法要更準確、更完美。基于多媒體信息的發掘基于多媒體信息的發掘基于音頻的發掘、基于圖片的靜態圖像的發掘和基于音頻的發掘、基于圖片的靜態圖像的發掘和基于視頻的動態圖像發掘。基于視頻的動態圖像發掘。3.Web構造發掘構造發掘從從WWW的組織構造和鏈接關系中推導知識的組織構造和鏈接關系中推導知識 有助于用戶找到相關主題的權威站點,并且可以有助于用戶找到相
29、關主題的權威站點,并且可以指向眾多權威站點的相關主題站點。指向眾多權威站點的相關主題站點。 從一個頁面指向另一個頁面的超鏈接。超鏈接包從一個頁面指向另一個頁面的超鏈接。超鏈接包含了大量人類潛在的語義,它有助于自動分析含了大量人類潛在的語義,它有助于自動分析出權威性語義。當一個出權威性語義。當一個Web頁面的作者建立起頁面的作者建立起指向另一頁面的指針時,這就可以看作是作者指向另一頁面的指針時,這就可以看作是作者對另一頁面的注解,也就是對另一頁面的認可。對另一頁面的注解,也就是對另一頁面的認可。把一個頁面的來自與不同作者的注解搜集起來,把一個頁面的來自與不同作者的注解搜集起來,就可以用來反映頁面
30、的重要性。就可以用來反映頁面的重要性。 Hub頁面是指一個或多個頁面是指一個或多個Web頁面,它提供了指頁面,它提供了指向權威頁面的鏈接集合。對于一個向權威頁面的鏈接集合。對于一個Hub頁面來頁面來說,它本身能夠并不突出,但是,它卻提供了說,它本身能夠并不突出,但是,它卻提供了指向某個話題的權威頁面的鏈接。好的指向某個話題的權威頁面的鏈接。好的Hub是是指向許多好的權威頁面;好的權威頁面是指有指向許多好的權威頁面;好的權威頁面是指有好的好的Hub頁面指向的頁面。用頁面指向的頁面。用Hub頁面和權威頁面和權威頁面之間的這種相互作用來用于權威頁面的發頁面之間的這種相互作用來用于權威頁面的發掘和高質
31、量掘和高質量Web構造和資源的自動發現。構造和資源的自動發現。4. Web運用記錄的發掘運用記錄的發掘經過發掘經過發掘Web日志文件和相關數據,發現用戶訪問日志文件和相關數據,發現用戶訪問Web頁面的方式。頁面的方式。 Internet的用戶一旦銜接到一個在線的效力器上,就的用戶一旦銜接到一個在線的效力器上,就在效力器上的日志文件留下了所懇求的在效力器上的日志文件留下了所懇求的URL,發出懇,發出懇求的求的IP地址和時間戳。這些日志紀錄提供了地址和時間戳。這些日志紀錄提供了Web數據數據發掘源,可提取有關用戶的知識:用戶的訪問行為、發掘源,可提取有關用戶的知識:用戶的訪問行為、頻度、內容,得到
32、關于用戶的行為和方式方式。改良頻度、內容,得到關于用戶的行為和方式方式。改良站點的構造,或為用戶提供個性化效力。這方面的研站點的構造,或為用戶提供個性化效力。這方面的研討主要有兩個方向:普通的訪問方式追蹤和個性化的討主要有兩個方向:普通的訪問方式追蹤和個性化的運用紀錄追蹤。普通的訪問方式追蹤經過分析運用紀運用紀錄追蹤。普通的訪問方式追蹤經過分析運用紀錄來了解用戶的訪問方式和傾向,從而改良站點的組錄來了解用戶的訪問方式和傾向,從而改良站點的組織構造。而個性化的運用紀錄追蹤那么傾向于分析單織構造。而個性化的運用紀錄追蹤那么傾向于分析單個用戶的偏好,其目的是根據不同用戶的訪問方式,個用戶的偏好,其目的是根據不同用戶的訪問方式,為每個用戶提供個性化的頁面,開展有針對性的效力為每個用戶提供個性化的頁面,開展有針對性的效力以滿足用戶的需求。以滿足用戶的需求。數據預處置階段數據預處置階段包括數據清洗和事務識別兩個部分包括數據清洗和事務識別兩個部分 方式識別階段方式識別階段采用統計法、機器學習等技術,從采用統計法、機器學習等技術,從Web運用記錄運用記錄中發掘
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 生產服裝購銷合同協議
- 電力護線用工合同協議
- 電子保理付款服務合同協議
- 瑕疵客戶購車合同協議
- 電腦購置電腦合同協議
- 電動汽車消費合同協議
- 現金合作協議合同協議
- 生產委托運營合同協議
- 生態豬銷售合同協議
- 甜品店租賃合同協議
- 專題13 統計與概率-【好題匯編】五年(2020-2024)高考數學真題分類匯編(含答案解析)
- 國家開放大學本科(非英語專業)學士學位英語統一考試樣題
- GB/T 44273-2024水力發電工程運行管理規范
- DB65-T 4765-2024 農牧區標準化羊場建設規范
- 城軌行車課程設計
- 2024年南京市中考歷史試題及答案
- 2024羽毛球教案36課時
- A類供應商績效評價表
- 攝影攝像知識競賽考試題庫500題(含答案)
- 2024至2030年中國丹參行業市場發展監測及投資潛力預測報告
- GB/T 44218-2024微型揚聲器測量方法
評論
0/150
提交評論