




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第七章第七章 Web Web發掘技術發掘技術 內容提要內容提要nWeb發掘的意義nWeb發掘的分類nWeb發掘的含義nWeb發掘的數據來源 nWeb內容發掘方法 nWeb訪問信息發掘方法 nWeb構造發掘方法 Web發掘的價值n從大量的信息中發現用戶感興趣的信息從大量的信息中發現用戶感興趣的信息 :因特網上蘊藏著:因特網上蘊藏著大量的信息,經過簡單的閱讀或關鍵詞匹配的搜索引擎得大量的信息,經過簡單的閱讀或關鍵詞匹配的搜索引擎得到的是孤立而混亂的到的是孤立而混亂的“外表信息外表信息 ,WebWeb發掘可以發現潛發掘可以發現潛在的、豐富的關聯信息。在的、豐富的關聯信息。n將將WebWeb上的豐富信
2、息轉變成有用的知識:上的豐富信息轉變成有用的知識:WebWeb發掘是面向發掘是面向WebWeb數據進展分析和知識提取的。因特網中頁面內部、頁數據進展分析和知識提取的。因特網中頁面內部、頁面間、頁面鏈接、頁面訪問等都包含大量對用戶可用的信面間、頁面鏈接、頁面訪問等都包含大量對用戶可用的信息,而這些信息的深層次含義是很難被用戶直接運用的,息,而這些信息的深層次含義是很難被用戶直接運用的,必需經過濃縮和提煉。必需經過濃縮和提煉。n對用戶進展信息個性化:網站信息的個性化是未來的開展對用戶進展信息個性化:網站信息的個性化是未來的開展趨勢。經過趨勢。經過WebWeb發掘,可以到達對用戶訪問行為、頻度、發掘
3、,可以到達對用戶訪問行為、頻度、內容等的分析,可以得到關于群體用戶訪問行為和方式的內容等的分析,可以得到關于群體用戶訪問行為和方式的普遍知識,用以改良普遍知識,用以改良WebWeb效力方的設計,提供個性化的效效力方的設計,提供個性化的效力。力。 第七章第七章 Web Web發掘技術發掘技術 內容提要內容提要nWeb發掘的意義nWeb發掘的分類nWeb發掘的含義nWeb發掘的數據來源 nWeb內容發掘方法 nWeb訪問信息發掘方法 nWeb構造發掘方法 Web發掘的類型nWeb發掘依托它所發掘的信息來源可以分為:nWeb內容發掘Web Content Mining:對站點的Web頁面的各類信息進
4、展集成、概化、分類等,發掘某類信息所蘊含的知識方式。 nWeb訪問信息發掘Web Usage Mining:Web訪問信息發掘是對用戶訪問Web時在效力器方留下的訪問記錄進展發掘。經過分析日志記錄中的規律,可以識別用戶的忠實度、喜好、稱心度,可以發現潛在用戶,加強站點的效力競爭力。nWeb構造發掘Web Structure Mining:Web構造發掘是對Web頁面之間的鏈接構造進展發掘。在整個Web空間里,有用的知識不僅包含在Web頁面的內容之中,而且也包含在頁面的鏈接構造之中。對于給定的Web頁面集合,經過構造發掘可以發現頁面之間的關聯信息,頁面之間的包含、援用或者從屬關系等。第七章第七章
5、 Web Web發掘技術發掘技術 內容提要內容提要nWeb發掘的意義nWeb發掘的分類nWeb發掘的含義nWeb發掘的數據來源 nWeb內容發掘方法 nWeb訪問信息發掘方法 nWeb構造發掘方法 Web發掘的含義nWeB發掘是一個看廣泛的概念,可以簡單地描畫為:n針對包括Web頁面內容、頁面之間的構造、用戶訪問信息、電子商務信息等在內的各種Web數據,運用數據發掘方法以協助人們從因特網中提取知識,為訪問者、站點運營者以及包括電子商務在內的基于因特網的商務活動提供決策支持。 Web發掘與信息檢索n兩種截然不同的觀念:nWeb上的信息檢索是Web發掘的一個方面:Web發掘旨在處理信息檢索、知識抽
6、取以及更廣泛的商業問題,是Web上IR技術的延伸。這種觀念大多來自于數據發掘研討領域。nWeb發掘是智能化的信息檢索:對于IR領域的研討人員來說, Web發掘是IR研討向著智能化的方向開展的結果。n信息檢索能夠經常被說成是Web發掘的初級階段,是為了強調Web發掘不是簡單的信息索引或關鍵詞匹配技術,而是實現信息濃縮成知識的過程,它可以支持更高級的商業決策和分析。 WebWeb發掘與信息抽取發掘與信息抽取nWeb上的IE的研討目的是希望從眾多的Web文擋中抽取可供分析的信息,與Web發掘的關系也有不同的觀念:nIE是Web發掘整個過程的一部分:這是由于Web上的數據普通是半構造化或無構造的,因此
7、需求進展規格化的信息抽取這樣的預處置。nWeb發掘是IE的一個特殊技術:既然IE是希望把Web蘊藏的信息抽取出來,那么Web發掘或者文本發掘只不過是到達這個目的的特殊技術手段。n信息抽取經常被說成是Web發掘的一個預處置階段,那是由于在數據發掘領域,Web發掘的更廣義的了解應該是一個知識提取的完好過程。 第七章第七章 Web Web發掘技術發掘技術 內容提要內容提要nWeb發掘的意義nWeb發掘的分類nWeb發掘的含義nWeb發掘的數據來源 nWeb內容發掘方法 nWeb訪問信息發掘方法 nWeb構造發掘方法 Web發掘的主要數據源nWeb發掘的數據來源是廣泛的:凡是在Web站點中對用戶有價值
8、的數據都可以成為它發掘的數據源。n由于這些對象的數據方式及含義的差別,其發掘技術會不同。一些比較有代表性的數據源有:n效力器日志數據:Web訪問信息發掘的主要數據源。效力器日志數據n對Web效力器的訪問,效力器方將會產生3種類型的日志文件:nServer logs:記錄用戶的訪問時間、IP地址以及懇求等信息。nError logs:存取懇求失敗的數據,例如喪失銜接、授權失敗或超時等 nookie logs:Cookie是由web效力器產生的記號并由客戶端持有,用于識別用戶和用戶的會話。 FieldDescriptionDateDate, time, and timezone of reques
9、tClient IPRemote host IP and / or DNS entryUser nameRemote log name of the userBytesBytes transferred (sent and received)ServerServer name, IP address and portRequestURI query and stemStatus status code returned to the clientService name Requested service nameTime takenTime taken for transaction to
10、completeProtocol versionVersion of used transfer protocolUser agentService providerCookieCookie IDReferrerPrevious pageServer logs的一個格式表示在線市場數據在線市場數據n在線市場數據是指和市場活動相關的信息。例如一個電子商務站點,存儲相關的電子商務信息。n從內容上說,不同目的商務網站有不同的商務信息。但是,這類數據通常是用傳統的關系數據庫構造來存儲數據。n在線市場數據是業務數據,是進展業務相關分析的主體。用戶的發掘目的只需結合在線市場數據分析才干到達目的。WebWe
11、b頁面頁面nWeb頁面是網站信息的主體,但是它們的主要信息不能夠像關系型數據庫那樣規整,因此Web頁面的內容組織方式的分析是研討Web發掘的詳細方法的根底。n目前的Web頁面大多滿足HTML規范,現有的Web發掘方法大多是針對Web頁面開展的。n2 0 1 9 年 W W W 社 團 提 出 了 X M L 言 語 規 范eXtensible Markup Language。該規范經過把一些描畫頁面內容的標志tag添加到HTML頁面中,用于對HTML頁面內容進展自描畫?;赬ML規范的發掘研討也是一個重要的研討分支。第七章第七章 Web Web發掘技術發掘技術 內容提要內容提要nWeb發掘的意
12、義nWeb發掘的分類nWeb發掘的含義nWeb發掘的數據來源 nWeb內容發掘方法 nWeb訪問信息發掘方法 nWeb構造發掘方法 Web內容發掘的主要方法n一種Web內容發掘的分類方法是分為代理人方法和數據庫方法。n代理人方法運用軟件系統代理來完成內容發掘。例如,n智能檢索代理超越了簡單的檢索機制運用經過關鍵詞之外的技術來完成檢索,可以利用用戶模版或其關懷的知識領域等來實現信息的抽取。n信息過濾利用信息檢索技術、銜接構造的知識和其他方法來分析和分類文檔。n個性化Web代理運用有關用戶的喜好的信息來指點它們的檢索。n數據庫方法將一切的Web數據描畫為一個數據庫系統。意味著Web是一個多級的異構
13、的數據庫系統,可以經過多種查詢言語來獲得Web的信息來完成信息的抽取。文本發掘是Web內容發掘的根底n文本發掘TD的方式和目的是多種多樣的,根本層次有:n關鍵詞檢索:最簡單的方式,它和傳統的搜索技術類似。n發掘工程關聯:聚焦在頁面的信息包括關鍵詞之間的關聯信息發掘上。n信息分類和聚類:利用數據發掘的分類和聚類技術實現頁面的分類,將頁面在一個更到層次上進展籠統和整理。n自然言語處置:提示自然言語處置技術中的語義,實現Web內容的更準確處置。 n Clusteringion Classification Term association Keyword Natural language proce
14、ssing圖7-1文本發掘體系表示搜索引擎與Web內容發掘n傳統的搜索引擎Searching Engine效率低下。由于是基于Web中超文本構造分解的:它從一個網頁開場的,經過查閱和記錄這個網頁的一切銜接并把它們陳列起來,然后再從找到的新頁面繼續開場反復任務。n利用數據發掘技術來改良搜索引擎是有價值的。這種價值表達在許多方面。例如,n經過對搜索結果進展關聯分析或聚類等,對結果進展清洗和濃縮。n面向主題進展搜索,即只檢索與某一主題有關的頁面。n聚焦用戶感興趣的頁面,在有限的資源下使有效內容發掘力度提高。n基于搜索引擎的發掘任務有下面一些重要方面:n利用超文本鏈接構造進展頁面內容分類,使搜索引擎檢
15、索的頁面符合用戶的興趣。n有些頁面包含很多鏈接,而這些鏈接的頁面是用戶感興趣的,因此它們需求被檢索。n采用合理而高效的方法對被選擇的頁面進展內容分析和發掘。虛擬的虛擬的WebWeb視圖視圖n一個有效的處理在Web中大量無構造數據的方法是在這些數據之上建立一個MLDBMultiple Layered Database。這個數據庫是多層次的, 每層索引都比它下一層要小。對于最底層來說,需求了解Web文檔構造,而最高層那么有著完善的構造并可以經過類似SQL的查詢言語進展訪問或發掘。nMLDB提供一個被稱為VMVVirtual Web View的視圖機制,Web中的感興趣的構造被濃縮在這個視圖中。n等
16、級概念近意詞組、詞匯和語義聯絡等將協助歸納過程來架構更高層的MLDB。 個性化與個性化與WebWeb內容發掘內容發掘n經過個性化,網頁的內容和組織將更加適宜用戶的需求。個性化效力是Web發掘技術的重要目的之一。n經過個性化,基于用戶所關懷內容的廣告會被發送到潛在的用戶。當一個特別的用戶訪問一個站點時,會有一個特別為它定制的廣告出現,這對那些能夠購買的用戶來說是一個極大的誘惑。nWeb內容發掘的目的之一是基于頁面內容類似度進展用戶分類或聚類的,個性化的建立是經過用戶過去的檢索內容分析而建立起來的。自動的個性化技術可以經過過去的需求和類似用戶的需求來預知特定用戶未來的需求。WebWeb頁面內文本信
17、息發掘頁面內文本信息發掘n發掘的目的是對頁面進展摘要和分類。n頁面摘要:對每一個頁面運用傳統的文本摘要方法可以得到相應的摘要信息。n頁面分類:分類器輸入的是一個Web頁面集訓練集,再根據頁面文本信息內容進展監視學習,然后就可以把學成的分類器用于分類每一個新輸入的頁面。n在文本學習中常用的方法是TFIDF向量表示法,它是一種文檔的詞集Bag-of-Words表示法,一切的詞從文檔中抽取出來,而不思索詞間的次序和文本的構造。這種構造二維表的方法是:n每一列為一個詞,列集特征集為辭典中的一切有區分價值的詞,所以整個列集能夠有幾十萬列之多。n每一行存儲一個頁面內詞的信息,這時,該頁面中的一切詞對應到列
18、集特征集上。列集中的每一個列詞,假設在該頁面中不出現,那么其值為0;假設出現k次,那么其值就為k;頁面中的詞假設不出如今列集上,可以被放棄。這種方法可以表征出頁面中詞的頻度。n對中文頁面來說,還需先分詞然后再進展以上兩步處置。n這樣構造的二維表表示的是Web頁面集合的詞的統計信息,最終就可以采用Naive Bayesian方法或k-Nearest Neighbor等方法進展分類發掘。n在發掘之前,普通要先進展特征子集的選取,以降低維數。WebWeb頁面內多媒體信息發掘頁面內多媒體信息發掘n多媒體發掘是一個大研討分支,總的發掘過程是先要運用多媒體信息特征提取工具,構成特征2維表,然后就可以采用傳
19、統的數據發掘方法進展發掘。n在特征提取階段,利用多媒體信息提取工具進展特征提取。普通地,信息提取工具可以抽取出image和video的文件名、URL、父URL、類型、鍵值表、顏色向量等。對這些特征可以進展如下發掘操作:n關聯規那么發現:例如,假設圖像是“大的而且與關鍵詞“天空有關,那么它是藍色的概率為68%。n分類:根據提供的某種類標,針對特征集,利用決策樹可以進展分類。第七章第七章 Web Web發掘技術發掘技術 內容提要內容提要nWeb發掘的意義nWeb發掘的分類nWeb發掘的含義nWeb發掘的數據來源 nWeb內容發掘方法 nWeb訪問信息發掘方法 nWeb構造發掘方法 Web訪問信息發
20、掘的特點nWebWeb訪問數據容量大、分布廣、內涵豐富和形狀多樣訪問數據容量大、分布廣、內涵豐富和形狀多樣n一個中等大小的網站每天可以記載幾兆的用戶訪問信息。一個中等大小的網站每天可以記載幾兆的用戶訪問信息。n廣泛分布于世界各處。廣泛分布于世界各處。n訪問信息形狀多樣。訪問信息形狀多樣。n訪問信息具有豐富的內涵。訪問信息具有豐富的內涵。nWebWeb訪問數據包含決策可用的信息訪問數據包含決策可用的信息n每個用戶的訪問特點可以被用來識別該用戶和網站訪問的特性。每個用戶的訪問特點可以被用來識別該用戶和網站訪問的特性。n同一類用戶的訪問,代表同一類用戶的個性。同一類用戶的訪問,代表同一類用戶的個性。
21、n一段時期的訪問數據代表了群體用戶的行為和群體用戶的共性。一段時期的訪問數據代表了群體用戶的行為和群體用戶的共性。nWebWeb訪問信息數據是網站的設計者和訪問者進展溝通的橋梁。訪問信息數據是網站的設計者和訪問者進展溝通的橋梁。nWebWeb訪問信息數據是開展數據發掘研討的良好的對象。訪問信息數據是開展數據發掘研討的良好的對象。nWebWeb訪問信息發掘對象的特點訪問信息發掘對象的特點n訪問事務的元素是訪問事務的元素是WebWeb頁面,事務元素之間存在著豐富的構造信息。頁面,事務元素之間存在著豐富的構造信息。n訪問事務的元素代表的是每個訪問者的順序關系,事務元素之間存在訪問事務的元素代表的是每
22、個訪問者的順序關系,事務元素之間存在著豐富的順序信息。著豐富的順序信息。n每個頁面的內容可以被籠統出不同的概念,訪問順序和訪問量部分決每個頁面的內容可以被籠統出不同的概念,訪問順序和訪問量部分決議概念。議概念。n用戶對頁面存在不同的訪問時長,訪問長代表了用戶的訪問興趣。用戶對頁面存在不同的訪問時長,訪問長代表了用戶的訪問興趣。 Web訪問信息發掘的意義n經過分析日志文件,可以發現用戶訪問頁面的特征、頁面被用戶訪問的規律、用戶頻繁訪問的頁組等,以便其合理、有效地優化站點的構造,最終為用戶提供一個方便快捷信息獲取環境。有三方面的應器具有代表性:nWeb效力方主要根據本人的領域知識設計Web頁面的構
23、造,而群體用戶根據各自的訪問興趣訪問這些頁面,那么效力方的構造設計能否合理?怎樣的設計以便利于群體用戶的訪問,更加吸引訪問者?這些問題的處理是Web訪問信息發掘的主要目的。n群體用戶的訪問存在哪些特點?假設掌握了這些特點,那么就可以利用其開展進一步的商務活動。n對于每一個新的Web站點的訪問者,都會在曾經訪問的群體用戶中找到一些最類似的一樣的訪問者,那么那些訪問者的訪問就可以給這個新的訪問者提供引薦,以便利于該訪問者的進一步訪問。 典型的商業價值n面向群體訪問者,可以:面向群體訪問者,可以:n提供高效訪問:減少有用信息的檢索時間,提高在大負載提供高效訪問:減少有用信息的檢索時間,提高在大負載下
24、的效力性能。下的效力性能。n吸引訪問者。吸引訪問者。n堅持訪問者:假設網站具有更好的構造設計,就能留住用堅持訪問者:假設網站具有更好的構造設計,就能留住用戶。戶。n防止訪問者分開:找到分開緣由,改良網站的構造設計。防止訪問者分開:找到分開緣由,改良網站的構造設計。n地域地域/ /行業行業/ /階層的分析:根據買賣者留下的信息,可以知階層的分析:根據買賣者留下的信息,可以知道訪問者所在的地域、所屬的行業或階層。道訪問者所在的地域、所屬的行業或階層。n防止訪問者迷航:訪問者不能找到相應的訪問目的,或者防止訪問者迷航:訪問者不能找到相應的訪問目的,或者面對復雜的頁面構造不知所措,那么遇到了迷航的問題
25、。面對復雜的頁面構造不知所措,那么遇到了迷航的問題。改良頁面的構造設計是必要的。改良頁面的構造設計是必要的。n群體引薦:針對群體用戶的訪問偏好,引薦他們感興趣的群體引薦:針對群體用戶的訪問偏好,引薦他們感興趣的東西。東西。n針對性效力:如在適宜途徑上,就可以放置相應內容的廣針對性效力:如在適宜途徑上,就可以放置相應內容的廣告。告。n面向群體每一個訪問者,可以:面向群體每一個訪問者,可以:n個性化引薦。個性化引薦。n用戶建模:根據已有群體用戶的訪問,推斷當前用戶的特用戶建模:根據已有群體用戶的訪問,推斷當前用戶的特征。征。n個性化推銷個性化推銷Direct MarketingDirect Mar
26、keting:識別出對某種產品或效:識別出對某種產品或效力的能夠購買者,對其引薦相應的產品或效力。力的能夠購買者,對其引薦相應的產品或效力。Web訪問信息發掘的數據源n由于Web世界的分布性,用戶訪問行為被廣泛地分布記錄在Web效力器、用戶客戶端,和代理效力器中。在各個分布地點的不同的用戶訪問信息表征了不同類型的用戶訪問行為。發掘任務必需針對數據的特點來決議相應的發掘義務。用戶訪問信息的分布簡單歸結為:n效力器方:普通地,在一個Web效力器上,效力器日志記錄了多個用戶對單個站點的用戶訪問行為。n客戶方:普通地,在客戶端計算機上,客戶端的代理記錄了單個用戶對單個站點或單個用戶對多個站點的用戶訪問
27、行為??蛻舳说腃ache記錄了用戶訪問內容??蛻舳说腂ookMark也記錄了單個用戶對單個站點的訪問偏好。n客戶端代理效力器:代理效力器記錄了多個用戶對多個站點的訪問行為,同時代理效力器內部的Cache記錄了多個用戶對多個站點的訪問內容。效力器方訪問信息n一個Web效力器日志Server log反映出多個用戶對單個站點的訪問行為。n一個從實踐Web效力器上采集的Log文件片段: IP AddressUser IDTimeMethod/URI/ProtocolStautsSize2- -10/Dec/2019:12:34:16 -0600GET /images/lchz
28、hi.gif /1.1200448512- -10/Dec/2019:12:34:32 -0600GET /graduate.htm /1.120074032- -10/Dec/2019:12:34:32 -0600GET /images/sxwys2.jpg /1.1200184819- -10/Dec/2019:12:34:48 -0600GET /result.htm /1.0200123022- -10/Dec/2019:12:34:58 0600GET /structure.htm
29、/1.12003672- -10/Dec/2019:12:34:58 0600GET /struc-index.htm /1.120043702- -10/Dec/2019:12:34:58 0600GET /struc-content.htm /1.1200120472- -10/Dec/2019:12:34:58 0600GET /images/znkfsys.jpg /1.120022574代理效力器端訪問信息n代理效力器端的訪問信息包括用戶訪問日志和在Cache中被訪問的頁面信息。n一個代理效力器日志的例子基
30、于WindowsNT4.0的代理效力器: 8, HEADSWANG, Mozilla/4.0 (compatible; MSIE 4.0; Windows 95), Y, 99-3-28, 15:57:44, W3Proxy, NTPROXY, -, ict.ac, , 80, 200, 582, 6, , tcp, GET, ict.ac/cjc/cjcw2.html, -, Inet, 304, 08, HEADSWANG, Mozilla/4.0 (compatible; MSIE 4.0; Windows 95), Y
31、, 99-3-28, 15:57:44, W3Proxy, NTPROXY, -, ict.ac, , 80, 270, 2101, 1254, , tcp, GET, ict.ac/cjc/introc.html, -, VCache, 304, 08, HEADSWANG Mozilla/4.0 (compatible; MSIE 4.0; Windows 95), Y, 99-3-28, 15:57:44, W3Proxy, NTPROXY, -, ict.ac, , 80, 171, 449, 1110, , tcp
32、, GET, ict.ac/cjc/star.gif, -, Inet, 304, 08, HEADSWANG, Mozilla/4.0 (compatible; MSIE 4.0; Windows 95), Y, 99-3-28, 15:57:44, W3Proxy, NTPROXY, -, ict.ac, , 80, 211, 455, 826, , tcp, GET, ict.ac/cjc/INTROCG.JPG, -, Inet, 304, 0Web訪問信息發掘的預處置nWeb訪問信息發掘的根底和最煩瑣的任務是數據的預處置。預處置用戶訪問信
33、息是整個數據預備的中心任務,也是開展下一階段Web訪問信息發掘的根底。預處置階段主要的任務是識別用戶訪問事務和訪問片斷。nWeb Usage Mining在預處置階段主要的任務有:n數據清洗:由于數據表示、寫入的對象差別以及用戶的興趣和發掘算法對數據要求的不同,對于Web日志中的數據需求確定合理的數據清洗戰略 。n識別用戶訪問事務:在對Web日志數據進展數據發掘之前,需求把對Web頁的訪問序列組織成邏輯單元以表征事務或用戶會話。數據清洗n合并數據:在給定發掘時間段后,數據清洗需求合并Web效力器上的多個日志文件,并且解析每個文件,將其轉化到數據庫或特定格式的數據文件中。n剔除不相關的數據:在W
34、eb日志中一些存取記錄能夠對發掘來說是不用要的,例如圖形文件,緊縮文件等的存取能夠對面向文本發掘的用戶不需求思索,所以應該被剔除。經過檢查后綴gif、jpeg、zip、ps等就可以實現。n代理訪問的處置:由于搜索引擎或其他一些自動代理的存在,日志中存在大量的由它們發出的懇求。因此從日志中識別代理Agent或網絡爬蟲Crawler or Spider對站點的訪問是必需的。n正規化URIUniform Resource Identifier :由于各種默許情況的存在,需求進一步正規化URI。n數據項解析:CGI數據項必需被解析在不同的域中,并被解析為對的方式。識別用戶訪問事務n在Web日志中,用戶
35、的訪問事務并不是一個顯然的結果,需求專門的算法來進展識別和生成。找到相應的事務集,才干對這個事務集進展關聯規那么和序列方式發現等發掘任務。n n時間窗C大小的界定是一個閱歷值有人建議30分鐘較為適宜。定義定義7-1 設設L為用戶訪問日志,其中的一個項為用戶訪問日志,其中的一個項lL包括用戶的包括用戶的IP地址地址l.ip,用戶,用戶的標識符的標識符l.uid,被存取頁的,被存取頁的URI地址地址l.url,長度為,長度為l.length以及存取訪問的時間以及存取訪問的時間l.time,存取訪問的時長,存取訪問的時長l.timelength,訪問事務被定義為:,訪問事務被定義為:這里這里C是一個
36、固定的時間窗。是一個固定的時間窗。timeltimeltimelengthlCtimeltimeluiduidlipiplLlmkforwherelengthltimelengthltimelurll.uidl.ipl.lengthlh.timelengtl.timel.urll.uidl.ipluidipttktktktktkttkttktktmtmtmtmtmtmtttttttt.,. ,. ,. , , 1 , ).,.,.,.,( ,., ),( ,111111111其他信息的預處置技術其他信息的預處置技術1 1導航內容片斷導航內容片斷 在一些電子商務網站中,需求知道用戶到達一個內容頁
37、在一些電子商務網站中,需求知道用戶到達一個內容頁之前是閱歷哪些導航頁的。例如,一個用戶訪問事務為:之前是閱歷哪些導航頁的。例如,一個用戶訪問事務為:N1N1,N2N2,N3N3,C1C1, N4 N4,N5N5,N6N6,C2C2,N7N7,N8N8,C3C3,N9N9,N10N10,N11N11,N12N12,C4C4,其中,其中NN為導航頁,為導航頁,C C為內容為內容頁。識別導航內容片斷就是要從用戶訪問事務中識別出:頁。識別導航內容片斷就是要從用戶訪問事務中識別出:片斷片斷1 1:N1N1,N2N2,N3N3,C1C1。片斷片斷2 2:N4N4,N5N5,N6N6,C2C2。片斷片斷3
38、3:N7N7,N8N8,C3C3。片斷片斷4 4:N9N9,N10N10,N11N11,N12N12,C4C4。2 2最大前向訪問序列最大前向訪問序列 所謂用戶最大前向訪問序列是指在用戶訪問回退之前不斷所謂用戶最大前向訪問序列是指在用戶訪問回退之前不斷被訪問的頁面序列。每個最大前向訪問序列就構成一個被訪問的頁面序列。每個最大前向訪問序列就構成一個訪問片段。定義該片斷的優點是有利于發現用戶感興趣訪問片段。定義該片斷的優點是有利于發現用戶感興趣的事務。顯然在用戶訪問事務中尋覓最大前向序列必需的事務。顯然在用戶訪問事務中尋覓最大前向序列必需求根據求根據WebWeb站點的拓撲構造。站點的拓撲構造。 在
39、在WebWeb訪問發掘中的常用技術訪問發掘中的常用技術1 1途徑分析途徑分析途徑分析最常用的運用是用于斷定在一個途徑分析最常用的運用是用于斷定在一個WebWeb站點中最頻繁站點中最頻繁訪問的途徑,這樣的知識對于一個電子商務網站或者信息訪問的途徑,這樣的知識對于一個電子商務網站或者信息平安評價是非常重要的。平安評價是非常重要的。2 2關聯規那么發現關聯規那么發現運用關聯規那么發現方法可以從運用關聯規那么發現方法可以從WebWeb訪問事務集中,找到普訪問事務集中,找到普通性的關聯知識。通性的關聯知識。 3 3序列方式發現序列方式發現在時間戳有序的事務集中,序列方式的發現就是指找到那些在時間戳有序的
40、事務集中,序列方式的發現就是指找到那些如如“一些項跟隨另一個項這樣的內部事務方式。一些項跟隨另一個項這樣的內部事務方式。 4 4分類分類發現分類規那么可以給出識別一個特殊群體的公共屬性的描發現分類規那么可以給出識別一個特殊群體的公共屬性的描畫。這種描畫可以用于分類新的項。畫。這種描畫可以用于分類新的項。 5 5聚類聚類可以從可以從Web UsageWeb Usage數據中聚集出具有類似特性的那些客戶。數據中聚集出具有類似特性的那些客戶。在在WebWeb事務日志中,聚類顧客信息或數據項,就可以便于事務日志中,聚類顧客信息或數據項,就可以便于開發和執行未來的市場戰略。開發和執行未來的市場戰略。 W
41、ebWeb訪問信息發掘的要素構成訪問信息發掘的要素構成1 1數據來源數據來源數據的來源分為效力器,代理效力器,和客戶端。數據的來源分為效力器,代理效力器,和客戶端。2 2數據類型數據類型數據的類型主要分為構造數據的類型主要分為構造, ,內容內容, ,訪問信息訪問信息, ,用戶概貌文件。用戶概貌文件。3 3用戶的數量用戶的數量用戶的數量表現為:或者數據集只由一個用戶的信息構成,用戶的數量表現為:或者數據集只由一個用戶的信息構成,或者數據由多個用戶的信息構成?;蛘邤祿啥鄠€用戶的信息構成。4 4站點的數量站點的數量在數據集中的在數據集中的WebWeb站點的個數表現為:或者在數據集中只記站點的個數表
42、現為:或者在數據集中只記錄單個站點的信息,或者記錄多個站點的信息。錄單個站點的信息,或者記錄多個站點的信息。5 5效力對象效力對象WebWeb訪問信息發掘的結果由訪問信息發掘的結果由WebWeb效力方進展運用。運用的結效力方進展運用。運用的結果即效力對象可以是當個單個用戶,或群體用戶。單個用果即效力對象可以是當個單個用戶,或群體用戶。單個用戶即意味著個性化。戶即意味著個性化。6 6發掘手段發掘手段WebWeb訪問信息發掘所采用的各種數據發掘方法,例如關聯規訪問信息發掘所采用的各種數據發掘方法,例如關聯規那么發現,聚類,分類,統計等等。那么發現,聚類,分類,統計等等。利用利用WebWeb訪問信息
43、發掘實現用戶建模訪問信息發掘實現用戶建模n由于Web網站的特性,對網站的運營者和設計者而言,無法直接了解用戶的特性。然而對訪問者個人特性和群體用戶特性的了解對Web網站的效力方而言顯得尤為重要。僥幸的是可以經過數據發掘的方法得到用戶的特性。n“用戶建模Modelling Users是指根據訪問者對一個Web站點上Web頁面的的訪問情況,可以模型化用戶的本身特性。在識別出用戶的特性后就可以開展針對性的效力。用戶建模主要有三種途徑。 n推斷匿名訪問者的人口統計特性 n在不打擾用戶的情況下,得到用戶概貌文件 n根據用戶的訪問方式來聚類用戶利用利用WebWeb訪問信息發掘發現導航方式訪問信息發掘發現導
44、航方式n發現導航方式發現導航方式Discovering Navigation PatternsDiscovering Navigation Patterns是是WebWeb訪問信息發掘的一個重要的研討領域。用訪問信息發掘的一個重要的研討領域。用戶的導航方式是指群體用戶對戶的導航方式是指群體用戶對WebWeb站點內的頁面站點內的頁面的閱讀順序方式。的閱讀順序方式。n用戶導航方式的主要運用在改良站點設計和個性用戶導航方式的主要運用在改良站點設計和個性化推銷等方面?;其N等方面。n1 1改良改良WebWeb站點的構造設計站點的構造設計n2 2個性化行銷個性化行銷Direct MarketingDir
45、ect Marketing:n3 3利用關聯規那么發現算法發現導航方式利用關聯規那么發現算法發現導航方式n4 4利用模板發現導航方式利用模板發現導航方式n5 5利用超文本概率文法發現導航方式利用超文本概率文法發現導航方式利用利用WebWeb訪問信息發掘改良訪問效率訪問信息發掘改良訪問效率1 1WebWeb效力器推送技術效力器推送技術2 2自順應網站自順應網站3 3運用導航方式的結果改良運用導航方式的結果改良WebWeb站點的訪問效率站點的訪問效率4 4改良改良WebWeb效力器的性能效力器的性能表表7-107-10改良改良WebWeb站點訪問效率方法的比較站點訪問效率方法的比較方法特點優點缺點
46、Web服務器推送技術Bin Lan相關的文檔會被服務器提前推送到Proxy上。存在冗余推送問題。自適應網站Perkowitz M.通過增加索引頁來幫助用戶進行訪問,以改進訪問效率。這些索引頁難于被用戶理解。應用導航模式的結果改進改進Web站點的訪問效率Myra Spiliopoulou 基于規則的動態Web站點。規則需要人工判定。改進Web服務器的性能Cohen E. AlmeidaSchechter通過對頁面的特性的挖掘,改進服務器的效率。改進集中于頁面這一級,不涉及更高級的邏輯結構改進。利用利用WebWeb訪問信息發掘進展個性化效力訪問信息發掘進展個性化效力在Web站點開展個性化Perso
47、nalization效力的總的思緒和步驟是:模型化頁面和用戶;分類頁面和用戶;在頁面和對象之間進展匹配;判別當前訪問的類別以進展引薦。而且,個性化系統普通分為兩個部分:離線部分和在線部分。表7-11個性化方法的比較方法特點缺點離線聚類和動態鏈接結合可以實時個性化地為用戶提供推薦。 隨著用戶訪問長度的增加,可供推薦的元素會趨于零?;陉P鍵詞學習引入時間特性為用戶提供推薦。需要用戶人工干預,無法做到自動。識別感興趣的鏈接建立代理服務器識別用戶的訪問興趣提供推薦。用戶興趣的實效性考慮不夠。自動定制不同用戶訪問界面利用用戶建模技術自動定制不同的用戶訪問界面。“推論”依賴于用戶所在的領域,適應性不好。利
48、用客戶端代理進行個性化客戶端的代理,完全為個人服務。冗余搜索過大。聚類推薦可以實時個性化地為用戶提供推薦。 聚類的個數是人為事先給定的,不能隨著每個用戶的訪問特性而動態調整。利用利用WebWeb訪問信息發掘進展商業智能發現訪問信息發掘進展商業智能發現表7-12商業智能方法的比較方法特點Buchner其貢獻在于首次在Web訪問信息挖掘的基礎上提出了商業智能的發現的框架;其不足在于發現的知識局限于用戶確實發生的購買行為,而對用戶潛在的購買興趣無法發現。Yun C.優點是挖掘了遷移和購買行為之間的內在關系。缺點是發現的知識局限于用戶確實發生的購買行為,對用戶潛在購買興趣無法發現。SurfAid,Ac
49、crue,NetGenesis,Aria,Hitlist,WebTrends優點是通過分析頁面的點擊率來為推斷商業智能提供Web流量分析。缺點是無法發現高級的商業職能。利用Web訪問信息發掘進展用戶挪動方式發現 n在挪動計算環境中,一個新的發掘方法,即用戶的挪動方式發掘被提出。發掘的結果可以用于開發數據的分配方式以改動挪動系統的總的性能。首先,對挪動環境中的一些日志數據進展發掘,可以得到頻繁用戶挪動方式。然后,根據發掘結果和數據的特性設定個人數據分配方式。n根據不同層次的發掘結果,有兩種個人數據分配方式:n利用集合層次的用戶挪動方式DS方式;n利用途徑層次的用戶挪動方式DP方式。AGDHCB1
50、2345678910Partition1Partition2圖7-2在一個挪動計算系統中挪動方式的例子利用Web訪問信息發掘進展用戶挪動方式發現 利用Web訪問信息發掘進展用戶挪動方式發現可以分為如下三個主要步驟:數據搜集階段:從各個效力器的日志集合中判別最大的挪動序列和挪動對的出現次數。發掘階段:從第一步的結果集中的每w個最大挪動序列中判別大項挪動序列。思索到新近的挪動方式,設立w為一個回想因子,一個可調整的窗口。產生方式階段:根據第二步的得到的大項挪動序列,判別用戶的挪動方式。利用協作引薦的方法實現實時個性化引薦 基于協作篩方法的Web站點實時個性化系統的構造如圖7-3所示。圖7-3基于協
51、作篩方法的Web站點實時個性化系統整個處置過程分為兩部分:離線部分:包括數據預備、得到引薦池、建立協作篩。在線部分:引薦引擎。Web站點用戶訪問日志數據準備協作篩推薦引擎(s11,t11),(s12,t12),.,(s1k,t1k).用戶交互Web服務器當前用戶帶有時長的訪問頁面集.推薦頁面集(s21,t21),(s22,t22),.,(s2k,t2k)(sf1,tf1),(sf2,tf2),.,(sfk,tfk)(s11,t11),.,(s1k,t1k),.,(s1m,t1m)(s21,t21),.,(s2k,t2k),.,(s2m,t2m)(sf1,tf1),.,(sfk,tfk),.,(
52、sfm,tfm)第七章第七章 Web Web發掘技術發掘技術 內容提要內容提要nWeb發掘的意義nWeb發掘的分類nWeb發掘的含義nWeb發掘的數據來源 nWeb內容發掘方法 nWeb訪問信息發掘方法 nWeb構造發掘方法 頁面重要性的評價方法頁面重要性的評價方法n在設計搜索引擎等效力時,對Web頁面的鏈接構造進展發掘以得出有用的知識是提高檢索效率的重要手段。Web頁面的鏈接類似學術上的援用,因此一個重要的頁面能夠會有很多頁面的鏈接指向它。n定義7-3 設u為一個Web頁,Fu為一切u指向的頁面的集合,Bu為一切指向u的頁面的集合。設Nu= |Fu|為從u發出的鏈接的個數,c1為一個歸一化的
53、因子因此一切頁面的總的PageRank為一個常數,那么u頁面的PageRank被定義為:n n一個頁面對應的PageRank值被分配到一切它所指向的頁面中;每一個頁面求和一切指向它的鏈接所帶來的PageRank以得到它的新的PageRank。在計算時可以從任何一個頁面開場,經過上面的公式反復計算直到其收斂。 uBvvNvRcuR)()(頁面等級頁面等級n普通地說,頁面的頁面等級值是經過指向這個頁面的數量來計算的,即經過指向向后銜接數來計算的。向后銜接是指向這個頁面的銜接減去它指向外面的銜接。計算量不是簡單地向后銜接的數量加合,而是要思索向后銜接的頁面的重要性。n給定一個頁面p,我們運用Bp作為
54、指向一系列指向P的頁面,并且用Fp作為一系列由外部指向P的銜接,那么n這里的Nq=|Fq|。常量c是一個介于0,1之間的數,用于規范化。n這里有一個循環分級的問題。當計算一個頁面的頁面等級時,假設發生循環那么產生這個錯誤頁面A指向頁面B,頁面B同時指向頁面A,此時頁面等級值隨這些頁面添加。可以經過另一個公式處理:n其中c是最大值,E(v)是一個矢量來添加一個人工銜接。它是模擬一個用戶不隨著銜接訪問其他頁面,而是隨機跳到一個新的頁面。E(v)添加一對結點中間能夠的銜接。pBqqNqRcpR)()(uBqqNqRcpR)()(uBqqNqRcpR)()(uBqqNqRcpR)()()()()(vc
55、ENqRcpRpBqq權威頁面和中心頁面n所謂權威頁面是指包含需求信息的最正確資源頁面。所謂中心頁面是一個包含權威頁面銜接的頁面。nHITSHyperlink-Induced Topic Search是遵照尋覓權威頁面和中心頁面的典型方法。HITS技術由兩部分組成:n基于一組給定的關鍵字,可以找到相關的頁面。n權威和中心頁面與上述頁面有關,前往具有最高權重的頁面。n 算法算法7-3 HITS輸入:輸入: 把把www 看作一個引導圖看作一個引導圖W;查詢懇求;查詢懇求q;支持;支持s。輸出:權威頁面的集合輸出:權威頁面的集合A;中心頁面的集合;中心頁面的集合H。1BEGIN2 R=SE(W, q
56、);/利用利用q得到頁面的根集合得到頁面的根集合R3 B= R 指向指向R的銜接的銜接來自來自R的銜接的銜接;4 G(B, L)= 由由B導出的導出的W的子圖;的子圖;5 G(B, L1)=刪除刪除G中一樣站點的銜接;中一樣站點的銜接;6 xp=q Yq;/ L1,得到權威頁面的權重;,得到權威頁面的權重;7 yp=q Xq;/ L1 ,得到中心頁面的權重;,得到中心頁面的權重;8 A=p|p為具有最高為具有最高xp值的頁面值的頁面;9 H=p|p為具有最高為具有最高yp值的頁面值的頁面;10ENDWeb訪問信息的一些概念nW3C國際組織曾經為Web訪問信息定義了一些根本概念:n定義7-4 用戶User:用戶被定義為一個經過閱讀器訪問一個或者多個Web效力器的訪問者。一個用戶可以經過幾臺PC機或者運用多個閱讀器來訪問,因此識別用戶是義務之一。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 了解并應用區塊鏈技術推動企業創新發展
- 去中心化交通管理模式的探討試題及答案
- 交通法律法規執行效力評估試題及答案
- 備考商務禮儀師成功秘訣試題及答案
- 焊接工藝中的信息技術應用研究試題及答案
- 2025年中國帶槽儲運箱市場調查研究報告
- 摸清2024年商務禮儀師考試技巧試題及答案
- 機電設備的保養與維護技術試題及答案
- 2025年中國嬰兒搖鈴數據監測研究報告
- 交通信息技術對流量管理的實時影響試題及答案
- 2025年初中藝術考試 考點梳理 課件人音版八年級下冊 全部歌曲考點
- 小區物業消防安全實施方案
- 混凝土臺階工程施工方案
- 多元藝術融合創造性舞蹈知到智慧樹章節測試課后答案2024年秋南京藝術學院
- 【八年級下冊歷史】單元測試 第一、二單元測試題
- 《微觀經濟學》試題及參考答案(三)
- 智能人行通道速、擺閘建筑施工安裝布線調試方案
- 《服務型制造》課件
- 沖動傷人應急預案演練
- 郵政金融主任競聘
- 外科清創術課件
評論
0/150
提交評論