基于Web的數據挖掘技術與應用研究_第1頁
基于Web的數據挖掘技術與應用研究_第2頁
基于Web的數據挖掘技術與應用研究_第3頁
基于Web的數據挖掘技術與應用研究_第4頁
基于Web的數據挖掘技術與應用研究_第5頁
已閱讀5頁,還剩4頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、重慶三峽學院學報 2004年第3期 第20卷No3. 2004 Vol.20.收稿日期:作者簡介:劉文清(),男,四川威遠縣人,成都信息工程學院計算機系講師,主要從事信息安全的研究。基于Web 的數據挖掘技術與應用研究劉文清包駿杰陳曉紅(、成都信息工程學院計算機系,四川成都)(、重慶教育學院計算機與現代教育技術系,重慶)(、重慶萬州廣播電視大學實驗培訓中心,重慶萬州)摘 要:如何從各類數據倉庫海量的數據中發現有用的知識是一個迫切需要研究的課題。因此,數據挖掘應運而生,成為一個全新的研究領域。而隨著目前的廣泛應用及相應的技術的出現,也使數據挖掘的研究進入了一個新的階段;綜述了挖掘的主要技術及其實

2、際應用。關鍵詞:數據挖掘;挖掘;人工智能;電子商務中圖分類號:文獻標識碼:文章編號:()引言數據挖掘(Data Mining,DM )是近年來伴隨著人工智能和數據庫技術的發展而出現的一種全新信息技術;數據挖掘目的是發現人們不易覺察的、隱含的模式,從而提高市場決策能力,檢測異常模式,在過去的經驗基礎上預言未來趨勢等。隨著Internet 的飛速發展,Web 上的信息量無比豐富,Web 已經成為人們獲取信息的重要途徑,但最先進的搜索引擎也只能找到Web 網址的1/3網頁,而且無論怎么選擇關鍵詞,都會返回大量并不需要的結果。并且Web 是無結構的、動態的,頁面相當復雜。人們從成千上萬的Web 站點中

3、找到有用的數據就變得比較困難。WEB 挖掘技術是克服這些缺點的最理想的工具,是一個有效的途徑,利用數據挖掘技術從Web 中獲取人們感興趣的,潛在的有用模式和隱藏的信息1,并可對數據進行分析,預測未來。數據挖掘與挖掘數據挖掘數據挖掘使數據庫技術進入了一個更高級的階段,它不僅能對過去的數據進行查詢和遍歷,并且能夠找出過去數據之間的潛在聯系,從而促進信息的傳遞。數據挖掘就是從大量的數據中篩選出隱含的、可信的、新穎的、有效的信息的高級處理過程。數據挖掘是一種決策支持過程,它主要是基于人工智能(AI )、機器學習、統計學等技術,高度自動化地分析企業原有數據,作出歸納性的推理,從中挖掘出潛在的模式,預測客

4、戶的行為,幫助企業的決策者調整市場策略,減少風險,作出正確的決策。2 簡而言之,數據挖掘其實是一類深層次的數據分析方法。數據挖掘主要通過以下幾個方法來實現:分類(Classification )、回歸(Regression )、聚類(Clustering )、概要(Summarization )、發現變化和偏差(Change and Deviation Detection)以及關聯規則(Association rules)3。挖掘當數據挖掘技術應用于網絡環境下的Web 中就成為Web 挖掘(Web Mining),它是從Web 文件和Web 活動中篩選感興趣的潛在的有用模式和隱藏的信息。Web

5、 挖掘可以廣義地定義為從WWW 中發現和分析有用的信息。 2 Web上的數據挖掘上的數據的特點Web 是一個基于超文本的分布式信息系統。Web 目前涉及新聞、廣告、消費信息、金融管理、教育、政府、電子商務等許多信息服務。這為數據挖掘提供豐富的資源。Web 具有以下特點:211龐大性由于Web 的開放性,使得Web 上的信息與日俱增,呈爆炸性增長。網上的網頁數量達到10億,而且正在以每月近千萬的速度增長。212動態性Web 不僅以極快的速度增長,而且其信息還在不斷地發生更新。新聞、公司廣告、股票市場、Web 服務中心等都在不斷地更新著各自的頁面。鏈接信息和查找記錄也在頻繁更新之中。213異構性從

6、數據庫研究的角度出發,Web 網站上的信息一個更大、更復雜的數據庫。Web 上的每個站點就是一個數據源,每個數據源都是異構的,這就構成了一個巨大的異構數據庫環境。214半結構化的數據結構Web 上的數據與傳統數據庫中的數據不同。Web 上的數據非常復雜,沒有特定的模型描述,每個站點的數據都各自獨立設計,并且數據本身具有自述性和動態可變性。是一種非完全結構化的數據,稱為半結構化數據。所謂半結構化是相對于完全結構化的傳統數據庫的數據而言,半結構化是Web 數據的最大特點。從這些分散的、異構的、沒有統一管理的海量信息中快速、準確地獲取信息,成為Web 挖掘的一個難點,用于Web 的數據挖掘技術不能照

7、搬用于數據庫的數據挖掘技術。1挖掘技術的分類一般而言,Web 挖掘可分為3類:Web 內容挖掘、Web 結構挖掘和Web 使用記錄挖掘。圖1給出了Web 挖掘的分類。圖1 Web挖掘的分類221 Web內容的挖掘Web 內容的挖掘是從文件內容或其描述中篩選知識的過程,是挖掘Internet 的頁面和后臺交易數據庫。Web 文件文本內容的挖掘、面向概念索引的資源發現,以及面向代理的技術都屬于這一類。Web 內容挖掘有兩種策略:直接挖掘文件的內容,或在其他工具搜索的基礎上進行改進。采取第1種策略的有鎖定網絡的查詢語言Web Log、Web SQL 等,利用啟發式規則來尋找個人主頁信息的Ahoy 等

8、;采取第2種策略的方法主要是對查找引擎的查詢結果進行進一步的處理,以得到較為精確和有用的信息。屬于該類的有Web SQL及對查找引擎的返回結果進行群集的技術等。222 Web結構的挖掘Web 結構的挖掘是從WWW 的組織結構和鏈接關系中推導知識,是運用數據挖掘技術來重建Web 站點的結構,實現對頁面進行排序,以發現重要的頁面。每個Web 頁面并不是物理對象,其內部有或多或少的結構。通過對Web 頁面的內部結構作研究,并用于尋找與給定的頁面集合P1,P n 相關的其他頁面,如使用HTML 結構樹對Web 頁面進行分析,得到內部結構特征,從而確認網上企業的名稱和地址等信息在頁面中出現的模式。223

9、 使用記錄的挖掘Web 使用記錄的挖掘是通過挖掘相應站點的日志文件和相關數據來發現該站點上的瀏覽者和顧客的行為模式 。WWW 中的每個服務器都保留了存取日志,記錄了關于客戶查找和互動的信息。分析這些信息可以幫助了解客戶的行為從而改進網站的結構,或為客戶提供個性化的服務4。一般模式追蹤,通過分析使用記錄來了解客戶的查找模式和傾向,以改進網站的組織結構。而個人使用模式追蹤則傾向于分析單個用戶的喜愛和偏好,其目的是根據不同客戶的查找模式為每個客戶提供量身定制的網站,開展有針對性的服務以滿足用戶的需求。 Web 使用記錄的挖掘通常需要經過數據預處理、模式識別和模式分析三個階段。挖掘的應用Web 挖掘技

10、術已廣泛應用于金融業、零售業、遠程通信業、政府管理、制造業、醫療服務和體育等行業中,而Web 挖掘的應用已成為一個新的熱 點,它主要涉及到電子商務、網站設計和搜索引擎服務等多方面。在電子商務中的應用311客戶分類和客戶聚類對Web 的客戶訪問信息進行挖掘,對客戶進行分類分析。應用聚類分析對客戶進行分組,并且分析組中客戶的共同特征,這樣就可以讓銷售商更好地了解自己的客戶,向客戶提供更有針對性的服務。312找到潛在的客戶在對Web 的客戶訪問信息的挖掘中,利用分類技術可在因特網上找到未來的潛在客戶。通常,獲得這些潛在客戶的時常策略是先對已經存在的訪問者進行分類。對于一個新的訪問者,通過在Web 上

11、的分類發現,識別這個訪問者與已經分類的訪問者的一些公共的描述,從而對這個訪問者進行正確分類,以判斷這個新的訪問者是否是一個潛在的客戶。313客戶的駐留對于客戶而言,傳統客戶與銷售商之間的空間距離在電子商務中已經不復存在,在網上,每個銷售商對于客戶來說都是一樣的。那么,銷售商就要盡量使客戶在自己的網站上駐留更長的時間。利用Web 挖掘,就可以知道客戶的行為模式,了解客戶的興趣及需要,從而根據客戶的興趣及需要動態調整Web 頁面,以更好地滿足客戶。因為站點上的頁面內容的安排和連接如同傳統商店中物品在貨架上的擺設一樣,可以利用Web 挖掘,找出具有一定支持度和信任度的相關聯的物品,并且針對客戶的動態

12、變化調整站點的結構,使客戶訪問關聯信息的連接更直接。網站設計的應用通過對網站內容的挖掘,主要是對文本內容的挖掘,可以有效地組織網站信息,例如采用自動歸類技術實現網站信息的層次性組織。可以結合對用戶訪問日志記錄信息的挖掘,把握用戶的興趣,有助于開展網站信息推送服務以及個人信息的定制服務。例如,有些研究人員提出了可適應站點的概念,即可通過用戶訪問模式改進Web 站點的服務。搜索引擎的應用通過對網頁內容的挖掘,可以實現對網頁的聚類和分類,實現網絡信息的分類瀏覽與檢索;通過用戶使用的提問式(query )歷史記錄分析,可以有效地進行提問擴展,提高用戶的檢索效果(查全率、查準率);通過運用Web 挖掘技

13、術改進關鍵詞加權算法,可以提高網絡信息的標引準確度,改善檢索效果。結束語面向Web 的數據挖掘技術是一項復雜的技術,從Web 挖掘中挖掘出潛在的知識可作為今后決策的重要準則,根據挖掘出來的知識進行相應的策略調整,從而可動態的創建滿足客戶需求的頁面。參考文獻:陳京民等數據倉庫與數據挖掘技術北京:電子工業出版社,謝丹夏上的數據挖掘技術和工具設計計算機工程與應用,孫穎,毛波基于數據挖掘技術的虛擬社區成員行為研究計算機應用,康曉東基于數據倉庫的數據挖掘技術機械工業出版社,(責任編輯:李濤)Research on Web-based Data Mining Technology and Its Appl

14、ication,(1、 Computer Department, Chengdu Information Engineering Institute, Chengdu610103, Sichuan (2、Chongqing Education College, Chongqing, 400067)(3、the Experimenfal Taining Center of Wanzhou TVU, Wanzhou ,404000Abstract :With the coming forth of data warehouse, how to discover the useful knowledge from the large number of data is an urgent subject to research. So here comes the data mining technology and it becomes a totally new research area. With the wide application of WWW and the coming

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論