基于數據挖掘技術的WEB推薦系統設計論文_第1頁
基于數據挖掘技術的WEB推薦系統設計論文_第2頁
基于數據挖掘技術的WEB推薦系統設計論文_第3頁
基于數據挖掘技術的WEB推薦系統設計論文_第4頁
基于數據挖掘技術的WEB推薦系統設計論文_第5頁
已閱讀5頁,還剩3頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 PAGE7 / NUMPAGES8理工大學畢業設計(論文)開題報告基于數據挖掘技術的WWW推薦系統設計學 院:信息科學與工程學院班 級:計本07-3班學 號:3070417121姓 名:覃立泉指導老師:曉輝2011/3/6摘要 在Internet飛速發展的今天,人們已經將互聯網作為一個日常溝通,生活不可或缺的平臺。隨之而生的網上購物這一電子商務的具體模式之一,自然而然地便成為一種時尚、流行的購物方式。一個好的網上購物系統除了基本的商品瀏覽、搜索、購買和評價等功能外,還要具備一些數據挖掘的功能,這是在系統后臺運行中實現的功能,能夠從日常的客戶資料,交易數據中得到挖掘分析的結果,給客戶提供與他們

2、選購的商品相關聯的商品信息,給購物系統的經營者提供商業分析的決策支持,從而提高購物系統的交易量和客戶的光顧頻率。本文從關聯規則和聚類分析這兩種數據挖掘技術中得到啟示,將商品之間按照一定的規則進行匹配連接,將用戶按照層層條件進行分類,從而實現了商品推薦和目標用戶群投遞的功能。在購物系統這個主體功能實現的基礎上,加以修飾,完善系統功能。數據挖掘思路與B/S結構的網頁設計的相結合,是這個網上購物系統的核心技術。關鍵詞:網上購物系統;數據挖掘;決策支持AbstractNowadays, with the rapid development of Internet, people have regard

3、ed WEB as an indispensable platform for everyday communication and life. Thus, on-line shopping, one concrete pattern of E-business is becoming a fashionable and popular way of shopping naturally. Except for searching for, purchasing, evaluating goods, an advanced on-line shopping system should have

4、 the function of data mining. Data mining is implemented at background, which can produce an analysis result on the basic of the clients information and the data of transaction. It provides clients with the information of goods, which are related to the goods they are purchasing; it supplies decisio

5、n support to the on-line shopping systems manager. All these are in order to bring up the transaction and increase the frequency of shopping for clients. Based on the thought of rule induction and cluster analysis, it makes connection with goods according some rule and divides clients into different

6、 clusters in this paper. Thus, the functions of recommending goods and sending email come true and the whole systems functions are improved. Data mining and B/S structure designing are the two key techniques of this on-line shopping system.Key words: on-line shopping system; data mining; decision su

7、pport學位論文題目:基于數據挖掘技術的WEB推薦系統設計課 題 來 源:指導老師協商分配1、課題意義與國外研究現狀綜述課題意義近年來,Internet使計算機、網絡、通信合而為一。網絡經濟、注意力經濟等新概念的出現,以其巨大的社會效益和極富挑戰與機遇的涵,成為信息科學最引人注目的研究課題。然而,網絡在快捷、方便地帶來大量信息的同時,也帶來了一大堆的問題:諸如信息過量難以消化;信息真假難以辨識;信息安全難以保證;信息形式不一致,難以統一處理等等。如何快速、準確地獲得有價值的網絡信息,如何理解已有的歷史數據并用于預測未來的行為,如何從這些海量數據中發現知識,導致了知識發現和數據挖掘領域的出現。

8、知識發現(Knowledge Discovery,簡稱KD)和數據挖掘(Data Mining,簡稱DM)是集統計學、人工知識、模式識別、并行計算、機器學習、數據庫等技術的一個交叉性的研究領域。知識是當今世界一種最重要的財富。數據庫中的知識發現(Knowledge Discovery in Database,即KDD)方法和數據挖掘技術,近幾年受到人們的高度重視,并對其進行了深入的研究,得到了許多有效的方法和技術。隨著Internet技術的迅猛發展,WEB(World Wide WEB)已發展成為擁有3億頁面的分布式信息空間,而且這個數字仍以每4至6個月翻一番的速度增加著。面對這海量的數據和信

9、息,人們卻感知識的匱乏,難怪John Naisbett感嘆道:“We are drowning in information, but starving for knowledge”(“信息爆炸但知識匱乏”)。現代社會的競爭趨勢要求必須對WEB大量復雜的信息進行實時的和深層次的分析,從中找出真正有價值的信息知識,用于科學研究、決策支持、過程控制、趨勢預測、偏差預防等,但是,現有的KDD方法和技術已不能滿足人們從WEB獲取知識的需要,這是因為:WEB數據是異質、異構、動態、模糊的半結構化、非結構化或數據庫信息;異質、異構以與動態性給數據倉儲帶來極大困難;語義理解難度加大,造成基于容的信息檢索難以

10、實現;挖掘算法、信息模型的動態性以與大樣本空間搜索能力要求很高;現有的DM方法和技術不能直接運用于WEB挖掘。因此,人們迫切感到需要一種新的技術基于WEB的數據挖掘技術,以便從WEB海量的數據中自動地,智能地抽取隱藏于這些數據中的知識。國外研究現狀綜述DM是近年來一個十分活躍的研究領域。從數據庫中發現知識(Knowledge Discovery in database,簡稱KDD)一詞首先出現在1989年舉行的第十一屆國際聯合人工智能學術會議上。到目前為止,由美國人工智能協會主辦的KDD國際研討會已召開了8次,規模由原來的專題討論會發展到國際學術大會,僅以1999年為例,就有近20個國際會議列

11、有DM專題。這兩年國也有相當多的數據挖掘和知識發現方面的研究成果,許多學術會議上都設有專題進行學術交流。目前, DM的研究重點逐漸從發現方法的研究轉向實際的系統應用,國際上有影響的典型數據挖掘系統有SAS公司的Enterprise Miner, IBM公司的Intelligent Miner, SGI公司的Set Miner等。現有的數據挖掘技術分為5類,即預測模型化、聚類、數據歸納、依賴模型化以與發現變化和偏差。從國外目前的研究進展來看,各學科的研究自成一派,沒有突破各個領域的技術界限;沒有融合各領域的不同方法;尤其是未將并行優化的諸方法集成用于數據庫中的數據挖掘,從而提高實時性,并解決隨機

12、的、動態的、不完全的與混沌數據的數據挖掘,即所謂智能數據挖掘。而且以往多數技術都是在駐留于存的數據之上進行挖掘,沒有把這些技術與數據庫技術相集成。近年來,有些技術已開始定位于大型數據庫上的挖掘,即基于磁盤存貯進行挖掘。從而出現了關系數據庫的數據挖掘、面向對象數據庫的數據挖掘等。由于Internet和WEB的廣泛應用,出現了基于異構數據源的數據挖掘,如文檔數據挖掘、時間序列數據挖掘、電子商務系統中的數據挖掘。伴隨數據庫技術的發展,多媒體數據庫的數據挖掘、時態數據庫的數據挖掘、空間數據庫的數據挖掘等也引起了許多人的關注。預計在21世紀還會形成更大的高潮,研究焦點可能會集中到以下幾個方面:研究專門用

13、于知識發現的數據挖掘語言,也許會像SQL語言一樣走向形式化和標準化;尋求數據挖掘過程中的可視化方法,使得知識發現的過程能夠被用戶理解 ,也便于在知識發現過程中的人機交互;研究在網絡環境下的數據挖掘技術,特別是在Internet上建立DM服務器,與數據庫服務器配合,實現數據挖掘;加強對各種非結構化數據的挖掘,如文本數據、圖形圖像數據、多媒體數據。但是,無論怎樣,需求牽引,市場驅動是永恒的,DM將首先滿足信息時代用戶的急需,大量基于DM的決策支持軟件工具產品將會問世 。2、學術構想與思路、主要實現容與擬解決的關鍵技術學術構想與思路研究容主要包括:WEB上數據挖掘的用途、WEB上數據挖掘的分類、WE

14、B上數據挖掘的實現與工具、WEB數據挖掘的BN實現方法。最后給出了一個WEB數據挖掘在電子商務中的應用實例。畢業設計充分的將理論研究和實際應用結合起來,做到了理論和實踐的相結合。該電子商務是基于Jsp/JavaBean的模式的一個網絡購物系統,這種模式以其穩定性和優越的速度,被全球企業證明公認為可以高效穩定的進行企業運算開發的平臺。這種平臺最大的優勢在于可以跨系統,真正的“一次編寫、 到處運行”的特點,在這種平臺上開發的產品,可以輕松移植到其他的平臺,例如:Unix、Linux、Windows系統,這樣,在企業更換平臺的時候可以最大的節約成本,提高運算質量。 Jsp網絡購物系統基于jsp+ja

15、vabean+數據庫三層結構的動態購物。用戶接口(即界面)由jsp完成,數據和邏輯處理由beans完成,數據儲存由數據庫完成。因為beans獨立負責處理整個的全部數據邏輯運算,所以整個的負載量和速度都將大大提高,所以基于這種語言和結構開發的購物系統的優勢是其它語言無法比擬的。這就更進一步保證了的穩定性和安全性,而這些,對于一個購物來說是非常重要的!主要實現容主要功能介紹: (1)前臺功能: 產品列表:詳細介紹(名稱,圖片,市場價,會員價,是否推薦,功能介紹)等產品搜索:關鍵字模糊搜索 定購產品:選擇商品確認定購填寫收貨人信息選擇付款方式訂單號自動生成(限登錄用戶)用戶管理:修改資料 查看購物車

16、(限登錄用戶) 數據挖掘:通過對用戶瀏覽商品的情況進行分析進而向用戶推薦商品(2)后臺功能: 商品管理:添加 刪除 修改 圖片上傳用戶管理:查看修改用戶資料,刪除用戶擬解決的關鍵技術WEB挖掘是數據挖掘在WEB上的應用,它利用數據挖掘技術從與WEB相關的資源和行為中抽取感興趣的、有用的模式和隱含信息,涉與WEB技術、數據挖掘、計算機語言學、信息學等多個領域,是一項綜合技術。WEB容挖掘。WEB容挖掘是指對WEB頁面容與后臺交易數據庫進行挖掘,從WEB文檔容與其描述中的容信息中獲取有用知識的過程。同時還可以對WEB的組織結構和關系進行挖掘,從人為的結構中獲取有用的知識。由于文檔之間的互連,WEB

17、能夠提供除文檔容之外的有用信息。利用這些信息,可以對頁面進行排序,發現重要的頁面。WEB使用記錄挖掘。WEB使用記錄挖掘是通過挖掘相應站點的日志文件和相關數據來發現該站點上的瀏覽者的行為模式,獲取有價值的信息的過程。如何實現WEB挖掘WEB挖掘發展自數據挖掘。數據挖掘方法通常可以分為兩類:一類是建立在統計模型的基礎上,采用的技術有決策樹、分類、聚類、關聯規則等;另一類是建立一種以機器學習為主的人工智能模型,采用的方法有神經網絡、自然法則計算方法等。WEB容挖掘實現技術WEB上的容挖掘多為基于文本信息的挖掘,它和通常的平面文本挖掘的功能和方法比較類似。利用WEB文檔中部分標記,如Title、He

18、ad等包含的額外信息,可以提高WEB文本挖掘的性能。文本總結。文本總結是指從文檔中抽取關鍵信息,用簡潔的形式對文檔容進行摘要或解釋。其目的是對文本信息進行濃縮,給出它的緊湊描述。這樣,用戶不需要瀏覽全文就可以了解文檔或文檔集合的總體容。文本分類。分類是在已有數據的基礎上學會一個分類函數或構造出一個分類模型,即通常所說的分類器。文本聚類。文本聚類把一組文檔按照相似性歸成若干類別。方法大致可分為層次凝聚法和平面劃分法兩種類型。關聯規則。發現關聯規則的算法通常要經過以下三個步驟:連接數據,作數據準備;給定最小支持度和最小可信度,利用數據挖掘工具提供的算法發現關聯規則;可視化顯示、理解、評估關聯規則。

19、WEB使用記錄挖掘實現技術在挖掘WEB用戶使用記錄時描述用戶訪問的數據包括:IP地址、參考頁面、訪問日期和時間、用戶WEB站點與配置信息。發現用戶使用記錄信息的方法有兩種。一種方法是通過對日志文件進行分析,包含兩種方式:一是先進行預處理,即將日志數據映射為關系表并采用相應的數據挖掘技術來訪問日志數據;二是直接訪問日志數據以獲取用戶的導航信息。另一種方法是通過對用戶點擊事件的搜集和分析發現用戶導航行為。能挖到什么獲取競爭對手和客戶信息。WEB不僅由頁面組成,而且還包含了從一個頁面指向另一個頁面的超。一個WEB頁面的作者建立指向另一個頁面的指針,就可以看作是作者對另一頁面的認可。把另一頁面的來自不

20、同作者的注解收集起來,就可以用來反映該頁面的重要性,并可以很自然地用于權威頁面的發現。另外一種重要的WEB頁面是一個或多個WEB頁面,它提供了指向權威頁面的集合,稱為Hub。Hub頁面本身可能并不突出,或者說可能沒有幾個指向它們,但是 Hub頁面卻提供了指向就某個話題而言最為突出的站點的。通過分析這類信息,企業可以獲得零售商、中間商、合作商以與競爭對手的信息。發現用戶訪問模式。通過分析和探究WEB日志記錄中的規律,可以識別電子商務的潛在客戶,提高對最終用戶的服務質量,并改進WEB服務器系統的性能。 WEB日志記錄數據庫提供了有關WEB動態的,基于URL、時間、IP地址和WEB頁面容的豐富信息,

21、對它們進行分析,有助于發現潛在客戶、用戶和市場,有助于聚類用戶并將用戶分門別類,以實現個性化的市場服務。3、所需實驗手段、研究條件和實驗條件硬件環境要求:計算機必須滿足的條件:1 CPU: Intel Pentium 1GHz或更高的處理器(推薦酷睿2或更高的處理器),或任何運行于Microsoft Windows NT Workstation的Alpha的處理器。2 操作系統: Microsoft Windows XP/vista/7或 Microsoft Windows NT Service/Workstation 4.0(推薦Service Pack 5)或更高版本,或者Unix,Linux操作系統。3監視器: Microsoft Windows支持的VGA或分辨率更高的監視器。4存:512MB存以上。軟件環境要求: 本系統適用于Microsoft Wi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論