




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、【Word版本下載可任意編輯】 一種Web日志分析系統實現 隨著Web站點規模的增大,所涉及的應用服務種類越來越多。所謂網站(Website),就是指在網際網路(因特網)上,根據一定的規則,使用HTML等工具制作的用於展示特定內容的相關網頁的集合。簡單地說,網站是一種通訊工具,就像布告欄一樣,人們可以通過網站來發布自己想要公開的資訊(信息),或者利用網站來提供相關的網路服務(網絡服務)。人們可以通過網頁瀏覽器來訪問網站,獲取自己需要的資訊(信息)或者享受網路服務。站點的監控和統計分析已成為站點建設的一項重要內容。Web服務器的訪問日志文件記錄了客戶端每次請求的細節,因此,對Web站點訪問日志開
2、展分析,已成為評估網站運行質量的一種常用方法。 大型Web站點的日志文件的重要特征是數據量巨大,每日幾百兆甚至上千兆,并且隨著時間推移不斷增加。因此很多站點對日志文件開展按日分割(即每天產生1個文件),而這樣就帶來日志文件的離散性。傳統日志分析系統過多關注日志分析的效率問題,而忽略了對離散文件開展連續分析的研究及對每次分析結果的構造化保存問題。隨著數據挖掘技術逐漸由理論到實踐以及人們對海量數據的利用越來越關注,開展持續分析以及對分析結果開展構造化存儲甚至比效率顯得更加重要。 現代關系數據庫很重視原始數據的導入,一般都提供數據導入工具,本文就是通過在日志分析系統中嵌入SQL-SERVER的DTS
3、,從而使系統既有較高的執行效率,又很好地解決了離散文件的連續性分析與存儲問題。 1 DTS介紹 大多數組織都使用多種格式和多個位置來存儲數據。為了支持決策、改善系統性能或對現有系統開展升級,經常必須將數據從一個數據存儲位置移動到另一個存儲位置。Microsoft SQL Server 2000 數據轉換服務(DTS )提供一組工具,可以從不同的源將數據抽取、轉換和合并到一個或多個目標位置。要利用SQL-SERVER的這一強大功能,首先要建立DTS包。DTS包是數據轉換服務的可執行單元,每個包都包含1個或多個順序或并行執行的程序步驟。當包執行時,首先連接到正確的數據源,然后復制數據和數據庫對象,
4、完成數據轉換工作。每個軟件包可包含一組已安排好的任務,它們定義要執行的工作、對數據和對象的轉換、定義任務執行的工作流約束條件以及數據源和目標間的連接方式。DTS 軟件包還提供一些服務,如記錄軟件包執行詳細情況、控制事務和處理全局變量。 創立好DTS包后,便可在客戶端通過DTS執行實用工具(如dtsrun)開展調用,這樣就可將特定格式的數據從不同的數據源導入目的數據庫中。由于DTS是系統提供的一種多線程數據遷移工具,因此具有很高的轉換效率。詳細的關于如何創立DTS包和dtsrun的調用方法請參考相關專著和SQL-SERVER聯機幫助。 2 系統設計 通過上面的分析,本文認為運用DTS技術能夠很好
5、地解決日志系統運行效率與數據構造化存儲之間的瓶頸問題。整個系統的架構設計如圖1所示。本設計基本實現了以下目標。 (1)適合日志文件的多樣性 現有多種流行的Web服務器,如Apache、IIS等。不同服務器的訪問日志文件所記錄的內容大同小異,如請求資源、請求時間、客戶IP、服務器IP、發送字節數和接收字節數等,然而記錄格式卻不盡相同。Apache和IIS的Web日志格式如下表1所示。 由此可見,日志文件屬于半構造化的文本文件。對于這樣的文件DTS是不能夠直接導入到數據庫中的。因此,在原始日志文件到本地后,應該對文件開展規范化處理,這里稱為日志文件的歸一化處理,即將不同的日志格式轉換成一種DTS可
6、以直接操作的文件格式。 (2)離散非構造數據的構造化存儲 日志文件在開展歸一化處理后,便可使用DTS服務了。首先通過向導(Wizard)或數據轉換服務中的工具定義一個DTS包,其中數據源是經過歸一化處理的日志文件,導入目的庫是系統使用的數據庫。一切定義好之后,便可以將數據導入到數據庫表中。 (3)開展遠程離線統計 分析系統應該盡量做到對Web服務器的無干擾操作,否則會影響Web服務器的正常工作。為此,分析系統應該在物理上與Web服務器隔離,使之位于另一臺服務器上,甚至另一個網絡中。 (4)分析功能的定制性 功能定制也稱為基于組件的軟插拔技術,是現代軟件所倡導的技術之一。因此,本系統的分析功能采
7、用基于軟組件的方法,實現了系統功能的配置與定制。數據在導入數據庫系統之后,便可以利用關系數據庫和編程語言的強大功能開展數據挖掘和分析處理。 (5)功能豐富的報表輸出B/S方式 B/S方式已成為人機交互和信息表現的主流方式。本系統也是通過該方式顯示分析結果,通過豐富的報表、統計圖等直觀的手段,為網站管理者和決策者提供有價值的信息。 3 系統實現 本系統由2部分組成,其中后臺服務程序負責完成日志文件、歸一化處理、DTS入庫、分析等功能,根據需要可以設置為自動運行和手動運行?,F已實現了訪問統計功能、頻道統計功能、熱門頁面(HotPage)排行和用戶地域分析等功能。前臺顯示程序是基于B/S構造,通過統計表和統計圖方式直觀地展示分析結果。本系統采用Java語言開發,為系統移植和擴展提供了方便。利用本系統對某大型新聞類網站開展的一個月度訪問走勢比照分析如圖2所示。 4 結束語 本文介紹了Web日志分析系統的特點和目前研究重點,并概要介紹了Microsoft SQL Server的DTS技術。在此根底上開發的Web日志分析
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 施工合同增加工程量補充協議
- 培養創意思維激發靈感計劃
- 如何評估與分析品牌競爭對手計劃
- 裝修施工安全教育培訓
- 圖書館用戶滿意度調查的設計與實施計劃
- 全新委托管理合同協議
- 場地臨時租賃合同
- 學習能力提升方案計劃
- Unit 4 Friends Lesson 5(教學設計)-2024-2025學年人教精通版(2024)英語三年級上冊
- 主管工作中必要的軟技能總結計劃
- 老年人健康宣教課件
- 2025年內蒙古自治區專業技術人員繼續教育公需科目試題及答案
- 2025年華能青海分公司招聘筆試參考題庫含答案解析
- 新能源微電網(光儲柴混)海外市場及經典案例分享-中騰微網
- 人教版小學二年級下冊數學期中測試卷及完整答案【名校卷】
- 2024-2030年中國保理行業運行狀況與前景趨勢分析報告
- 勞動力材料投入計劃及保證措施機械設備投入計劃
- 《吸光度與透過率》課件
- 拍賣行業區塊鏈技術與藝術品鑒定方案
- 得表揚了課件
- 2023年中國鐵路南寧局集團有限公司招聘考試真題
評論
0/150
提交評論