大數(shù)據(jù)流式處理性能_第1頁
大數(shù)據(jù)流式處理性能_第2頁
大數(shù)據(jù)流式處理性能_第3頁
大數(shù)據(jù)流式處理性能_第4頁
大數(shù)據(jù)流式處理性能_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數(shù)據(jù)流式處理.項目背景網(wǎng)絡發(fā)展迅速的時代,越來越多人通過網(wǎng)絡獲取跟多的信息或通過網(wǎng)絡作一番自己的事業(yè),當投身于搭建屬于自己的網(wǎng)站、APP或小程序時會發(fā)現(xiàn),經過一段時間經營和維護發(fā)現(xiàn)瀏覽量和用戶數(shù)量的增長速度始終沒有提升。在對其進行設計改造時無從下手,當在不了解用戶的瀏覽喜歡和個用戶群體的喜好。雖然服務器日志中明確的記載了用戶訪瀏覽的喜好但是通過普通方式很難從大量的日志中及時有效的篩選出優(yōu)質信息。SparkStreaming是一個實時的流計算框架,該技術可以對數(shù)據(jù)進行實時快速的分析,通過與Flume、Kafka的結合能夠做到近乎零延遲的數(shù)據(jù)統(tǒng)計分析。SSP項目主要是采用實時處理方式,主要分析統(tǒng)計點擊日志、曝光日志、媒體請求日志、媒體請求返回日志等日志的用戶行為分析。.案例需求要求:實時分析服務器日志數(shù)據(jù),并實時計算出某時間段內的瀏覽量等信息。使用技術:Flume-》Kafka-》SparkStreaming-》MySql數(shù)據(jù)庫.案例架構架構中通過Flume實時監(jiān)控日志文件,當日志文件中出現(xiàn)新數(shù)據(jù)時將該條數(shù)據(jù)發(fā)送給Kafka并有SparkStreaming接收進行實時的數(shù)據(jù)分析最后將分析結果保存到MySQL數(shù)據(jù)庫中,再通過可視化界面展示給運營和相關管理人員。結構圖3.1所示。

圖3.1實時處理架構在本篇文章中使用Flume+Kafka+SparkStreaming具體實現(xiàn)大數(shù)據(jù)實時流式數(shù)Sp^rkStreamingKafkasinkMemorychflnn?lMemorychannel據(jù)采集的架構圖如圖3.2:AgentSp^rkStreamingKafkasinkMemorychflnn?lMemorychannel據(jù)采集的架構圖如圖3.2:AgentAgent圖3.2實時采集日志架構圖.環(huán)境準備大數(shù)據(jù)平臺基于ClouderaManager集群構建大數(shù)據(jù)生產環(huán)境,基于CDH5.12.0版本安裝部署的,此次項目所用到的組件包括Flume、Kafka、Spark、Yarn、Zookeeper、MySQL。大數(shù)據(jù)平臺組件如圖4,1所示QCluster1(CDH5.12.0fPared)O區(qū)主機?號Flume,KHBase?0HDFSO爺HiveO皆Kafka?夕SparkO■Sqocp2O萼YARN(MR…O.jZooKeeper圖4,1大數(shù)據(jù)平臺組件大數(shù)據(jù)平臺服務器配置大數(shù)據(jù)平臺為5個節(jié)點。集群服務器按照節(jié)點承擔的任務分為管理節(jié)點和工作節(jié)點。管理節(jié)點上一般部署各組件的管理角色,工作節(jié)點一般部署有各角色的存儲、容器或計算角色。根據(jù)業(yè)務類型不同,集群具體配置也有所區(qū)別,根據(jù)申通大數(shù)據(jù)的集群定位為海量數(shù)據(jù)存儲和實時計算、數(shù)據(jù)挖掘、數(shù)據(jù)分析、人工智能,這些計算場景對磁盤的IO、CPU、內存要求較高,服務器配置如表4.1:管理節(jié)點工作節(jié)點處理器兩路Intel?至強處理器,可選用E5-2670處理器v3兩路Intel?至強處理器,可選用E5-2670處理器v3內核數(shù)8核/CPU(或者可選用8核/CPU),主頻2.3GHz或以上8核/CPU(或者可選用6核/CPU),主頻2.3GHz或以上內存4x32GBDDR4共128GB內存4x32GBDDR4共128GB內存硬盤2個1TB的SAS硬盤(2.5或3.5寸),15KRPM,RAID0+12個1TB的SAS硬盤(2.5或3.5寸),15KRPM,RAID12個1TB的SAS硬盤(3.5寸),10000RPM以上,不使用RAID網(wǎng)絡1塊雙口千兆以太網(wǎng)卡陣列控制器(支持RAID0/1)1塊雙口千兆以太網(wǎng)卡陣列控制器(支持RAID0/1)硬件尺寸1U1U接入交換機推薦使48個千兆和6個4千兆空口的千兆網(wǎng)交換機,可堆疊;或選用48口千兆交換機,要求全千兆,可堆疊數(shù)量2表4.1大數(shù)據(jù)服務配置6

日志服務配置45數(shù)據(jù)庫服務器配置.數(shù)據(jù)處理過程在172.16.189.188/218/227/228/2335臺日志服務器上,通過flume實時采集點擊日志、曝光日志、媒體請求日志、媒體請求返回日志等數(shù)據(jù),將數(shù)據(jù)發(fā)送給hadoop平臺上的flume各個日志進行匯聚,然后再將日志傳kafkatopic中,

sparkspreaming每隔一分鐘處理一次kafkatopic中的日志,按每小時對數(shù)據(jù)進行疊加匯總。對日志的各項指標進行統(tǒng)計分析,指標包括:點擊日志、曝光日志、媒體請求日志、媒體請求返回日志等日志的用戶行為分析。.測試過程測試指標名稱指標備注CPU使用率不高于80%內存使用率不高于80%I/O使用率不高于80%Network使用率不高于80%吞吐量測試流程晶黑分析4裝至測敏的定E整住測H基線式基址網(wǎng)試.余統(tǒng)郎碰定晶黑分析4裝至測敏的定E整住測H基線式基址網(wǎng)試.余統(tǒng)郎碰定謝試沒計開發(fā)剛」..式門」、汁I:j西,町疑定■ ,,.]…民I1.而白網(wǎng)藤咕里分排6.3spark實時處理的吞吐量用例名稱SparkStreaming實時處理ssp日志驗證功能SparkStreaming處理性能測試目的驗證spark實時處理的性能及穩(wěn)定性,同時更好的為服務器分配資源前置條件操作步驟在日志服務器上實時產生日志flume對日志進行采集spar

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論