




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
廣電大數據用戶畫像——
實時統計訂單信息1Kafka安裝和配置目錄實時統計目標2實時統計訂單信息3要求每30min統計一次新增營業額、新增訂單數、新增有效訂單數,因為有一些訂單是免費的(如cost字段為空),所以這些訂單是無效訂單。此外,需要統計總訂單數、有效訂單總數、總營業額。將這些指標實時更新到Redis中。此外,要保存整點的總訂單數、有效訂單總數、總營業額的對應數值。避免重復統計數據,保證結果的準確性。實時統計目標1Kafka安裝和配置目錄實時統計目標2實時統計訂單信息3因為CDH的parcel包沒有包含Kafka,所以需要單獨加載Kafka的parcel包到ClouderaManager中,parcel包的安裝步驟如下。從Cloudera官網上下載Kafka的parcel相關資源,需要注意的是,Kafka的版本要與CDH的版本相對應。根據項目中的集群環境,下載KAFKA-2.2.0-.p0.68-el6.parcel、KAFKA-2.2.0-.p0.68-el6.parcel.sha1、manifest.json。此外,需要下載KAFKA-1.2.0.jar文件。Kafka安裝和配置在ClouderaManager的server節點上配置相關資源。因為本項目中CDH集群的ClouderaManager是安裝在server1上的,所以在server1上把KAFKA-2.2.0-.p0.68-el6.parcel、KAFKA-2.2.0-.p0.68-el6.parcel.sha1、manifest.json文件添加到/opt/cloudera/parcel-repo目錄下,并把KAFKA-2.2.0-.p0.68-el6.parcel.sha1重新命名為KAFKA-2.2.0-.p0.68-el6.parcel.sha,覆蓋/opt/cloudera/parcel-repo/目錄下的manifest.json。另外,需要把KAFKA-1.2.0.jar添加到/opt/cloudera/csd目錄下。Kafka安裝和配置登錄ClouderaManager的管理界面,選擇“主機”→“Parcel”選項,在新的界面中單擊“檢查新Parcel”按鈕,此時彈出2.2.0-.p0.68未分配的提示,單擊“分配”按鈕,分配完成后單擊“激活”按鈕。Kafkaparcel包激活成功后的界面Kafka安裝和配置Kafka的parcel包添加成功后,需要在ClouderaManager中安裝Kafka集群。單擊“添加服務”按鈕,選擇“Kafka”選項,單擊“繼續”按鈕,選擇KafkaBroker的安裝節點,選擇安裝在node2、node3、node4上。因為KafkaMirrorMaker此處用不到,所以不用安裝,單擊“繼續”按鈕即可完成安裝。如下圖,Kafka集群已成功安裝在node2、node3、node4上。Kafka安裝和配置1Kafka安裝和配置目錄實時統計目標2實時統計訂單信息3模擬訂單實時數據流的主要思路是通過使用Kafka生產者逐行讀取訂單數據文件,并向訂單主題發送數據。為了模擬正常的訂單產生速率,在生產者每次發送完消息后,線程隨機睡眠0~10s。模擬訂單實時數據流產生的具體過程如下。在node2創建一個有3個副本及3個分區的Kafka主題,其名稱為order。根據模擬的思路,使用Java語言實現Kafka生產者。將代碼編譯成user_profile_project-1.0.jar包并上傳到CDH集群的node1節點的/root目錄下。啟動Kafka生產者。訂單實時數據流產生為了檢驗程序是否可以正常運行,需要啟動消費者消費order主題。成功啟動消費者后,當order主題產生數據時,消費者會實時從該主題中獲取數據,不斷地在屏幕上輸出訂單記錄。訂單實時數據流產生基于實時統計訂單信息的業務需求,給出實時統計訂單的完整計算代碼。為了避免出現重復消費的問題,使用Redis來保存消費位置。程序在啟動時,先從Redis中讀取上一次的消費位置,每次成功消費消息后,將消費記錄的下標更新到Redis中。為了減少在Spark集群中配置外部依賴包,計算代碼編譯封裝user_profile_project-1.0.jar的JAR包時,將Redis依賴添加到JAR包中,如下圖。SparkStreaming實時統計訂單信息針對計算代碼編寫測試代碼。在執行測試代碼的同時,需要啟動模擬生產Kafka的訂單數據源程序。啟動程序后,可以在Spark監控界面中看到提交的任務ID,即查看實時統計訂單任務,如下圖。SparkStreaming實時統計訂單信息程序啟動后,通過每隔30min消費Kafkaorder主題的訂單數據源來統計訂單的相關指標,并更新到Redis中。SparkStreaming的部分任務日志,如下圖。SparkStreaming實時統計訂單信息任務運行一段時間后,查看Redis訂單統計信息及消費Kafkaorder主題的offset,如下圖。SparkStreaming實時統計訂單信息先通過Java程序讀取靜態訂單數據模擬訂單數據的產生過程;再通過Kafka
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025BT工程合同概述及合同范本下載
- 2025婚禮策劃服務合同示范文本 合同范本
- 2025版權許可協議合同范本:圖書出版合同
- 2025專利許可合同樣本
- 2025合作協議書合同范本
- 2025上海勞動合同標準范本
- 2025綜合布線施工合同范本
- 網貸市場的監管政策解讀考核試卷
- 2025專業版技術服務合同示范文本
- 2025年國際貿易合作合同合同
- 安全生產治本攻堅三年行動主要任務
- 2024年濟南城市發展集團投資開發有限公司招聘筆試參考題庫含答案解析
- 2024年贛州市章貢區文化旅游發展集團有限公司招聘筆試參考題庫附帶答案詳解
- 糧食熏蒸操作要點培訓課件
- 同等學力申碩-同等學力(政治學)筆試(2018-2023年)真題摘選含答案
- 園林植物的識別與應用-灌木園林植物的識別與應用
- 親子鑒定報告樣本
- 飼料市場分析報告
- 六年級下冊數學應用題練習100題及答案
- pvc的生產工藝流程圖
- 我不能亂起外號課件
評論
0/150
提交評論