




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
河北省高等職業院校
大數據技術與應用技能大賽
零售大數據分析(樣題)
任
務
書
參賽隊編號___________
第一部分競賽須知
一、競賽注意事項
1、參賽選手應嚴格遵守賽場規章、操作流程和工藝準則,保證人身及設備安全,
接受裁判員的監督和警示,文明競賽;
2、競賽所需的硬件、軟件和輔助工具由組委會統一布置,選手不得私自攜帶任
何電子設備或其他資料、用品等進入賽場;
3、比賽完成后,軟件和賽題請保留在座位上,禁止將比賽所用的所有物品(包
括試卷和草紙)帶離賽場;
4、裁判以各參賽隊提交的競賽結果文檔為主要評分依據。所有提交的文檔必須
按照賽題所規定的命名規則命名,不得以任何形式體現參賽院校、姓名、參
賽證編號、賽位號等信息,否則取消競賽成績;
5、本次比賽采用統一網絡環境比賽,請不要隨意更改客戶端和競賽環境的網絡
地址信息,對于更改客戶端信息造成的問題,由參賽選手自行承擔比賽損失;
6、請不要惡意破壞競賽環境(如修改競賽環境密碼、刪除文件),對于惡意
破壞競賽環境的參賽者,組委會根據其行為予以處罰直至取消比賽資格;
7、比賽中出現各種問題及時向現場裁判舉手示意,不要影響其他參賽隊比
賽;
二、競賽選手須知
1、任務書如出現缺頁、字跡不清等問題,請及時向現場裁判示意,并由現場裁
判進行更換;
2、賽項競賽時長4小時;
3、參賽選手應嚴格遵守賽場規章、操作規程和工藝準則,保證人身及設備安全,
接受裁判員的監督和警示,文明競賽;
4、參賽選手在收到開賽信號前不得啟動操作。在競賽過程中,確因計算機軟件
或硬件故障,致使操作無法繼續的,經項目裁判長確認,予以啟用備用計算
機;
5、參賽選手需及時保存工作記錄。對于參賽選手自身原因造成的數據丟失,
由參賽選手自行負責;
6、在比賽中如遇非人為因素造成的設備故障,經裁判確認后,可向裁判長申請
補足排除故障的時間;
7、競賽時間結束,選手應全體起立,停止操作。將資料和工具整齊擺放在操作
平臺上,經工作人員清點后可離開賽場,離開賽場時不得帶走任何資料;
8、競賽操作結束后,參賽隊要確認成功提交競賽要求的文件,裁判員在比賽結
果的規定位置做標記,并與參賽隊一起簽字確認;
9、符合下列情形之一的參賽選手,經裁判組裁定后中止其競賽:
1)不服從裁判員/監考員管理、擾亂賽場秩序、干擾其他參賽選手比賽,裁
判員應提出警告,二次警告后無效,或情節特別嚴重,造成競賽中止的,經裁判
長確認,中止比賽,并取消競賽資格和競賽成績;
2)競賽過程中,由于選手人為造成計算機、儀器設備及工具等嚴重損壞,
負責賠償其損失,并由裁判組裁定其競賽結束與否、是否保留競賽資格、是否累
計其有效競賽成績;
3)競賽過程中,產生重大安全事故或有產生重大安全事故隱患,經裁判員
提示沒有采取措施的,裁判員可暫停其競賽,由裁判組裁定其競賽結束,保留競
賽資格和有效競賽成績;
第二部分競賽環境及注意事項
一、競賽環境
每組競賽選手使用三臺計算機和一套大數據競賽環境,競賽選手依照本競
賽項目的任務內容,完成任務書要求的相關操作與開發任務。
二、競賽結果文件提交
1、所有競賽結果提交文件夾存放在計算機桌面“競賽文檔”文件夾下,競賽任
務結果截圖和文件存放在答案模板下。
2、請務必按照任務書說明文檔題目要求內容截取答案/結果(可分段截取),并
按順序粘貼至答案模板中;在計算機桌面創建“競賽文檔”文件夾,并在
該目錄中創建word文件,用于存放答案截圖,文件格式為:“XXX-02.docx
(XXX代表賽位號、02代表任務二)”。答案文檔需學生自行創建并按照習
題順序自行排版。
3、競賽結果需提交Word文件。
4、將任務成果Word文件壓縮為一個XXX.zip(XXX代表賽位號)文件,并上傳
至競賽平臺。
三、注意事項
1、檢查計算機設備、大數據競賽環境是否能正常使用。檢查競賽所需的各項
設備、軟件和競賽材料等;
2、競賽過程中請嚴格按照競賽任務中的描述,對大數據競賽環境進行安裝配
置、操作使用,對于競賽前大數據競賽環境內的配置,與競賽任務有關,
請勿修改、刪除;
3、競賽任務完成后,不要關閉任何設備,不要對計算機設備或大數據競賽環
境進行加密;
第三部分競賽任務
背景描述
當今社會,中國零售業所面臨的最大挑戰就是顧客和市場需求復雜多變,比
起人的經驗主義來做決策,只有實時的數據分析和反饋才能適應更快的變化。零
售的本質離不開人、貨、場這三個核心,圍繞這三個核心提升運營的效率,也就
是線上線下的成功融合。
為了對零售業中經營模式、管理風格、重視程度、資金投入等做出正確的決
策,對其進行數據分析必不可少。現選用在業界廣泛使用的“Hadoop”工具,
來對該零售行業數據進行分析處理。并綜合利用MySQL、MapReduce、Hive、
Sqoop、Spark、Echarts等技術和Java、Python語言對數據進行提取、清洗、整
理、計算、表達、分析和可視化處理。
作為分析該零售行業的主要技術人員,你們是這次技術方案展示的核心成
員,請按照下面步驟完成本次技術展示任務,并提交技術報告,祝你們成功。
任務一:Hadoop相關組件安裝部署(15分)
一、HadoopHA部署
本環節需要使用root用戶完成相關配置,安裝Hadoop需要配置前置環
境,具體部署要求如下:
1、解壓安裝JDK到路徑/usr/local/src,并配置環境變量;截取環境變量配置文
件截圖保存。
2、創建ssh密鑰對,實現主節點與從節點的無密碼登錄;截取主節點登錄其
中一個從節點的結果。
3、將Zookeeper組件安裝到/usr/local/zookeeper路徑,zookeeper的數據目錄
和日志目錄分別為/usr/local/zookeeper/data和/usr/local/zookeeper/log。
4、啟動節點action-1和action-2的Hadoop的NameNode和ResourceManager。
二、Hive組件部署
本環節需要完成MySQL服務的啟動和Hive的安裝、配置和驗證。已安裝
Hadoop及需要配置前置環境。具體部署要求如下:
1、啟動MySQL數據庫,創建MySQL數據庫用戶,用戶名/密碼:root/root123。
把啟動命令和結果截圖。
2、進入MySQL控制臺,創建hive數據庫,并創建hive用戶可訪問該庫的
所有表的所有權限,hive用戶的密碼為hive,把執行語句和結果截圖。
3、解壓安裝Hive到路徑/usr/local/hive,把執行命令和結果截圖。
4、修改/etc/profile文件,配置Hive環境變量,并使之生效,將環境變量配置
內容截圖。
5、把MySQL驅動mysql-connector-java-5.1.26-bin.jar復制到hive安裝路徑
的lib目錄下,把執行命令和結果截圖。
6、修改hive-site.xml文件,以使用上面在MySQL里創建的hive數據庫保存
hive元數據,把修改后的文件內容截圖。
7、初始化Hive元數據,把執行命令和結果截圖。
8、啟動hive,并驗證Hive是否安裝成功,將運行結果截圖。
三、Spark組件部署
本環節需要使用root用戶完成相關配置,已安裝Hadoop及需要配置前置
環境,安裝spark具體部署要求如下:
1、下載、安裝并配置spark。
2、配置spark環境變量。
3、啟動sparkshell,驗證安裝完的spark是否可用。
四、Sqoop組件部署
本環節需要使用root用戶完成相關配置,已安裝Hadoop及需要配置前置
環境,具體部署要求如下:
1、下載、安裝并配置Sqoop,將其安裝到/usr/local/sqoop路徑下,安裝完成
后進行截圖保存。
2、修改Sqoop環境變量,并使環境變量只對當前root用戶生效。
3、測試Sqoop連接MySQL數據庫是否成功,截圖并保存結果。
任務二:數據采集(20分)
1、分析網站,利用chrome查看網頁源碼,分析零售網站網頁結構。打開
零售網站(網址見附錄或見資料文件夾),在網頁中檢查網站,瀏覽網站源碼查
看所需內容。
2、從零售網站中爬取需要數據,按照要求使用Python語言編寫并編寫爬蟲
代碼,爬取指定數據項,有效數據項包括但不限于:卡號、商品ID、品牌、產
品名稱、最小可用單位、SRP、毛重、凈重、是否環保包裝、是否低脂、子產品、
產品類別、產品部、產品族等字段等多項字段。并將代碼文件與代碼截圖保存。
具體步驟如下:
1)創建爬蟲項目
2)構建爬蟲請求
3)按要求定義相關字段
4)獲取有效數據
5)將爬取到的數據保存到指定位置
3、至此已從零售網站中爬取了所需數據,下一步我們要將爬取結果進一步進行
相關數據操作,請將操作命令截圖并保存。
任務三:數據清洗與分析(25分)
現已從相關網站及平臺獲取到原始數據集,在不涉及客戶安全數據或者一些
商業性敏感數據的情況、不違反系統規則條件下,對真實數據進行改造并提供測
試使用。
以product.csv文件為例,該文件中包含了有關產品信息的數據,但原始數
據經過多次采集匯總,數據集中不可避免地存在一些數據缺失、冗余、重復等現
象。你的小組需要通過編寫代碼或腳本完成對文件product.csv中產品信息數據
的清洗和整理,并完成數據計算和分析任務。
1、缺失值處理
缺失值是一種常見的臟數據情況,現有數據集中某個或某些屬性的值是不完
全的。對于缺失值的處理,從總體上來說分為缺失值刪除和缺失值插補。當缺失
值過多時,信息條目本身的價值也會隨之降低,此時如果對缺失值進行填補則將
產生結果的人為干預。請使用Java語言編寫MapReduce程序刪除product.csv文
件中缺失值(空字符串)大于n(3)個字段的數據條目剔除原始數據集并將其
輸出結果文件重命名為clean_data1.csv,并在控制臺輸出剔除的條目數量,截
圖并保存結果。
2、重復數據處理
原始數據集來自于多個平臺及網站,且為多次采集匯總,因此數據集中的某
些字段有可能會出現一些重復或非法格式,例如多次采集過程中產生的重復信
息,或來自于某網站的不合規數據。這些信息的存在既無實際的業務分析意義,
甚至還會影響最終分析結果。請使用Spark程序刪除clean_data1.csv文件中的
非法數據和重復數據,將其輸出至HDFS文件系統中,截圖并保存結果。
3、導入數據
啟動Hive。在Hive中創建數據庫db1_hive,在該數據庫上創建表sales、表
retail、表product、表custom。其表結構與sales.csv、retail.csv、product.csv、
custom.csv相同,編寫命令行查看各個表結構,將運行結果截圖并保存。在Hive
端使用命令將文件sales.csv、retail.csv、product.csv、custom.csv對應導入到數據
庫db1_hive的sales表、retail表、product表、custom表中。分別驗證查看數據
庫表總記錄數量,將運行結果截圖并保存。
4、工作類型分析
在銷售行業中,有這樣一句話——“顧客就是上帝”。對在零售網站中注冊
的客戶進行有效的分析,顯得尤為重要。在客戶數據集中,記錄了客戶的賬號、
姓名、卡片等級、地域、工作類型、孩子數量等情況。請使用Spark程序根據
custom.csv文件中的數據,分析零售網站中客戶的工作類型所對應的客戶數量,
將結果輸出至HDFS文件系統中,將運行結果截圖并保存。
5、客戶等級分析
在零售網站中,客戶的等級代表了客戶的購買能力,而客戶的購買能力與諸
多因素有關,例如年收入越多,購買能力越強;家中有小孩的客戶,需要消耗更
多的商品等等。請使用Spark程序根據custom.csv文件中的數據,查詢零售網站
中年收入在$30K-$50K之間、在家孩子數量大于0的客人的信息,將結果輸出至
HDFS文件系統中,將運行結果截圖并保存。
6、媒體推廣形式分析
促銷是通過向市場和消費者傳播信息,以促進銷售、提高業績。零售商品網
站也會在不同時期,不同區域,通過不同的媒介,采用不同的促銷方式進行促銷
活動。請使用Spark程序根據custom.csv文件中的數據,統計零售網站中不同媒
體推廣形式對應的總成本和總天數的情況,將結果輸出至HDFS文件系統中,將
運行結果截圖并保存。
使用Hive系統中的sales表中的數據作為數據源,使用Hive命令,統計每種
媒體推廣形式的總成本、總天數,同時將數據寫入數據表中,將命令與執行結果
截圖并保存。
7、客戶家庭信息分析
若要根據客戶的特定信息了解客戶在網站的消費情況,需要對客戶數據及零
售記錄進行分析。請以custom表、retail表、product表中的數據作為數據源
(custom表中的id列對應product表中的Product_ID列;custom表中的id列對
應retail表中的Customer),使用Hive命令,查詢零售網站中卡號、卡片等級、
年收入、在家孩子數量、有車數量、產品名稱、購買產品數量、總金額等信息,
同時將數據寫入數據表中,將語句及輸出結果截圖并保存。
8、客戶類型分析結果遷移
在Hive中創建數據庫db2_hive,并在該庫中創建表job_type_hive,包含兩
個字段:工作類型及客戶數量,將任務三中客戶類型分析結果遷移到
job_type_hive表。在MySQL中創建數據庫DB,并在該庫中創建表job_type_sql,
用于存儲db2_hive中的job_type_hive表的數據,二者表結構相同。使用sqoop
命令將Hive中的db2_hive庫的job_type_hive表中數據導入到MySQL的DB庫中
的job_type_sql表,將該命令截圖并保存。查看job_type_sql表的數據,將該命
令和結果截圖并保存。
9、媒體推廣形式分析結果遷移
在Hive中的數據庫db2_hive創建表media_type_hive,包含兩個字段:媒體
推廣類型及促銷數量。將任務三中媒體推廣形式分析結果遷移到
media_type_hive表。在MySQL中創建數據庫DB,并在該庫中創建
media_type_hive表,用于存儲db2_hive中的media_type_hive表的數據,二者表
結構相同。使用sqoop命令將Hive中的db2_hive庫的media_type_hive表中數據
導入到MySQL的DB庫中的media_type_sql表。將該命令截圖并保存。查看
media_type_sql表的數據,查看命令和結果截圖并保存。
10、在家孩子數量與消費分析結果遷移
在Hive中的數據庫db2_hive創建表child_num_hive,包含兩個字段:在家
孩子的數量和購買產品的總金額。將任務三中客戶家庭信息中的在家孩子的數量
和購買產品的總金額的分析結果插入到child_num_hive表。在MySQL中創建數
據庫DB,并在該庫中創建child_num_sql表,用于存儲db2_hive中的
child_num_hive表的數據,二者表結構相同。使用sqoop命令將Hive中的db2_hive
庫的child_num_hive表中數據導入到MySQL的DB庫中的child_num_s
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2026學年開封市通許縣三年級數學第一學期期末試題含解析
- 2025-2026學年江蘇省南通市海安市白甸鎮數學三上期末教學質量檢測試題含解析
- 2024年湖南省衡陽市數學三上期末達標檢測試題含解析
- 自考行政管理基本知識試題及答案
- 行政法學的現實意義探討試題及答案
- 執業護士考試變革適應能力試題及答案
- 護理溝通技巧試題及答案分類
- 護士職業發展試題及答案建議
- 行政決策中的數據化應用實例的試題及答案
- 自考行政管理多元化管理試題及答案
- 大排檔創業項目策劃
- 外賣平臺的商家入駐合作協議
- 煤礦面試筆試試題及答案
- 2025民法典婚姻家庭編司法解釋二解讀
- 殯葬考試面試題及答案
- 2025年鉗工(技師)職業技能鑒定理論考試題庫(含答案)
- 二年級數學北師大版下冊第七單元《淘氣的作息時間》教學設計教案1
- 項目進度跟進及完成情況匯報總結報告
- DBJ50- T-445-2023建筑邊坡工程監測技術標準
- 藥店稅務合規管理制度
- DB61-T+1801-2023水工隧洞外水壓力確定與應對技術規范
評論
0/150
提交評論