




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
2024年廣西職業院校技能大賽
中職組《大數據應用與服務》賽項
競賽樣題
模塊一:平臺搭建與運維
利用競賽平臺進行大數據系統的安裝和配置、數據庫的安裝和使用、平
臺運維、數據庫運維等。
任務一:大數據平臺搭建
使用SSH客戶端通過SSH訪問競賽平臺上的操作系統容器,基于競賽平
臺進行偽分布式模式Hadoop的搭建和管理。相關安裝文件在容器“/opt”
目錄下,請選擇對應的安裝包進行安裝,用不到的可忽略。
1.在容器中執行命令,創建Hadoop安裝目錄“/data/hadoop”,執行ls
命令查看創建的目錄。
2.在容器中執行tar命令,將容器“/opt”目錄下Hadoop安裝文件解
壓到容器中“/data/hadoop”目錄,執行ls命令查看解壓后的文件。
3.配置Hadoop環境變量并使其生效,配置完畢后,在容器中執行“hadoop
version”命令,查看Hadoop版本。
4.在容器中配置偽分布式模式Hadoop,并執行命令,格式化NameNode。
5.在容器中執行命令,啟動HDFS。
6.在容器中執行jps命令,查看容器中的進程。
任務二:數據庫配置維護
使用數據庫客戶端工具訪問競賽平臺上的數據庫容器,基于競賽平臺進
行數據遷移和備份還原。
1.使用數據庫工具,將MySQL中task1數據庫的t_house_renting表數
據遷移到數據庫task1的house_renting表。
2.使用數據庫工具,將MySQL中task1的house_renting表數據遷移到
Excel文件house_renting.xls中。
3.使用SSH管理工具,執行SQL語句,備份表t_house_renting表到容
器的“/opt/db/data/tab_bak”目錄。
4.使用SSH管理工具,執行SQL語句,清空task1中表t_house_renting
的數據。
1
5.使用SSH管理工具,執行SQL語句,利用容器中
“/opt/db/data/tab_bak”目錄下的備份文件還原表
task1.t_house_renting。
模塊二:數據獲取與處理
本模塊針對租房網站的數據進行采集、標注與處理。使用Python程序
進行網站數據的讀取與解析。使用sql對采集的租房數據進行清洗和標注。
使用Spark編程讀取提供的數據庫表中的數據,按要求進行數據的預處理,
并將處理完成的數據保存到數據庫表中。
任務一中使用的網頁和代碼在素材文件夾中提供。
任務二中使用的租房數據文件在素材文件夾中提供。
任務三中需要處理的數據位于數據庫task2中house_lg表,處理后的
結果保存到數據庫task2下house_lg_op2表中。建庫腳本和表結構說明在
素材文件夾中提供。
任務一:數據采集
任務要求:
打開ZZ40-M2-T1文件夾,文件夾中包含parse_house.py文件。
house_renting.html是通過爬蟲爬下來的租房列表內容。parse_house.py
為Python腳本文件,程序讀取house_renting.html,使用lxml對網頁進行
解析,提取相應的租房列表數據,并將結果輸出。
1.補全parse_house.py中【1】代碼,配置公共資源地址url。
2.使用瀏覽器打開house_renting.html網頁文件,通過“審查”工具
進行網頁結構分析。
3.補全parse_house.py中【2】代碼,實現獲取租房div列表。
4.補全parse_house.py中【3】~【4】代碼,實現“text”和“維護時
間”文本內容提取。
5.運行parse_house.py腳本,完成租房列表的解析。
任務二:數據標注
打開ZZ40-M2-T2文件夾,請使用數據庫工具導入house_renting.xlsx
文件,按照下面的要求,進行數據處理。
1.利用數據庫工具導入house_renting.xlsx文件。
2.使用sql語句將數據中“特點”為空的和“維護時間”超過三個月(包
2
含3個月前維護)的數據刪除,并將數據導出到house_renting_op.csv。
3.使用sql語句增加“方式”列,根據“名稱”列的值來標注,如果名
稱中包含“整租”則標為“Z”,包含“合租”則標為“H”,并將數據導出
到house_renting_op2.csv。
任務三:Spark數據處理
編輯賽項中提供的ZZ40-M2-T3/HOUSERENTINGOP數據預處理程序,該程
序使用Spark計算框架對租房數據進行預處理,請完成指定操作后在本地運
行該程序。數據來自MYSQL數據庫task2的house_renting表,預處理結果
保存到MYSQL數據庫task2下的house_renting_op1和house_renting_op2
表中。
1.打開ZZ40-M2-T3/HOUSERENTINGOP/house_renting.py文件,根據比
賽分配的賬號配置該文件下的數據庫連接信息:server、port、user、
password。
2.打開ZZ40-M2-T3/HOUSERENTINGOP/house_renting.py文件,補充第46
行代碼,調用SiteUdf函數實現‘名稱’數據歸一化。
3.打開ZZ40-M2-T3/HOUSERENTINGOP/house_renting.py文件,補充第73
行代碼,將預處理結果存入MySQL數據庫task2的house_renting_op2表中。
4.運行程序。
5.使用數據庫工具瀏覽數據庫task2的house_renting_op1和
house_renting_op2表,檢查數據是否插入成功。
模塊三:業務分析與可視化
對不同形式的求職數據進行分析和可視化,數據形式包括數據庫表數據
和Web程序數據。
數據庫表數據采用MySQL數據庫進行存儲,提供已建好的數據庫表,使
用數據庫管理工具,運行SQL語句進行查詢統計。Web程序數據在Web程序
代碼中,使用Web前端編程技術補充Web程序代碼,實現數據可視化網頁。
任務一:Web可視化
子任務1:柱狀圖數據分析和可視化
使用大數據應用與服務平臺的數據分析與可視化工具或者打開ZZ40-
M3-T1文件夾,文件夾中包含visualization項目目錄。打開visualization
項目,編寫補充代碼,實現Web網頁形式對房型數量前五的房型可視化展示。
3
將柱狀圖截圖,截圖參考如下:
根據visualization/data/data.js文件中barData對象中的數據,補
充完整visualization/js/chat.js文件中getBarChart()函數的代碼,實現
“新房型數量前五的房型柱狀圖”顯示:
1.編寫補充yAxis對象,獲取barData數據,設置y軸顯示類型為“類
目軸”、設置坐標軸文字顏色值為:#999999,大小為:12、設置坐標軸在grid
區域中的分隔線顏色為:#CAD3E0,線的類型為:點虛線、設置y軸顯示數
據為“房型數量前五房型名稱”。
2.編寫補充series對象,獲取barData數據,設置圖表顯示類型為柱
狀圖、設置柱條的寬度為20,背景顏色為:rgba(180,180,180,0.2)、設
置填充圖表數據為:房型數量。
3.運行網頁,附上“房型數量前五房型柱狀圖”截圖與相關代碼截圖。
子任務2:折線圖數據分析和可視化
任務要求:
使用大數據應用與服務平臺的數據分析與可視化工具或者打開ZZ40-
M3-T2文件夾,文件夾中包含visualization項目目錄。打開visualization
項目,編寫補充代碼,實現Web網頁形式對X市X區70至100平米月租價
格可視化展示。
(1)將折線圖截圖,截圖參考如下:
4
根據visualization/data/data.js文件中lineData對象中的數據,補
充完整visualization/js/chat.js文件中getLineChart()函數的代碼,實
現“X市X區70至100平米月租價格折線圖”顯示:
1.編寫補充tooltip對象,獲取lineData數據,設置提示框組件的觸
發類型為坐標軸觸發、設置指示器類型為:直線指示器、設置提示框浮層的
文字顏色:##666666,字體大小為:12
2.編寫補充xAxis對象,獲取lineData數據,xAxis、設置坐標文字顯
示為:#99999,文字大小設置為:12、設置X軸顯示坐標為“租房面積”。
3.編寫補充series對象,獲取lineData數據,設置圖表顯示類型為
‘line’、設置線條顯示平滑,標記大小為6的三角形、設置折線圖文字顯
示(將文字顏色設置為#999999、文字大小設置為:12)、將“X市X區70至
100平米月租價格”對象中的數據設置為折線顯示數據。
運行網頁,附上“X市X區70至100平米月租價格折線圖”截圖與相關
代碼截圖。
子任務3:餅圖數據分析和可視化
使用大數據應用與服務平臺的數據分析與可視化工具或者打開ZZ40-
M3-T3文件夾,文件夾中包含visualization項目目錄。打開visualization
項目,編寫補充代碼,實現Web網頁形式對X市各區租房數量進行可視化展
示。
將餅圖截圖,截圖參考如下:
5
根據visualization/data/data.js文件中pieData對象中的數據,補
充完整visualization/js/chat.js文件中getPieChart()函數的代碼,實現
“X市各區租房數量餅圖”顯示:
1.編寫補充legend對象,獲取pieData數據,設置圖例的朝向為:垂
直顯示、設置圖例在X軸方向上的位置為右、設置圖例上顯示的文字信息為:
六個區名稱、設置圖例文字顏色為:#999999,大小為:12。
2.編寫補充series對象,獲取pieData數據,xAxis、設置圖表的標題
和圖表類型、設置餅圖半徑為['30%','70%']、設置餅圖高亮狀態,標簽文
字顏色:#999999,大?。?4,居中顯示、將‘六個城市的在售房子套數’
對象中的數據設置為餅圖顯示數據。
運行網頁,附上“X市各區租房數量”截圖與相關代碼截圖。
任務二:業務分析
子任務1:SQL語句業務分析
打開數據庫管理工具,使用SQL語句對mysql數據庫下task3的
house_renting表中的數據進行查詢統計。house_renting表結構參考ZZ40-
M3-T4目錄下“數據庫表結構.docx”文檔。
1.根據house_renting表的數據,使用SQL語句查詢統計租房價格的具
體數據,并生成視圖:
1)根據位置和價格計算每個位置的平均租房價格。
2)取平均租房價格最高的三個進行顯示。
6
3)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030中國具身智能行業市場分析及技術發展情況與投資前景預測研究報告
- 2025-2030中國兒童房家具行業市場深度調研及發展潛力與投資研究報告
- 2025-2030中國俱樂部管理軟件與系統行業市場發展趨勢與前景展望戰略研究報告
- 2025-2030中國便攜打印機行業市場發展分析及發展趨勢與投資戰略研究報告
- 2025-2030中國體育用品行業市場發展分析及前景趨勢與投資研究報告
- 2025-2030中國低麩質啤酒市場營銷渠道與未來經營效益分析研究報告
- 2025-2030中國低壓泄壓閥行業市場現狀供需分析及投資評估規劃分析研究報告
- 2025-2030中國伊利石行業經銷模式及競爭策略展望分析研究報告版
- 2025-2030中國代駕行業市場全景調研與投資前景預測報告
- 2025-2030中國乳酸行業市場現狀供需分析及投資評估規劃分析研究報告
- 第四課 人民民主專政的社會主義國家 課件-高考政治一輪復習統編版必修三政治與法治
- 2025年鄭州黃河護理職業學院單招職業適應性考試題庫帶答案
- 旋流風口RA-N3選型計算表格
- 2024年10月自考01685動漫藝術概論試題及答案含評分參考
- 2024年全國統一高考英語試卷(新課標Ⅰ卷)含答案
- Unit7ArtLesson3AMusicalGenius(第一課時)教學設計高中英語北師大版
- 2020年民辦中學小升初提前招生考試語文數學整套試卷及答案
- 原子物理學:第6章 第5節 塞曼效應
- 景觀人行吊橋(懸索橋)施工組織設計
- 八大特殊作業試題及答案
- 二氧化碳爆破方案
評論
0/150
提交評論