




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
…………………………密…………封…………………線………………………系部_______系部_________________________專業_______________________班級_________________________姓名______________________學號___________________序號__________________……………………密………………封………………線……………………第4頁(共4頁)第3頁(共4頁)系部系部___________________專業____________________班級___________________姓名___________________學號___________________序號__________________……………密…………封………………線……………………第1頁(共4頁)《大數據基礎》(課程代碼:)得分評卷人單項選擇題(每題2分,共20分)1、當前大數據技術的基礎是由()首先提出的。。A:微軟B:百度C:谷歌D:阿里巴巴2、大數據的起源是()。A:金融B:電信C:互聯網D:公共管理3、大數據的最顯著特征是()。A:數據規模大B:數據類型多樣C:數據處理速度快D:數據價值密度高4、美國海軍軍官莫里通過對前人航海日志的分析,繪制了新的航海路線圖,標明了大風與洋流可能發生的地點。這體現了大數據分析理念中的()。A:在數據基礎上傾向于全體數據而不是抽樣數據B:在分析方法上更注重相關分析而不是因果分析C:在分析效果上更追究效率而不是絕對精確D:在數據規模上強調相對數據而不是絕對數據5、下列關于舍恩伯格對大數據特點的說法中,錯誤的是()。A:數據規模大B:數據類型多樣C:數據處理速度快D:數據價值密度高6、當前社會中,最為突出的大數據環境是()。A:互聯網B:物聯網C:綜合國力D:自然資源7、在數據生命周期管理實踐中,()是執行方法。A:數據存儲和備份規范B:數據管理和維護C:數據價值發覺和利用D:數據應用開發和管理8、下列國家的大數據發展行動中,集中體現“重視基礎、首都先行”的國家是()。A:美國B:日本C:中國D:韓國9、下列關于大數據的分析理念的說法中,錯誤的是()。A:在數據基礎上傾向于全體數據而不是抽樣數據B:在分析方法上更注重相關分析而不是因果分析C:在分析效果上更追究效率而不是絕對精確D:在數據規模上強調相對數據而不是絕對數據10、萬維網之父是()。A:彼得·德魯克B:舍恩伯格C:蒂姆·伯納斯-李D:斯科特·布朗得分評卷人填空題(每空2分,共10分)IBM公司用3個V來描述大數據的三個基本特征,這3V是、、.大數據環境下的隱私擔憂,主要表現為。當前大數據技術的基礎包括、、.數據倉庫的最終目的是按照涉及自變量的多少,可以將回歸分析分為、.得分評卷人判斷題(每題2分,共20分)1、在噪聲數據中,波動數據比離群點數據偏離整體水平更大。()2、對于大數據而言,最基本、最重要的要求就是減少錯誤、保證質量。因此,大數據收集的信息量要盡量精確。()3、一般而言,分布式數據庫是指物理上分散在不同地點,但在邏輯上是統一的數據庫。因此分布式數據庫具有物理上的獨立性、邏輯上的一體性、性能上的可擴展性等特點。()4、具備很強的報告撰寫能力,可以把分析結果通過文字、圖表、可視化等多種方式清晰地展現出來,能夠清楚地論述分析結果及可能產生的影響,從而說服決策者信服并采納其建議,是數據分析能力對大數據人才的基本要求。()5、谷歌流感趨勢充分體現了數據重組和擴展對數據價值的重要意義。()6、決策樹是一種基于樹形結構的預測模型,每一個樹形分叉代表一個分類條件,葉子節點代表最終的分類結果,其優點在于易于實現,決策時間短,并且適合處理非數值型數據。()7、信息生命周期管理是據生命周期管理的來源,最早由英國企業提出。()8、簡單隨機抽樣,是從總體N個對象中任意抽取n個對象作為樣本,最終以這些樣本作為調查對象。在抽取樣本時,總體中每個對象被抽中為調查樣本的概率可能會有差異。()9、啤酒與尿布的經典案例,充分體現了實驗思維在大數據分析理念中的重要性。()10、對于企業來說,給用戶進行各種促銷或者實施運營策略的時機也比較重要,而且對不同興趣偏好的用戶最好集中處理。()得分評卷人簡答題(每題10分,共40分)1、搜索引擎的產生和發展經歷了哪幾個階段?試簡述各階段的特點。2、大數據時代數據的存儲與管理與傳統數據存儲方式有何區別?3、常用的數據整理技術有哪些?4、簡述大數據存儲的概念。《大數據基礎》(課程代碼:)得分評卷人單項選擇題(每題2分,共20分)1、搜索引擎中用戶查詢所得的信息是()。A.直接在互聯網中獲取的B.存儲在網絡數據庫中的C.來自某個網站的D.與網頁連接顯示的2、對于搜索引擎蜘蛛(Google稱之為機器人)程序來講有三種頁面非常重要,以下哪種頁面不屬于其中?()A.從未抓取過的新頁面B.頁面內容之前被采集過但有所改動的頁面C.已被刪除掉的之前被采集過的頁面D.搜索引擎蜘蛛的起始頁面3、以下不屬于搜索引擎評價指標的是()。A.查全率B.查準率C.響應速度D.下載速度4、不屬于大數據主要的存儲模型的是()。A.關系型數據庫B.列式數據庫C.鍵值存儲D.視頻數據庫5、不屬于關系型數據庫的是()。A.OracleB.
SybaseC.DB2D.MicrosoftSQLServer6、數據存儲方式有()。A.在線存儲B.近線存儲C.異地備份D.以上皆對7.以下不屬于大數據基本特征的是()。A.數據規模龐大B.數據的形式多樣化C.數據的獲取及處理速度快D.數據的處理具有實時性8.數據挖掘中關聯規則分析最典型的算法是()。A.KNN算法B.Na?veBayes算法C.k-means算法D.Aprior算法9、不屬于數據可視化展現方式()。A.魚骨圖B.柏拉圖C.回歸圖D.直方圖10、大數據可視化分析工具有()。A.WordB.PPTC.ExcelD.GooglePinyin得分評卷人填空題(每空2分,共10分)1、MapReduce的架構分為、、和這四個組件。2、威脅數據安全的主要因素有:、和。3、在數據挖掘的分類算法中比較典型的算法是_______算法和________算法。4、.搜索引擎工作工程主要包括三個階段,分別是網頁搜集階段,和用戶查詢服務階段。得分評卷人判斷題(每題2分,共20分)決策樹是一種基于樹形結構的預測模型,每一個樹形分叉代表一個分類條件,葉子節點代表最終的分類結果,其優點在于易于實現,決策時間短,并且適合處理非數值型數據。()大數據可以分析與挖掘前之前人們不知道或者滑注意到的模式,可以從海量數據中發展趨勢,雖然也有不精準的時候,但并不能因此而否定大數據挖掘的價值()信息生命周期管理是據生命周期管理的來源,最早由英國企業提出。()在大數據的蕩疇內,應該把用戶視為互聯網中的數據分子,獨立、細致地對其行為進行()大數據可以分析與挖掘前之前人們不知道或者滑注意到的模式,可以從海量數據中發展趨勢,雖然也有不精準的時候,但并不能因此而否定大數據挖掘的價值()當前,企業提供的大數據解決方案大多基于Hadoop開源項目()大數據可以分析與挖掘前之前人們不知道或者滑注意到的模式,可以從海量數據中發展趨勢,雖然也有不精準的時候,但并不能因此而否定大數據挖掘的價值()在噪聲數據中,波動數據比離群點數據偏離整體水平更大。()9、第三方數據處理模式表現為:服務商通過軟件即服務或平臺即服務形式主義為用戶提供自己的數據上服務商的平臺上,由平臺進行分析處理,用戶可以在線查看相應的結果()10、簡單隨機抽樣,是從總體N個對象中任意抽取n個對象作為樣本,最終以這些樣本作為調查對象。在抽取樣本時,總體中每個對象被抽中為調查樣本的概率可能會有差異。()得分評卷人簡答題(每題10分,共40分)1、根據自己的理解畫出HDFS文件系統中文件讀取的流程,并解釋其中的各個步驟。2、簡述搜索引擎索引系統的形成過程。3、大數據分析中重要的五個方面分別指什么?它們各自完成的任務有哪些?4、大數據的安全機制可從哪些方面提高?A卷答案單項選擇題(每題2分共20分)題號12345678910答案ccabdabcdb填空題(每空2分共20分)體量,速度,多樣性個人信息的被識別與暴露分布式文件系統,分布式并行計算,分布式數據庫為用戶和業務部門提供決策支持多元回歸分析,一元回歸分析三、判斷題(每個2分,共20分)FFTFFTFFFF四、簡答題(每題10分共40分)1搜索引擎的產生和發展經歷了哪幾個階段?試簡述各階段的特點。答:早期出現的搜索引擎只是檢索FTP網站文件的程序,隨后的搜索引擎開始收錄網絡地址形成分類目錄,后續的發展中搜索引擎開始收錄標題,目前的搜索引擎,已經發展到抓取網頁全文階段。2大數據時代數據的存儲與管理與傳統數據存儲方式有何區別?答:傳統數據管理方法的局限性及大數據的現實條件促使新的數據庫設計的出現,在新的數據庫設計中,原本數據庫模式中存在的記錄和預設場域(成規數據的整齊排列)的規律被替代。大數據為適應信息發展的需要,運用非關系型數據庫作為一種新型數據庫設,它不需要預先設定記錄結構,同時允許處理規模龐大、結構復雜的數據。3常用的數據整理技術有哪些?回退模型可視化相關性變化分析差異分析預測群集技術決策樹神經網絡4簡述大數據存儲的概念。數據存儲是指數據流在加工過程中產生的臨時文件或需要查找的信息的存儲。數據以某種格式記錄在計算機內部或外部存儲介質上。數據存儲要命名,這種命名要反映信息特征的組成含義。數據流反映了系統中流動的數據,表現出動態數據的特征;數據存儲反映系統中靜止的數據,表現出靜態數據的特征。B卷答案單項選擇題(每題2分共20分)題號12345678910答案BBDDBDDDCC填空題(每空2分共20分)1、客戶端、JobTracker、TaskTracker、分布式文件系統2、網絡黑客和病毒攻擊威脅、信息資源泄露威脅、網絡漏洞威脅3、Na?veBayes算法,KNN算法。4、檢索信息生成階段。三、判斷題(每個2分,共20分)TTFFTTTFFF四、簡答題(每題10分共40分)1、根據自己的理解畫出HDFS文件系統中文件讀取的流程,并解釋其中的各個步驟。如上圖所示,HDFS客戶端首先要訪問NameNode,并告訴它所要讀取的文件,在這之前,HDFS會對客戶的身份信息進行驗證。驗證的方式有兩種:一種是通過信任的客戶端,由其指定用戶名;第二種方式是通過諸如Kerberos等強制驗證機制來完成。接下來還需要檢查文件的所有者及其設置的訪問權限。當文件確實存在,且該用戶對其有訪問權限時,NameNode會告訴HDFS客戶端這個文件的第一個數據塊的標號及保存有該數據塊的DataNode列表。這個列表是DataNode與HDFS客戶端間的距離進行的排序。有了數據塊標號和DataNode的主機名,HDFS客戶端便可以直接訪問最合適的DataNode,讀取所需要的數據塊。這個過程會一直重復直到該文件的所有數據塊讀取完成或HDFS客戶端主動關閉了文件流。2、簡述搜索引擎索引系統的形成過程。答:1)提取關鍵詞:通過結構化、消噪去除掉網頁中所有的格式代碼,同時去除非正文關鍵詞或停用詞,網頁的主文字內容后應用自身的分詞系統,將此文分成一個分詞列表,然后存儲在數據庫中,并與此文的URL進行一一對應2)倒排文件建立索引:在不同索引詞組成的索引表中記錄索引詞ID號,表明匹配該索引詞的文檔數量,并匹配文檔在記錄文件內的偏移量,通過這偏移量就可以讀取記錄文件對應區域的信息。3)對網頁完成重要度分析并完成排名3、大數據分析中重要的五個方面分別指什么?它們各自完成的任務有哪些?答:1)可視化分析:運用一些數據分析的工具將數據轉化為圖的形式,達到“看圖說話”的效果。2)數據挖掘算法:運用挖掘算法處理海量的數據并更加科學地呈現出數據本身具備的特點。3)預測性分析能力:作用是讓數據分析員可以根據數據可視化分析和數據挖掘計算所得結果對未來的相關事物做出一些預測性的判斷。4)語義引擎:借助語義引擎,可從用戶的搜索關鍵詞、標簽關鍵詞或其他輸入語義,分析、判斷用戶需求5)數據質量和數據管理:高質量的數據和有效的數據管理,無論是在學術研究還是在商業應用領域,都能夠保證分析結果的真實和有價值。4大數據的安全機制可從哪些方面提高?答:大數據的安全機制可從網絡安全、數據安全、應用安全、終端安全等各個管理角度加強大數據的安全防范。(1)網絡安全網絡是輸送大數據資源的主要途徑,通過強化網絡基礎設施安全保障,可以提高大數據環境的安全。可從如下四個方面加強網絡安全的保障措施:一是通過訪問控制,以用戶身份認證為前提,實施各種策略來控制和規范用戶在系統中的行為,從而達到維護系統安全和保護網絡資源的目的;二是通過鏈路加密,建立虛擬專用網絡,隔離公用網絡上的其他數據,防止數據被截取;三是通過隔離技術,對數據中心內、外網絡區域之間的數據流量進行分析、檢測、管理和控制,從而保護目標數據源免受外部非法用戶的侵入訪問;四是通過網絡審計,監聽捕獲并分析網絡數據包,準確記錄網絡訪問的關鍵信息,通過統一的策略設置的規則,智能地判斷出網絡異常行為,并對異常行為進行記錄、報警和阻斷,保護業務的正常運行。(2)虛擬化安全虛擬化技術是大數據概念的一個基礎組成部分,它加強了基礎設施、軟件平臺、業務系統的擴展能力,同時也使得傳統物理安全邊界逐漸缺失。加強虛擬環境中的安全機制與傳統物理環境中的安全措施,才能更好地保障在虛擬化基礎之上為大數據提供的各類應用和服務的安全。可從如下兩個方面加強虛擬化安全的保障措施:一是在虛擬化軟件層面建立必要
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 信陽師范大學《液壓與氣壓傳動1》2023-2024學年第二學期期末試卷
- 煙臺汽車工程職業學院《波斯語報刊選讀》2023-2024學年第二學期期末試卷
- 江西工業貿易職業技術學院《中醫眼科學》2023-2024學年第一學期期末試卷
- 四川外國語大學成都學院《ERP供應鏈管理》2023-2024學年第二學期期末試卷
- 江蘇省海安市2025屆高三下第一次階段性檢測試題生物試題含解析
- 江西應用科技學院《PROE三維機械設計》2023-2024學年第二學期期末試卷
- 二零二五版美團會員服務協議
- 二零二五經營場地租賃協議書范例
- 二零二五版投資理財協議
- 二零二五版投資人入股協議書
- BRC內部審核檢查表(BRC內審檢查表)
- 古建筑修繕施工質量控制方案
- 綜合應用能力事業單位考試(綜合管理類A類)試題與參考答案(2025年)
- 周杰倫職業規劃
- DB21T 2481-2015 水利工程單元工程施工質量檢驗與評定標準-農村水利工程
- 湖北省武漢市武昌區2025屆高考數學考前最后一卷預測卷含解析
- 專題03全等模型-手拉手模型(原卷版+解析)
- 慢性高血壓并發子癇前期病因介紹
- 【MOOC】手把手教你學自控-《自動控制原理》要點剖析-蘇州城市學院 中國大學慕課MOOC答案
- 沿街商鋪、合用場所消防安全培訓課件
- 靜脈炎的預防及處理-李媛
評論
0/150
提交評論