單元測試2:大數據處理與分析技術II試題及答案_第1頁
單元測試2:大數據處理與分析技術II試題及答案_第2頁
單元測試2:大數據處理與分析技術II試題及答案_第3頁
單元測試2:大數據處理與分析技術II試題及答案_第4頁
單元測試2:大數據處理與分析技術II試題及答案_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、單元測試2:大數據處理與分析技術II基本信息:矩陣文本題 *姓名:_部門:_員工編號:_1. MapReduce設計的一個理念就是“計算向數據靠攏”。 判斷題 *對(正確答案)錯2. 目前數據實驗的統(tǒng)計結果表明:正向匹配的切分精度略高于逆向匹配。 判斷題 *對錯(正確答案)答案解析:逆向匹配的切分精度略高于正向匹配3. 兩個鍵值對和,如果對其進行歸并(merge),會得到,如果對其進行合并(combine),會得到a, 判斷題 *對錯(正確答案)答案解析:兩個鍵值對和,如果合并,會得到,如果歸并,會得到“a”,4. 所謂Shuffle過程,是指對Map輸出結果進行分區(qū)、排序、合并等處理,并交給

2、Reduce的過程。 判斷題 *對(正確答案)錯5. 第三次信息化浪潮的標志是() 單選題 *個人電腦的普及云計算、大數據、物聯(lián)網技術的普及(正確答案)虛擬現實技術的普及互聯(lián)網的普及6. 以下關于云計算、大數據和物聯(lián)網之間的關系,論述錯誤的是: 單選題 *云計算側重于數據分析(正確答案)物聯(lián)網可以借助于云計算實現海量數據的存儲物聯(lián)網可以借助于大數據實現海量數據的分析云計算、大數據和物聯(lián)網三者緊密相關,相輔相成答案解析:大數據側重于海量數據的存儲、處理與分析,從海量數據中發(fā)現價值,服務于生產和生活;云計算本質上旨在整合和優(yōu)化各種IT資源,并通過網絡以服務的方式廉價提供給用戶;物聯(lián)網的發(fā)展目標是實

3、現物物相連,應用創(chuàng)新是物聯(lián)網發(fā)展的核心。7. 每種大數據產品都有特定的應用場景,以下哪個產品是用于流計算的 單選題 *GraphXS4(正確答案)ImpalaHive答案解析:S4: Yahoo!的分布式流計算平臺8. 以下哪個不是Hadoop的特性: 單選題 *成本高(正確答案)支持多種編程語言高容錯性高可靠性9. 以下哪個不是大數據時代新興的技術: 單選題 *SparkHadoopHBaseMySQL(正確答案)10. 關于Hadoop技術描述錯誤的是?() 單選題 *HDFS是一個分布式文件系統(tǒng)聯(lián)盟鏈HDFS適合存儲大量的小文件(正確答案)HDFS存儲空間由數據節(jié)點數決定答案解析:A選項

4、是定義.B選項說的聯(lián)盟鏈指HDFS中的聯(lián)盟,Hdfs federation實際是把多個hdfs集群統(tǒng)一到一個命名空間下。Hdfs federation 作用擴大NN容量,共享DN數據,且方便客戶端訪問。C選項是錯誤的,HDFS小文件存儲問題一直是一個令人頭疼的問題,因為HDFS是基于大數據存儲的,但是它還需要存儲元數據信息,無論數據量多大,元數據量是差不多的,所以最好是存儲大文件,而不是海量小文件,可以使用歸約和壓縮的方式進行解決D選項:存儲主要是由于DataNode決定,所以數據節(jié)點越多,存儲能力越強11. 采用多副本冗余存儲的優(yōu)勢不包含: 單選題 *保證數據可靠性容易檢查數據錯誤加快數據傳

5、輸速度節(jié)約存儲空間(正確答案)12. Hadoop集群中的HDFS的默認的副本塊的個數是? 單選題 *123(正確答案)4答案解析:HDFS集群采取分散存儲 + 冗余存儲的策略,用戶上到HDFS集群的文件,HDFS集群會為它存儲多份。默認是3份13. Spark 的四大組件下面哪個不是() 單選題 *SQL and DataFramesSpark StreamingMLlib (machine learning)GraphX (graph)是spark的四大組件Spark StreamingMlibGraphxSpark R(正確答案)14. Spark相比Hadoop的, 不是其優(yōu)勢的是()

6、 單選題 *DAG執(zhí)行引擎線程池模型增多task啟動開銷(正確答案)充分利用內存,減少磁盤IO更適合迭代計算答案解析:spark 比Hadoop快的原因:數據本地性、調度優(yōu)化、傳輸優(yōu)化,最主要的是基于內存計算和引入了DAG。Hadoop的計算結果在磁盤中,spark是在內存中;數據計算任務需要多個步驟時,Hadoop需要引入Oozie等工具,但是spark有DAGHadoop中,每一個job 的計算結果都會存儲在hdfs中,所以每一步計算都要進行硬盤的IO,大大增加了系統(tǒng)的延遲15. HDFS的是基于流數據模式訪問和處理超大文件的需求而開發(fā)的,默認的最基本的存儲單位是64M,具有高容錯、高可靠

7、性、高可擴展性、高吞吐率等特征,適合的讀寫任務是? 單選題 *一次寫入,少次讀出多次寫入,少次讀出一次寫入,多次讀出(正確答案)多次寫入,多次讀出答案解析:HDFS的設計初衷就是為將來的海量數據的分布式計算做鋪墊的,所以HDFS是一次寫入,多次讀出的場景16. MapReduce正確的流程順序是什么?() 單選題 *Map-Reduce-CombineReduce-Combine- MapMap-Combine- Reduce(正確答案)Combine- Reduce- Map答案解析:map函數操作所產生的鍵值對會作為combine函數的輸入,經combine函數處理后再送到reduce函數

8、進行處理,減少了寫入磁盤的數據量,同時也減少了網絡中鍵值對的傳輸量。17. 下列說法錯誤的是() 單選題 *Hadoop框架是用Java實現的,MapReduce應用程序則一定要用Java來寫(正確答案)Map函數將輸入的元素轉換成形式的鍵值對MapReduce框架采用了Master/Slave架構,包括一個Master和若干個Slave不同的Map任務之間不能互相通信答案解析:hadoop 通過hadoop streaming 的方式也可以調用其他編程語言實現的MR,例如c+等18. 在使用MapReduce程序WordCount進行詞頻統(tǒng)計時,對于文本行“hello hadoop hell

9、o world”,經過WordCount程序的Map函數處理后直接輸出的中間結果,應該是下面哪種形式: 單選題 *hello,、和(正確答案)、和、和、和答案解析:Map過程:對讀取的單詞進行map操作,每個詞都以形式生成19. 對于文本行“hello hadoop hello world”,經過WordCount的Reduce函數處理后的結果是() 單選題 *(正確答案)hello,答案解析:reduce操作是對map的結果進行排序,合并,最后得出詞頻。20. 大數據的特性包括: *價值密度低(正確答案)處理速度快(正確答案)數據類型繁多(正確答案)數據量大(正確答案)21. Hadoop的

10、兩大核心是?() *MapReduce(正確答案)HBaseHDFS(正確答案)GFS答案解析:Hadoop的兩大核心是HDFS和MapReduce,HDFS用來存儲數據,MapReduce用來處理數據。22. 回顧Hadoop的工作流程,可以發(fā)現Hadoop存在如下哪些缺點: *表達能力有限。計算都必須要轉化成Map和Reduce兩個操作,但這并不適合所有的情況,難以描述復雜的數據處理過程(正確答案)磁盤IO開銷大。每次執(zhí)行時都需要從磁盤讀取數據,并且在計算完成后需要將中間結果寫入到磁盤中,IO開銷較大(正確答案)沒有提供文件管理系統(tǒng),必須和其他的分布式文件系統(tǒng)進行集成才能運作延遲高。一次計

11、算可能需要分解成一系列按順序執(zhí)行的MapReduce任務,任務之間的銜接由于涉及到IO開銷,會產生較高延遲(正確答案)23. 關于NoSQL數據庫和關系數據庫,下列說法正確的是: *NoSQL數據庫可以支持超大規(guī)模數據存儲,具有強大的橫向擴展能力(正確答案)NoSQL數據庫和關系數據庫各有優(yōu)缺點,但隨著NoSQL的發(fā)展,終將取代關系數據庫大多數NoSQL數據庫很難實現數據完整性(正確答案)關系數據庫有關系代數理論作為基礎,NoSQL數據庫沒有統(tǒng)一的理論基礎(正確答案)答案解析:如果源數據格式是 SQL 數據,沒法控制;數據量小;數據間交叉引用關系復雜;查詢模式豐富;應用又不需要高性能;不擔心機器故障等高可用性問題,那么繼續(xù)沿用關系型數據庫也是一個務實的選擇。24. NoSQL數據庫的類型包括: *鍵值數據庫(正確答案)列族數據庫(正確答案)文檔數據庫(正確答案)圖數據庫(正確答案)25. 分詞任務中,主要的難點在于() *未登陸詞識別(正確答案)穩(wěn)定劃分歧義切分(正確答案)短文本長文本26. 假設,有以下4種標簽:B

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論