多易spark含kafka-面試總結_第1頁
多易spark含kafka-面試總結_第2頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

RDDRDDRDD中的數據在哪?RDD中的數據在數據源,RDD只是一個抽象的數據集,通RDD的操作就相當于對數據進行操作。RDDcachecache算子時會被加載SparkSpark不是一個程序,Spark是一個分布式程序,它是有ExecutorRDDcacheExecutor進程Mapreduce是一個程序嗎?MapreduceHadoopFlumeHDFSSink的參數?batchSize是設置積累到多少條Event再發HDFS,這些Event都在一個事務中。batchSizetransactionCapacity的數量,如transactionCapacity的數量則會無法將數據寫出。#Flume數據到Kafka中丟數據怎么辦?離線和實時都做,從離線里memoryChannel的參數?transactionCapacityflumecapacity是設置在memoryChannel中的最大Event條數SparkStreaming在實時處理數據時不可能申請API,只能事先在本地建立知識庫,MySQLRedis?需要進行多條件查詢或者范圍檢索MySQLK,VRedis中。MrmapTask的數量由什么決定?由輸入切片的數量決定,128M切分一個切片,只mapTask。SparkPartitionMrSparkScala里面的函數和方法有什么區別?ScalaFunction類,java中的方法。Java存中獲取,而迭代器是一個對象,實現了Iterator接口,實現了接口的hasNext和NextSparkonyarnHBaseregion的關系?HBase有多個RegionServer,每個RegionServer里有多個RegionRegion中存放著若干行的行鍵以及所對應的數據,一個列族是一個文件SparkGraphx調的哪個類,傳哪些參數?調Grapx類,通過apply方法傳入一個點描述RDD和一個邊描述RDD,然后通過Grapx的實例調用 ponents方法就可以返回一個只要有相連關系就會有同一個頂點id的RDD。Spark內存溢出?Spark程序本身不會內存溢出,是代碼的問題,有可能創建了過多的端單獨寫了一個類去HDFS中數據超過內存。總之內存溢出分為兩種情況,第一mapshuffle后內存溢出。JavaThreadrunRunnablerunCallablecallFutureTask對象,使用FutureTask對象作為Thread對象的創建并啟用新線程10100如果線程池中只有10個線程,但丟進去100個任務,固定大小的線程池是1010100同時執行完,單線程是一個一個執行線程有5種生命周期狀態,新建、就緒、運行、、阻塞(休眠)RamdomAcessFileMRshuffle過程,Combiner在哪使用,reduceIo流怎么文件?InputStream是類還是接口?Io流使用InputStream輸入流來數據,InputStream是一個抽象類HashMap和TreeMap的區別?TreeMap排序規則?TreeMapCompare實時離線都要,等于要兩份數據,而使用了kafka的話,只需要從日志服務器上一份數據,然后在kafka中使用不同的兩個組就行了SparkHadoop幾種回收器的區別?串行回收器單線程執行回收,并凍結所有的應用程序線-并行回收多線程執行回收,并凍結所有應用程序線并發標記回收用對象在tenured區域或者在進行回收的時候,堆內存被并發的改變,該回收程序的吞吐量,如果為了更好的程序性能使用的cpu,可以考慮使用-G1回收適用于內存很大的情況,他對堆內存分割成不同區域,并且并發的對其進行回收,然后對剩余的堆內存進行壓縮,優先選擇最多的區域。使用G1回收器,-幾種回收算法的區別?先標記出需要清除的對象,然后清Flume怎么進行Kafka怎么進行SparkStreaming怎么進行Flume的三層架構,collector、agent、MySQL分組10.1~10.27uid,表中兩個字段,date550GIP分兩輪MR,第一輪Map階段寫(ip,1),Reduce階段設置1000個,將Map端的輸出結果聚合。然后再來一輪MR,在Map階段定義一個TreeSet,長度為10,一旦超過就移除最后一個,這樣就可以將每個輸入切片的top10取出,在Reduce端和Map端一Top10HDFS讀寫流寫入流程:例200MB的文件,輸入時Client按照默認大小將其切分為Block1:128MBBlock2:72MBClient向客戶端發送寫數據請求,NameNode記錄block的信息,并DataNode返回NameNode具有RackAware機架感知功能,這個可以配置若client為DataNode節點,那block時,規則為:副本1,同client的節點上;若client不為DataNode節點,那block時,規則為:副本1,隨機選擇一個節點上;副本2,不同副本1,機架上;副本3,同副本2相同的另一個節點上;其他副本隨HDFS128MBhost2、host2寫完后傳輸給host1host1寫完后傳輸給host3同時接收下一部分數據。Bloc

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論