



版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、精品文檔學生的課程總評成績由平時成績(占50%)和期末考試成績(50%)兩部分構成。1、 平時成績依據課上小測驗2 次,每次占10%;2、 提交創新性報告2 份,每份10%;3、 提交 1 次小論文,占10%。4、 最后的開卷考試,成績占50%。網絡計算基本概念分布式對象計算Web計算XMLWeb Services無線與移動計算云計算大數據及分析要求:1、請同學們提交2 份創新報告,每份不少于800 字,打印簽名及學號。內容以上面8 個主題為目標,自選題目。2、請同學們提交1 份小論文, 字數不少于1500 字,打印簽名及學號。內容以上面8 個主題為目標,自選題目,不要與創新報告內容重復。3、
2、按時參加考試, 注意考試時間與地點,考試當天每人交來3 份報告(打印、 簽名及學號) 。開卷考試,自帶資料,要求字跡工整,內容詳實,認真書寫。一:將會從以下簡述題中選擇部分。1、 闡述分布式核心技術中的分布式計算、并行計算、云計算的基本概念,以及各自的技術核心特點?概念:( 1) 分布式計算: 將需要巨大計算能力的問題分成許多小部分分布到多臺計算機進行處理,最后綜合結果。( 2) 并行計算: 同時使用多種計算資源解決計算問題的過程。( 3) 云計算: 云計算是一種商業計算模型。它將計算任務分布在大量計算機構成的資源池上,使各種應用系統能夠根據需要獲取計算力、存儲空間和信息服務。核心特點:( 1
3、) 分布式計算: 需要多臺聯網的分布在各處的計算機協同處理。并行的主體是計算機( 2) 并行計算: 一般而言,指時間或者空間上并行。如流水線技術或強調單計算機多核處理。并行的主體是處理器。( 3) 云計算: 云計算是上述兩種計算的商業發展。關鍵在能夠對云內的基礎設施等資源(資源池)進行動態按需分配與管理。精品文檔精品文檔2、 闡述移動計算的基本概念與技術特點?移動計算與分布式計算有何區別?概念:移動計算 是使得人們可以在任何時間地點以任何方式接入網絡服務的技術集。 它使計算機或其它信息智能終端設備在無線環境下實現數據傳輸及資源共享,它的作用是將有用、準確、及時的信息提供給任何時間地點的任何客戶
4、。區別:與分布計算相比,移動計算具有以下一些主要特點:(1) 移動性:移動計算機在移動過程中可以通過所在無線單元與固定網絡的節點或其他移動計算機連接。(2) 網絡條件多樣性:移動計算機在移動過程中所使用的網絡一般是變化的。(3) 頻繁斷接性:由于受電源、無線通信費用、網絡條件等因素的限制,移動計算機是主動或被動地間連、斷接。(4) 網絡通信的非對稱性:移動節點的發送能力較弱。因此,下行鏈路和上行鏈路的通信帶寬和代價相差較大。(5) 移動計算機的電源能力有限(6) 可靠性低: 這與無線網絡本身的可靠性及移動計算環境的易受干擾和不安全等因素有關。3、 闡述 Google 云計算原理中的Chubby
5、 的設計目標是什么?Chubby 是 Google 設計的提供粗粒度鎖服務的一個文件系統, 它基于松耦合分布式系統,解決了分布的一致性問題。設計目標如下:(1)高可用性和高可靠性;首要目標,在保證這一目標的基礎上再考慮系統的吞吐量和存儲能力;(2)高擴展性;將數據存儲在價格較為低廉的RAM ,支持大規模用戶訪問文件( 3) 支持粗粒度的建議性鎖服務;提供這種服務的根本目的是提高系統的性能( 4) 服務信息的直接存儲;可直接存儲包括元數據、系統參數在內的有關服務信息( 5) 支持通報機制;客戶可以及時地了解到事件發生( 6) 支持緩存機制;通過一致性緩存將常用信息保存在客戶端,避免了頻繁地訪問主
6、服務器4、 闡述 Paxos 算法在 Chubby 中起什么作用?簡述Paxos 算法的原理?作用: Chubby 設計者借鑒了Paxos的兩種解決機制:給協調者指派序號或限制協調者可以選擇的值。原理: 1、選擇一副本為協調者。2、協調者從客戶提交的值中選擇一個,accept 消息廣播給所有的副本,其他的副本收到廣播后,選擇接受或者拒絕這個值,并將決定結果反饋。3、協調者收到大多數副本接受信息后,認為達到了一致性,接著向相關副本發送一個 commit 消息 。精品文檔精品文檔5、 闡述 Google 云計算原理中的Bigtable 數據模型和系統架構?數據模型Bigtable 是一個分布式多維
7、映射表,表中的數據通過一個行關鍵字(Row Key )、一個列關鍵字(Column Key )以及一個時間戳(Time Stamp)進行索引Bigtable 對存儲在其中的數據不做任何解析,一律看做字符串Bigtable 的存儲邏輯可以表示為:(row:string, column:string, time:int64) string“ ”“ ”“ my.look.ca ”“ n.www ”“ <html> ”t3“<html> ”t5“ CNN ”t9“ CNN.com ”t8“ <html>”t6系統架構Bigtable 客戶端Bigtable 主服務器
8、Bigtable 客戶端程序庫執行元數據操作及負載平衡執行 Open()操作Bigtable 子表服務器Bigtable 子表服務器Bigtable 子表服務器處理數據處理數據處理數據Google WorkQueueGFSChubby負責元數據存儲及負責故障處理及監控保存子表數據及日志主服務器的選擇Bigtable 主要由三個部分組成:客戶端程序庫、一個主服務器和多個子表服務器客戶訪問 Bigtable 服務時,首先要利用其庫函數執行 Open() 操作來打開一個鎖 (實際上就是獲取了文件目錄) ,鎖打開以后客戶端就可以和子表服務器進行通信和許多具有單個主節點分布式系統一樣,客戶端主要與子表服
9、務器通信,幾乎不和主服務器進行通信,這使得主服務器的負載大大降低主服務主要進行一些元數據操作以及子表服務器之間負載調度問題,實際數據是存儲在子表服務器上精品文檔精品文檔6、闡述 Google 云計算原理中的分布式存儲系統Megastore 的核心技術是什么?核心技術是復制。簡述如下:Megastore 的數據復制是通過paxos 進行同步復制的,也就是如果更新一個數據,所有機房都會進行同步更新,因為使用paxos 進行復制,所以不同機房針對同一條數據的更新復制到所有機房的更新順序都是一致的,同步復制保證數據的實時可見性,采用 paxos 算法則保證了所有機房更新的一致性,所以個人認為megas
10、tore 的更新可能會比較慢,而所有讀都是實時讀 (對于不同機房是一致的),因為部署有多個機房,并且數據總是最新。7、闡述 Google 云計算原理中大規模分布式系統的監控基礎架構Dapper 關鍵技術是什么?關鍵技術是實現應用級的透明。對于應用的程序員來說,是不需要知道有跟蹤系統這回事的。如果一個跟蹤系統想生效,就必須需要依賴應用的開發者主動配合,那么這個跟蹤系統也太脆弱了,往往由于跟蹤系統在應用中植入代碼的bug 或疏忽導致應用出問題,這樣才是無法滿足對跟蹤系統“無所不在的部署”這個需求。 (這一段可以不要)做到這一點需要實現輕量級的核心功能庫和二次抽樣技術。輕量級核心功能庫:將Dappe
11、r 的核心監控實現限制在一個由通用線程(UbiquitousThreading)、控制流( Control Flow )和 RPC 代碼庫( RPC Library Code )組成的小規模庫基礎上。二次抽樣技術:第一次抽樣 實踐中,設計人員發現當抽樣率低至1/1024 時也能夠產生足夠多的有效監控數據,即在1024 個請求中抽取1 個進行監控也是可行的,從而可以捕獲有效數據第二次抽樣 發生在數據寫入Bigtable 前,具體方法是將監控id 散列成一個標量z(0 z 1),如果某個區間的z 小于事先定義好的匯總抽樣系數,則保留這個區間并將它寫入Bigtable ,否則丟棄8、闡述 Googl
12、e App Engine 提供了哪些服務? Google App Engine 的沙盒對開發人員進行哪些限制?服務:網址獲取、郵件服務、Memcache 服務、圖片操作、python 程序框架、數據庫服務、用戶管理服務等等。限制:( 1)用戶應用程序只能通過Google App Engine 提供的網址抓取API 和電子郵件服務API 來訪問互聯網中其他計算機;只能在標準接口上通過HTTP 或 HTTPS 來進行( 2)應用程序無法對 Google App Engine 的文件系統進行寫入操作, 只能讀取應用程序代碼上的文件, 并且該應用程序必須使用 Data Store 數據庫來存儲應用程序
13、運行期間持續存在的數據( 3)應用程序只有在響應網絡請求時才運行,且響應時間必須極短(幾秒之內完成)。同時,請求處理的程序不能在自己的響應發送后產生子進程或執行代碼精品文檔精品文檔9、闡述當前主流分布式文件系統有哪些?各有什么優缺點?Google 文件系統GFS 特點體現在哪?第一問:目前幾個主流的分布式文件系統除GPFS 外,還有 Hadoop HDFS 、Lustre、FastDFS 等。第二問:1.Hadoop HDFS優點 : 適合大數據處理(支持 GB,TB,PB 級別的數據存儲,支持百萬規模以上的文件數量)- 適合批處理(支持離線的批量數據處理,支持高吞吐率)- 高容錯性(以數據塊
14、存儲,可以保存多個副本,容易實現負載均衡)缺點:- 小文件存取(占用 namenode大量內存,浪費磁盤空間)- 不支持并發寫入(同一時刻只能有一個進程寫入,不支持隨機修改)2.Lustre優點: 是一個基于對象存儲的分布式文件系統,比較成熟,適合大型集群,支持動態擴展。缺點:它只有兩個元數據管理節點 ,當系統達到一定的規模之后,管理節點會成為 Lustre 系統中的瓶頸。3.FastDFS優點:以文件為基本存儲單位,解決了大容量存儲的問題。特別適合以文件為載體的在線服務,簡化文件的存取功能。缺點:難以并行化處理(一個節點只能處理一個文件,無法同時處理一個文件);-難以實現負載均衡(文件大小不
15、同,無法實現負載均衡,用戶需要自己控制文件大小)第三問:GPFS 的主要優點 有以下三點:1)使用分布式鎖管理和大數據塊策略支持更大規模的集群系統,文件系統的令牌管理器為塊、 inode、屬性和目錄項建立細粒度的鎖,第一個獲得鎖的客戶將負責維護相應共享對象的一致性管理,這減少了元數據服務器的負擔;2)擁有多個元數據服務器,元數據也是分布式,使得元數據的管理不再是系統瓶頸;3)令牌管理以字節作為鎖的最小單位,也就是說除非兩個請求訪問的是同一文件的同一字節數據 ,對于數據的訪問請求永遠不會沖突.10、闡述MapReduce 與傳統的分布式程序設計相比有何優點?例舉傳統分布式程序設計的優缺點?(真心
16、找不到,當然我也沒怎么理解,感覺傳統的分布式應該改為傳統的集中式,知道答案的補充一下)( 1)通過 MapReduce 這個分布式處理框架,能用于處理大規模數據。( 2)能將很多繁瑣的細節隱藏起來, 容錯率高。比如自動并行化、 負載均衡和災備管理等,這樣將極大地簡化程序員的開發工作;( 3) MapReduce 的伸縮性非常好;也就是說每增加一臺服務器,其就能將差不多的計算能力接入到集群中,傳統的在伸縮性方面都與MapReduce 相差甚遠。精品文檔精品文檔二:將會從以下敘述題中選擇題目解答。1、參照以下MapReduce 操作執行流程圖,請敘述MapReduce 操作過程?( 1)輸入文件分
17、成 M 塊,每塊大概 16M 64MB(可以通過參數決定) ,接著在集群的機器上執行分派處理程序( 2)M 個 Map 任務和 R 個 Reduce 任務需要分派, Master 選擇空閑 Worker 來分配這些 Map或 Reduce 任務( 3) Worker 讀取并處理相關輸入塊, Map 函數產生的中間結果 <key,value>對暫時緩沖到內存(4)中間結果定時寫到本地硬盤,分區函數將其分成R 個區。中間結果在本地硬盤的位置信息將被發送回Master ,然后 Master 負責把這些位置信息傳送給Reduce Worker( 5)當 Master 通知執行 Reduce
18、 的 Worker 關于中間 <key,value>對的位置時,它調用遠程過程,從 Map Worker 的本地硬盤上讀取緩沖的中間數據。當Reduce Worker 讀到所有的中間數據,它就使用中間key 進行排序,這樣可使相同key 的值都在一起。(6) Reduce Worker 根據每一個唯一中間key 來遍歷所有的排序后的中間數據,并且把key和相關的中間結果值集合傳遞給用戶定義的Reduce 函數。 Reduce 函數的結果寫到一個最終的輸出文件(7)當所有的 Map 任務和 Reduce 任務都完成的時候, Master 激活用戶程序。 此時 MapReduce 返回
19、用戶程序的調用點精品文檔精品文檔2、請參照以下“云計算仿真器cloudsim ”的體系結構,敘述其技術實現及使用方法?技術實現:1) BwProvisioner用于模擬虛擬機的帶寬分配策略。 可以通過擴展這個類反映其應用需求的變化, 實現自己的策略(基于優先級或服務質量)2) CloudCoordinator整合了云數據中心, 負責周期性地監控數據中心資源的內部狀態和執行動態負載均衡的決策3) Cloudlet模擬了云應用服務(如內容分發、社區網絡和業務工作流等) 。每一個應用服務都會擁有一個預分配的指令長度和其生命周期內所需的數據傳輸開銷4) CloudletScheduler擴展實現了多種
20、策略, 用于決定虛擬機內的應用服務如何共享處理器能力。 支持兩種調度策略:空間共享( CloudletSchedulerSpaceShared)和時間共享( CloudletSchedulerTimeShared )策略7) DatacenterCharacteristics包含了數據中心資源的配置信息8) Host模擬如計算機、存儲服務器等物理資源。它封裝了一些重要信息,如內存/ 存儲器的容量、處理器內核列表及類型(多核機器) 、虛擬機之間共享處理能力的分配策略、為虛擬機分配內存和帶寬的策略等9) NetworkTopology包含模擬網絡行為(延時)的信息。它里面保存了網絡拓撲信息,該信息
21、由BRITE拓撲生成器生成10) RamProvisioner代表為虛擬機分配主存的策略11) SanStorage模擬了云數據中心的存儲區域網,主要用于存儲大量數據,類似于Amazon S3、Azure blob精品文檔精品文檔storage 等12) Sensor該接口的實現必須通過實例化一個能夠被云協調器使用的傳感器組件,用于監控特定的性能參數(能量消耗、資源利用)。該接口定義了如下方法:(1)為性能參數設置最小值和最大值。(2)周期性地更新測量值。(3)該類能夠用于模擬由主流云提供商提供的真實服務13) Vm模擬由主機組件托管和管理的虛擬機14) VmAllocationPolicy代
22、表虛擬機監視器使用的調度策略,該策略用于將虛擬機分配給主機15) VmSheduler由一個主機組件實現,模擬為虛擬機分配處理核所用的策略(空間共享和時間共享)使用方法:( 1)初始化 CloudSim 包( 2)創建數據中心( 3)創建數據中心代理數據中心代理負責在云計算中根據用戶的QoS 要求協調用戶及服務供應商和部署服務任務(4)創建虛擬機對虛擬機的參數進行設置,主要包括ID、用戶ID、 MIPS、 CPU 數量、內存、帶寬、外存、虛擬機監控器、調度策略,并提交給任務代理(5)創建云任務創建指定參數的云任務,設定任務的用戶 ID,并提交給任務代理。在這一步可以設置需要創建的云任務數量以及
23、任務長度等信息( 6)在這一步調用自定義的任務調度策略,分配任務到虛擬機( 7)啟動仿真( 8)在仿真結束后統計結果精品文檔精品文檔3、技術應用題:假設有一批海量的數據,每個數據都是由 26 個字母組成的字符串,原始的數據集合是完全無序的,怎樣通過 MapReduce 完成排序工作,使其有序(字典序)呢?解答: 對原始的數據進行分割( Split ),得到 N 個不同的數據分塊, (做題畫最終的圖就好,三張圖可以融合畫)精品文檔精品文檔每一個數據分塊都啟動一個Map 進行處理。采用桶排序的方法,每個Map 中按照首字母將字符串分配到26 個不同的桶中,精品文檔精品文檔按照首字母將Map 中不同
24、桶中的字符串集合放置到相應的Reduce 中進行處理。 具體來說就是首字母為 a 的字符串全部放在 Reduce1 中處理,首字母為 b 的字符串全部放在 Reduce2,以此類推,精品文檔精品文檔4、基于分布式計算程序的Hadoop 可以運行于大型計算機集群上,請參照自己的理解與應用經歷描述Hadoop 集群的體系結構與方法、安裝配置主要支撐技術平臺等(可以圖形+解釋進行描述)?Hadoop 概述:? 基于 Apache 基金會下的一個開源項目, 致力于開發一個可靠的、 大規模的分布式計算框架? 用戶可采用簡單的計算模型在計算機集群下對大規模的數據進行分布式處理體系結構方法:在 Hadoop
25、 部署中,有三種服務器角色,他們分別是客戶端、Masters 節點以及 Slave 節點。 Master 節點, Masters 節點又稱主節點,主節點負責監控兩個核心功能:大數據存儲(HDFS )以及數據并行計算(Map Reduce )。其中, Name Node 負責監控以及協調數據存儲( HDFS)的工作, Job Tracker 則負責監督以及協調Map Reduce 的并行計算。而 Slave節點則負責具體的工作以及數據存儲。每個 Slave 運行一個Data Node 和一個Task Tracker 守護進程。 這兩個守護進程負責與 Master 節點通信。 Task Tracker 守護進程與Job Tracker 相互作用,而Data Node 守護進程則與Name Node 相互作用。上圖是一個典型的Hadoop 集群架構。這張圖中,Hadoop 集群以機架為單位存在,而每個機架頂部都會有一個交換機通過千兆網(或萬兆網) 與外部關聯。 我們通過上行鏈路將所有的機架鏈接在一起形成一個集群。在一個機架中,有些服務器作為Master 節點,例如Name Node 等等,而更多的則是Slave Node。精品文檔精品文檔下一個問題表示不懂老師問的啥?我就隨便找了一些答案了。支撐平臺
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 紡紗生產過程中的清潔生產實踐考核試卷
- 小麥加工對麩皮營養價值的影響考核試卷
- 環保工程環保產品認證與標識考核試卷
- 燃氣具行業智能化服務與物聯網技術考核試卷
- 印刷機智能檢測與控制系統的行業發展前景考核試卷
- 海洋油氣開采項目的生命周期管理考核試卷
- 內蒙古民族大學《測繪學概論》2023-2024學年第二學期期末試卷
- 江西財經大學《介入放射學》2023-2024學年第二學期期末試卷
- 山東管理學院《安裝工程估價及軟件應用水暖課程設計》2023-2024學年第二學期期末試卷
- 四川大學《數字特技》2023-2024學年第二學期期末試卷
- 第4章-選區激光熔化工藝及材料課件
- 2023屆高考寫作指導:“尋找溫暖”與“成為燈火”課件
- 2022年上海市工業技術學校招聘考試真題
- 臨時用電演示文稿
- 部編版語文一年級下冊第六單元大單元教學任務群設計
- JJG 646-2006移液器
- 部編小學語文六年級下冊古詩詞誦讀(十首)課件
- 建筑業十項新技術應用示范工程申報材料
- 版式設計概述+設計原則課件
- 平面構成課件完整版本
- 招商銀行智慧營銷體系規劃方案((2022年-2023年)-2022)
評論
0/150
提交評論