class1-并行計算簡介_第1頁
class1-并行計算簡介_第2頁
class1-并行計算簡介_第3頁
class1-并行計算簡介_第4頁
class1-并行計算簡介_第5頁
已閱讀5頁,還剩50頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

并行程序設計任課教師:主要內容

并行計算介紹

Linux

操作系統與編程環境

并行編程環境--MPI/OpenMP(重點)并行程序性能評價與優化

C

編程介紹

并行算法設計(數值計算)(重點)1.

什么是并行計算?傳統上,一般的軟件設計都是串行式計算:

軟件在一臺只有一個CPU的電腦上運行;問題被分解成離散的指令序列;指令被一條接一條的執行;在任何時間CPU上最多只有一條指令在運行在最簡單的情形下,并行計算是使用多個計算資源去解決可計算問題。

用多核CPU來運行;問題被分解成離散的部分可以被同時解決;每一部分被細分成一系列指令;每一部分的指令可以在不同的CPU上同時的執行;計算資源可以包括:多核CPU;任意數量的CPU用網絡連接起來;或者以上兩者結合;可并行計算問題通常展示出如下的特性:能分解成可以同時解決的離散的工作塊;同一時刻可以執行多條程序指令;通常用多個計算資源解決問題所花的時間要比單個計算資源要短;并行計算的用途在歷史上,并行計算被認為是高端計算,并用于為復雜的科學計算和基于真實世界的工程問題建模。大氣層、地球、環境物理學應用、核能、原子能、凝聚態、高壓、溶解、光電子;生物科學、生物工程、基因學化學、分子科學地理和地震學機械工程、從彌補術到空間飛行器電氣工程、電路設計、微電子學計算機科學、數學

今天,商務應用是推動快速計算機發展的更大的推動力。這些應用需要用復雜的方法處理大量數據。例如:數據庫、數據挖掘BigData石油勘探

網絡搜索引擎、基于網絡的商務服務醫學成像和診斷制藥設計國有企業或跨國企業的管理金融經濟建模虛擬現實

(娛樂,游戲主機等)網絡視頻和多媒體技術協同工作環境創:戰紀簡介20世紀80年代,電子軟體天才凱文·弗林創建了英康公司,將人類帶入一個全新的時代。可是在輝煌的時代開創不久后,凱文神秘失蹤。在此之后,凱文年幼的兒子薩姆繼承了父親的位置,實際工作則由其他工作人員主持。薩姆天資聰穎,充滿冒險精神,經常給英康的高層們惹來麻煩。這一天,他得知一間荒廢已久的工作室內竟傳來父親的訊息。薩姆前去探查,結果竟進入一個全數字化的虛擬世界。這個世界的掌控者克魯與父親有著同樣的容貌,卻野心勃勃,邪惡無比。薩姆被迫卷入一場充滿陰謀的電子爭霸戰中……渲染與超級計算機1985年,工業光魔又在《年輕的福爾摩斯》中創造了史上第一個計算機動畫渲染角色:彩色玻璃騎士。雖然影片中計算機生成的鏡頭只有短短30秒時間,以當時的計算機技術卻花費了6個月時間來完成。《阿凡達》推動超級計算機的電影制作

電影《阿凡達》經過14年的醞釀,耗資5億美元(約合人民幣27.2億元),提供2D、3D和IMAX-3D三種制式供觀眾選擇,可以說這是一部電影史上的豐碑。Weta

Digital公司負責該部影片視覺特效的公司,在為《阿凡達》制作炫目三維效果時也必須打破自己的一些紀錄。據資料顯示,2006年Weta

Digital開始著手《阿凡達》方面的工作時,公司的

“渲染墻”大約包含

4,400個CPU核心,存儲系統大約有100TB。到《阿凡達》制作結束時,公司的渲染墻中大約有35,000個CPU核心,存儲系統也達到3000TB。整個《阿凡達》渲染任務之繁重,逼迫Weta

Digital公司計算能力增長了10倍,最終按時完成客戶要求。Weta

Digital

公司采用了超級計算機集群平臺作為其解決方案,操作系統是我們熟知的Linux,在TOP

500超級計算機中排名也從最初的400多上升到了190多名。《阿凡達》所使用的超級計算機總內存有

104TB,內聯采用的是萬兆以太網。整個超級計算機的每一個節點型號是BL2x220c,它在一個刀片內放兩臺服務器,每服務器有兩個4核CPU,節點CPU核心選擇Intel服務器專用Xeon處理器。這套超級計算機渲染環境在2008年擁有4096個CPU內核,到2009年增加到5936個CPU內核,龐大的超級計算機集群已經成為除了導演和演員之外全片最大的貢獻者。它們用自己穩定的工作,根據動畫制作師劃定的標準,渲染《阿凡達》每一幀靜態圖片,最終拼接成全片。整部電影大約3

PB的數據存放在BlueArc機構和NetApp機構的存儲器上,數據傳輸通過光纖通道完成。電影完成時一幀的數據是12MB,一秒鐘24幀,每分鐘的數據就有

17.28

GB,整部《阿凡達》電影產生的數據據說在3PB左右,需要3000塊個人電腦的1TB容量硬盤才能完成對數據的存儲阿凡達高清圖片

2.

為什么使用并行計算?

1)

節省時間和成本

理論上,使用更多的資源會使一個任務提前完成,而且會節約潛在的成本。況且可以使用便宜的、甚至市面將要淘汰的CPU來構建并行聚簇或者成本更低的GPU(顯卡)來實現很多問題是相當龐大而復雜的,尤其是當計算機的內存受到限制的時候,用單個計算機來解決是不切實際或者根本不可能的。例如:a.

"GrandChallenge"(/wiki/Grand_Challenge)

問題需要Peta級浮點運算能力和存儲空間的計算資源。b.網絡搜索引擎和網絡數據庫每秒鐘要執行上百萬次的處理。2)解決更大規模的問題

單一的計算資源在同一時刻只能做一件事情。多個計算資源能夠同時做很多事情。例如:

AccessGrid(/)提供一個全球的合作網絡,在這里來自世界上不同國家的人們可以開會并“現場”指導工作。3)支持并行4)使用非本地資源

/wiki/%E9%A6%96%E9%A1%B5當缺少本地計算資源的時候可以使用廣泛的網絡或Internet計算資源。例如:a.

SETI@home()

使用超過330000個計算機來執行每秒超過528T次浮點運算;(August04,2008)b.

Folding@home()使用超過340,000

計算機來執行每秒4.2P次浮點運算

(November4,2008)云計算5)

串行計算的限制

在理論上和實際上,想要輕易地制造更快的串行計算機存在著巨大的限制。a.

傳輸速度——線性計算機的執行速度直接取決于數據在硬件中傳輸的速度。光速的絕對限制是每納秒30cm,銅導線是每納秒9cm。不斷提升的執行速度更加靠近極限。b.

微型化的極限——處理器技術使芯片集成了更多的晶體管。但是,即使使用分子或者原子級別的組件也會很快達到芯片集成晶體管的極限。c.

經濟上的限制——讓單個芯片變得更快需要增加昂貴的投入。用多個一般的芯片來取代單個高性能的芯片或許性能會更好而且更便宜現在的計算機體系結構越來越依賴于硬件層次的并行來提高性能:a

多個執行單元b

多核3.

高性能計算機基本知識FLOPS是floating-pointoperationspersecond每秒所執行的浮點運算次數的英文縮寫。它是衡量一個電腦計算能力的標準。最后面的S是秒的意思,最前面的p是個常量,1P=1024T1T=1024G1G=1024M1M=1024K這里的PFLOPS就是每秒運算能力為一千萬億次。1PFLOPS等于1千萬億次浮點指令/秒。一個MFLOPS(megaFLOPS)等于每秒1百萬(=10^6)次的浮點運算,一個GFLOPS(gigaFLOPS)等于每秒10億(=10^9)次的浮點運算一個

TFLOPS

(teraFLOPS)等于每秒1萬億(=10^12)次的浮點運算一個PFLOPS(petaFLOPS)等于每秒1千萬億(=10^15)次的浮點運算。GFLOPS:微處理器運算峰值IntelXeon3.6GHz:<1.8GFLOPSIntelPentium4HT3.6Ghz:7GFLOPSIntelCore2DuoE430014GFLOPSIntelCore2DuoE840024GFLOPSAMDPhenom9950:29.05GFLOPSIntelCore2QuadQ820037GFLOPSIntelCore2QX9770:39.63GFLOPSAMDPhenomIIx4955:42.13GFlopSIntelCorei7-965:69.23GFLOPSIntelCorei7-980XE

:107.6GFLOPSIntelCorei5-2500K@4.5GHz:123.35GFLOPS(w/AVXinstructionset)IBMPOWER7:264.96GFLOPSnVIDIAGeforce8800Ultra(G80-450GPU):393.6GFLOPSnVIDIAGeforceGTX280(G200-300GPU):720GFLOPSAMDRadeonHD3870(RV670GPU):497GFLOPSAMDRadeonHD4870(RV770GPU):1008GFlopsTFLOPS:顯卡或者早期并行機nVIDIAGeforceGTX580(GF110-375GPU):2.37TFLOPSAMDRadeonHD6990(R900GPU):4.98TFLOPSEarthSimulator:35.61TFLOPSBlueGene/L:135.5TFLOPS曙光Dawning5000A:230TFLOPSPFLOPS:當代超算平臺IBMRoadrunner:1.026PFLOPSJaguar:1.75PFLOPS天河一號:2.566PFLOPSFolding@home運算平臺:4.769PFLOPSBOINC運算平臺:6.282PFLOPS(持續增加中)IBMMira:8.16PFLOPS京:10.51PFLOPSIBMSequoia:16.32PFLOPS。。。。。。。TOP500Ranking20154.學習內容以及目標?目標:利用多個核或者多處理器以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論