計算機體系結構cha-2.ppt_第1頁
計算機體系結構cha-2.ppt_第2頁
計算機體系結構cha-2.ppt_第3頁
計算機體系結構cha-2.ppt_第4頁
計算機體系結構cha-2.ppt_第5頁
已閱讀5頁,還剩51頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

3 向量的流水處理與向量流水處理機,將向量數據表示和流水線技術結合起來,構成向量流水處理機,簡稱向量處理機(Vector Processor) 向量的流水處理 向量流水處理機,向量的流水處理,提高流水性能方法: 增加流水線段數,以減少t 每個時鐘同時啟動多條指令 減少相關,減少功能變換次數,增加處理指令條數。,向量的流水處理(續),向量操作特點 向量元素間操作相互獨立,且為相同操作 相當于標量循環,對指令帶寬的訪問要求不高 可采用多體交叉存儲器,減少訪存延遲。 向量操作很適合于流水處理或并行處理。,向量的流水處理(續),向量處理過程 置VL、VM、A 取向量到V 運算。 向量的分量間采取的是流水方式。 并行處理機(SIMD)處理向量時采取的是并行方式。,向量的流水處理(續),向量處理工作方式 如:D=A(B+C) 橫向加工:bi+ci-k, k*ai-di 產生N次相關,2N次功能切換,適合標量循環 縱向加工:bi+ci-ki, ki*ai-di 產生1次相關,1次功能切換,可流水處理 縱橫處理:對向量分組,組內縱向、組間橫向處理,向量流水處理機,向量流水處理機的指令系統 向量流水處理機的結構 超級向量流水處理機舉例,向量流水處理機的指令系統,包含有向量型和標量型兩類指令 向量型運算類指令 向量V1運算得向量V2,如V2=SIN(V1) 向量V運算得標量S,如 向量V1與向量V2運算得向量V3,V3=V1V2 向量V1與標量S運算得向量V2,V2=S*V1 特殊操作指令 向量比較指令 向量壓縮指令 歸并指令 向量傳送指令,向量流水處理機的結構,1972年首次交付使用CRAY-1向量流水處理機 分布異構型多處理機系統,由中央處理機、診斷維護控制處理機、大容量磁盤存儲子系統、前端處理機組成 6個流水線單功能部件:整數加、邏輯運算、移位、浮點加、浮點乘和浮點迭代求倒數 向量寄存器由512個64位寄存器組成,分成8組,超級向量流水處理機舉例,1972年成立CRAY公司,至今生產了400臺以上的超級計算機 1979年CRAY-1S,CRAY-1改進型,有10條流水線 1983年CRAY X-MP,用4臺CRAY-1 1985年CRAY-2S 1988年CRAY Y-MP,8臺處理機 1991年CRAY Y-MP C-90 1996年12月,克雷研究公司也被SGI公司以7.5億美元收購 2000年,被Tera公司合并,同年更名Cray 目前產品:MTA、SV1、SX_6、T3E 2002年Cray X1。運算速度最高為每秒52萬億次,支持65.5TB存儲器。 宣布了在2010年以前實現能夠連續地處理每秒1000萬億次 Cray公司稱,他們將在2008年使用四核心的AMD Opteron處理器建造XT4超級計算機,并將在2009年接近1Pflops(每秒1000萬億次浮點運算)能力。 網址:,超級向量流水處理機舉例(續),CDC公司1973年推出第一臺超級計算機STAR-100 1964年CDC-6600 RISC特征 1982年 CYBER 205 1999年 被Syntegra收購 ETA10:8個CPU 網址:,幾種超級計算機的向量性能和標量性能,向量平衡點(vector balance point)定義為:為了使向量硬件設備和標量硬件設備的利用率相等,一個程序中向量代碼所占的百分比。,4 指令級高度并行的超級計算機,超標量處理機 超流水線處理機 超標量超流水線處理機 超長指令字處理機,超標量處理機,采用多指令流水線(度=m) 配置多套功能部件、指令譯碼電路和多組總線,并且寄存器也備有多個端口和多組總線。 適合于求解稀疏向量、矩陣 IBM RS/6000、DEC 21064、Intel i960CA、Tandem Cyclone(颶風)等,超標量處理機(續),超標量處理機基本結構,一般流水線處理機: 一條指令流水線 一個多功能操作部件,每個時鐘周期平均執行指令的條數小于1。 多操作部件處理機: 一條指令流水線 多個獨立的操作部件,操作部件可以采用流水線,也可以不流水 多操作部件處理機的指令級并行度小于1 超標量處理機典型結構: 多條指令流水線 進的超標量處理機有:定點處理部件CPU,浮點處理部件FPU,圖形加速部件GPU 大量的通用寄存器,兩個一級高速Cache 超標量處理機的指令級并行度大于1,舉例: Motorola公司的MC88110,10個操作部件 兩個寄存器堆:整數部件通用寄存器堆,32個32位寄存器;浮點部件擴展寄存器堆,32個80位寄存器。每個寄存器堆有8個端口,分別與8條內部總線相連接,有一個緩沖深度為4的先行讀數棧和一個緩沖深度為3的后行寫數棧。 兩個獨立的高速Cache中,各為8KB,采用兩路組相聯方式。 轉移目標指令Cache,在有兩路分支時,存放其中一路分支上的指令,超標量處理機MC88110的結構,單發射與多發射,單發射處理機: 每個周期只取一條指令、只譯碼一條指令,只執行一條指令,只寫回一運算結果 取指部件和譯碼部件各設置一套 可以只設置一個多功能操作部件,也可以設置多個獨立的操作部件 操作部件中可以采用流水線結構,也可以不采用流水線結構 設計目標是每個時鐘周期平均執行一條指令,ILP的期望值1,單發射處理機的指令流水線時空圖,單發射與多發射(續),多發射處理機: 每個周期同時取多條指令、同時譯碼多條指令,同時執行多條指令,同時寫回多個運算結果 需要多個取指令部件,多個指令譯碼部件和多個寫結果部件 設置多個指令執行部件,復雜的指令執行部件一般采用流水線結構 設計目標是每個時鐘周期平均執行多條指令,ILP的期望值大于1,多發射處理機的指令流水線時空圖,超標量處理機: 一個時鐘周期內能夠同時發射多條指令的處理機稱為超標量處理機 必須有兩條或兩條以上能夠同時工作的指令流水線 先行指令窗口: 能夠從指令Cache中預取多條指令 能夠對窗口內的指令進行數據相關性分析和功能部件沖突的檢測 窗口的大小:一般為2至8條指令 采用目前的指令調度技術,每個周期發射2至4條指令比較合理,舉例,Intel公司的i860、i960、Pentium處理機, Motolora公司的MC88110處理機,IBM公司的Power 6000處理機等每個周期都發射兩條指令 TI公司生產的SuperSPARC處理機以及Intel的Pentium III處理機等每個周期發射三條指令 操作部件的個數多于每個周期發射的指令條數。4個至16個操作部件 超標量處理機的指令級并行度:1ILPm;m為每個周期發射的指令條數。,超流水線處理機,兩種定義: 一個周期內能夠分時發射多條指令的處理機稱為 超流水線處理機。 指令流水線有8個或更多功能段的流水線處理機稱為超流水線處理機。 提高處理機性能的不同方法: 超標量處理機是通過增加硬件資源為代價來換取處理機性能的。 超流水線處理機則通過各硬件部件充分重疊工作來提高處理機性能。 兩種不同并行性: 超標量處理機采用的是空間并行性 超流水線處理機采用的是時間并行性,指令執行時序,每隔1/n個時鐘周期發射一條指令,流水線周期為1/n個時鐘周期 在超標量處理機中,流水線的有些功能段還可以進一步細分 例如:ID功能段可以再細分為譯碼、讀第一操作數和讀第二操作數三個流水段。也有些功能段不能再細分,如WR功能段一般不再細分。 因此有超流水線的另外一種定義:有8個或8個以上流水段的處理機稱為超流水線處理機,超流水線處理機(續),每個時鐘周期分時發送3條指令的超流水線,舉例: MIPS R4000,MIPS R4000處理機每個時鐘周期包含兩個流水段,是一種很標準的超流水線處理機結構。指令流水線有8個流水段 有兩個Cache,指令Cache和數據Cache的容量各8KB,每個時鐘周期可以訪問Cache兩次,因此在一個時鐘周期內可以從指令Cache中讀出兩條指令,從數據Cache中讀出或寫入兩個數據。 主要運算部件有整數部件和浮點部件,MIPS R4000處理機的流水線操作,MIPS R4000正常指令流水線工作時序,超標量超流水線處理機,把超標量與超流水線技術結合在一起,就成為超標量超流水線處理機 指令執行時序 超標量超流水線處理機在一個時鐘周期內分時發射指令n次,每次同時發射指令m條,每個時鐘周期總共發射指令m n條。,每時鐘周期發射3次,每次3條指令,舉例: DEC公司的Alpha,DEC公司的Alpha處理機采用超標量超流水線結構。主要由四個功能部件和兩個Cache組成:整數部件EBOX、浮點部件FBOX、地址部件ABOX和中央控制部件IBOX。 中央控制部件IBOX可以同時從指令Cache中讀入兩條指令,同時對讀入的兩條指令進行譯碼,并且對這兩條指令作資源沖突檢測,進行數據相關性和控制相關性分析。如果資源和相關性允許,IBOX就把兩條指令同時發射給EBOX、ABOX和FBOX三個指令執行部件中的兩個。 指令流水線采用順序發射亂序完成的控制方式。在指令Cache中有一個轉移歷史表,實現條件轉移的動態預測。在EBOX內還有多條專用數據通路,可以把運算結果直接送到執行部件。,舉例: DEC公司的Alpha,Alpha 21064處理機共有三條指令流水線整數操作流水線和訪問存儲器流水線分為7個流水段,其中,取指令和分析指令為4個流水段,運算2個流水段,寫結果1個流水段。浮點操作流水線分為10個流水段,其中,浮點執行部件FBOX的延遲時間為6個流水段。 所有指令執行部件EBOX、IBOX、ABOX和FBOX中都設置由專用數據通路。 析指令為4個流水段,運算2個流水段,寫結果1個流水段。浮點操作流水線分為10個流水段,其中,浮點執行部件FBOX的延遲時間為6個流水段。 所有指令執行部件EBOX、IBOX、ABOX和FBOX中都設置由專用數據通路。 Alpha 21064處理機的三條指令流水線的平均段數為8段,每個時鐘周期發射兩條指令。因此,Alpha 21064處理機是超標量超流水線處理機。,三種指令級并行處理機性能比較,超標量處理機、超流水線處理機和超標量超流水線處理機相對于單流水線普通標量處理機的性能曲線。,結論,三種處理機的性能關系超標量處理機的相對性能最高,其次是超標量超流水線處理機,超流水線處理機的相對性能最低,主要原因如下: 超標量處理機在每個時鐘周期的一開始就同時發射多條指令,而超流水線處理機則要把一個時鐘周期平均分成多個流水線周期,每個流水線周期發射一條指令;因此,超流水線處理機的啟動延遲比超標量處理機大。,結論(續),條件轉移造成的損失,超流水線處理機要比超標量處理機大。 在指令執行過程中的每一個功能段,超標量處理機都重復設置有多個相同的指令執行部件,而超流水線處理機只是把同一個指令執行部件分解為多個流水級;因此,超標量處理機指令執行部件的沖突要比超流水線處理機小。,結論(續),實際指令級并行度與理論指令級并行度的關系 當橫坐標給出的理論指令級并行度比較低時,處理機的實際指令級并行度的提高比較快。 當理論指令級并行度進一步增加時,處理機實際指令級并行度提高的速度越來越慢。 在實際設計超標量、超流水線、超標量超流水線處理機的指令級并行度時要適當,否則,有可能造成花費了大量的硬件,但實際上處理機所能達到的指令級并行度并不高。 目前,一般認為,m 和 n 都不要超過4。,結論(續),最大指令級并行度 一個特定程序由于受到本身的數據相關和控制相關的限制,它的指令級并行度的最大值是有限的,是有個確定的值。這個最大值主要由程序自身的語義來決定,與這個程序運行在那一種處理機上無關。對于某一個特定的程序,圖中的三條曲線最終都要收攏到同一個點上。當然,對于各個不同程序,這個收攏點的位置也是不同的。,超標量處理機: Intel公司的i860, i960, Pentium處理機 Motolora公司的MC88110 IBM公司的Power 6000 SUN公司的SuperSPARC等 超流水線處理機: SGI公司的MIPS R4000, R5000, R10000等 超標量超流水線處理機: DEC公司的Alpha等,超標量、超流水、超標量超流水處理機的主要性能,超長指令字處理機(VLIW),VLIW (Very Long Instruction Word) 是將水平型微碼和超標量處理兩者結合的結構 指令字長可達數百位,多個功能部件并發工作,共享大容量寄存器堆。 是一種單指令多操作碼多數據的系統結構(SIMOMD),超長指令字處理機(續),超長指令字處理機(續),EPIC Explicitly Parallel Instruction Computing,顯性并行指令計算 1994年,Intel和HP決定聯合開發新一代微處理器基于IA-64架構的Merced,并共同定義了顯性并行指令計算技術EPIC. IA-64指令系統的統稱。 集成RISC和VLIW各自的優勢技術,指令字長為128位,包含三個40位的指令和一個8位的模版代碼。 每個指令分為多個獨立的操作字段,每個字段可分別控制各個功能部件并行工作,而模版中包含各指令間并行處理的信息,依據模版代碼信息,可同時在不同的執行單元中執行三條沒有相關性的指令,控制并行處理關系,提高并行處理能力,EPIC,EPIC是一種超越超標量的新模式,它克服了VLIW處理器的缺點,實現下面的3步: 由編譯器先分析指令間的依賴關系; 編譯器將沒有依賴關系的指令,按最多是3個指令為一組,組合成多個“組”; 由內置的執行單元將分成組的指令群并行執行。 因每條指令究竟分給哪一個執行單元是由軟件決定的,因而利用簡單的硬件就可以提高指令的并行度,降低了處理器的制造成本。,RVIP技術和CRVIP技術,RVIP(RISC-VLIW Processor)技術和CRVIP(CISC-RISC-VLIW Processor)技術是將RISC超標量結構與VLIW技術融為一體,或將CRIP(CISC-RISC Processor)混合結構與VLIW技術融為一體的技術. 在融合VLIW和超標量結構技術的RVIP型或者CRVIP型微處理機中,將不必在其執行部件中設置復雜的執行順序控制電路。因為在指令分發調度之前就已經弄清楚了這些指令之間的相關聯性。 VLIW技術滲入的顯著效果之一,就是它消除了超標量結構的過分的復雜性,從而使硬件系統結構設計獲得簡化。,Itanium 2,HP Integrity Superdome HP-U

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論