CPU的發(fā)展趨勢上課講義_第1頁
CPU的發(fā)展趨勢上課講義_第2頁
CPU的發(fā)展趨勢上課講義_第3頁
CPU的發(fā)展趨勢上課講義_第4頁
CPU的發(fā)展趨勢上課講義_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、Good is good, but better carries it.精益求精,善益求善。CPU的發(fā)展趨勢-CPU的發(fā)展趨勢1技術發(fā)展趨勢(1)工藝的影響。在過去30多年的發(fā)展過程中,高性能微處理器基本上都是按照著名的摩爾定律在發(fā)展。根據世界半導體行業(yè)共同制訂的2003年國際半導體技術發(fā)展路線圖及其2004年更新,未來15年集成電路仍將按摩爾定律持續(xù)高速發(fā)展。預測到2010年,高性能CPU芯片上可集成的晶體管數將超過20億個(到2018年超過140億個)4。半導體技術的這些進步,為處理器的設計者提供了更多的資源(無論是晶體管的數量和種類)來實現(xiàn)更高性能的芯片,從而有可能在單個芯片上創(chuàng)造更復雜

2、和更靈活的系統(tǒng)。隨著晶體管集成度的越來越高、頻率和計算速度的越來越快,芯片的功耗問題、晶體管的封裝、芯片的蝕刻等越來越難以處理。這些因素使得摩爾定律本身的發(fā)展及其對處理器的影響發(fā)生了一些深刻的變化。首先,根據上述的路線圖,摩爾定律指出的發(fā)展趨勢已經變緩,由原來的1.5年一代變?yōu)?-3年一代。除了技術本身的難度增加以外,集成電路生產線更新?lián)Q代的成本越來越昂貴,生產廠家需要更多的時間來收回生產線成本也是一個重要原因。其次,處理器主頻正在和摩爾定律分道揚鑣。摩爾定律本質上是晶體管的尺寸以及晶體管的翻轉速度的變化的定律,但由于商業(yè)的原因,摩爾定律同時被賦予每1.5年主頻提高一倍的含義4,5,6。事實上

3、過去每代微處理器主頻是上代產品的兩倍中,其中只有1.4倍來源于器件的按比例縮小,另外1.4倍來源于結構的優(yōu)化,即流水級中邏輯門數目的減少。但目前的高主頻處理器中,指令流水線的劃分已經很細,很難再細分。例如,PentiumIV的20級流水線中有兩級只進行數據的傳輸,沒有進行任何有用的運算。另外,集成度的提高意味著線寬變窄,信號在片內傳輸單位距離所需的延遲也相應增大,連線延遲而不是晶體管翻轉速度將越來越主導處理器的主頻。功耗和散熱問題也給進一步提高處理器主頻設置了很大的障礙。因此,摩爾定律將恢復其作為關于晶體管尺寸及其翻轉速度的本來面目,摩爾定律中關于處理器主頻部分將逐漸失效。此外,雖然集成度的提

4、高為處理器的設計者提供了更多的資源來實現(xiàn)更高性能的芯片,但處理器復雜度的增加將大大增加設計周期和設計成本。針對上述問題,芯片設計越來越強調結構的層次化、功能部件的模塊化和分布化,即每個功能部件都相對地簡單,部件內部盡可能保持通信的局部性。(2)結構的影響。在計算機過去60年的發(fā)展歷程中,工藝技術的發(fā)展和結構的進步相得益彰,推動著計算機功能和性能的不斷提高。工藝技術的發(fā)展給結構的進步提供了基礎,而結構的進步不僅給工藝技術的發(fā)展提供了用武之地,同時也是工藝技術發(fā)展的動力3。在過去60年的發(fā)展歷程中,計算機的體系結構每20年左右就出現(xiàn)一個較大突破,已經經歷了一個由簡單到復雜,由復雜到簡單,又由簡單到

5、復雜的否定之否定過程。最早期的處理器結構由于工藝技術的限制,不可能做得很復雜,一般都是串行執(zhí)行;后來隨著工藝技術的發(fā)展,處理器結構變得復雜,流水線技術、動態(tài)調度技術、CACHE技術、向量機技術被廣泛使用,典型的代表如IBM360系列的機器以及Cray的向量機;RISC技術的提出使處理器結構得到一次較大的簡化;但后來隨著工藝技術的進一步發(fā)展以及多發(fā)射技術的實現(xiàn),RISC處理器的結構變得越來越復雜。以Intel和HP為代表研制的EPIC結構的實現(xiàn)并沒有從根本上對處理器結構進行本質簡化。在上述過程中,每一次由簡單到復雜的變革都蘊涵著進一步簡化的因素,例如在早期的復雜處理器CDC6600以及Cray向

6、量機中,已經有了只由load和store進行訪存的概念,IBM360/91中的Tomasulo算法被后來的RISC處理器普遍使用。同樣,每一次由復雜到簡單的變革,也蘊涵著再次復雜的基礎,例如RISC結構的特點使得它可以充分利用多發(fā)射以及亂序執(zhí)行來提高性能,而多發(fā)射和亂序執(zhí)行又會增加處理器的復雜度。以近年來RISC微處理器結構沒有大的突破為標志,RISC結構已經成熟?,F(xiàn)在的RISC微處理器普遍能允許幾十到上百條指令亂序執(zhí)行,如Alpha21264處理器的指令隊列最多可以容納80條指令,MIPSR10000為32條,HP8700為56條,POWER4為200多條,PIV為106條(PIV處理器雖然

7、指令系統(tǒng)是CISC,但內部的微操作則具備了很多RISC的特征)7,8,9,12,13。目前,包括超標量RISC和EPIC在內的指令級并行技術使得處理器核變得十分復雜,通過進一步增加處理器核的復雜度來提高性能已經十分有限。同時,由于以下原因,通過結構的方法細分流水線來提高主頻的方法將來很難再延續(xù)下去:一是不可能使用少于6-8個FO4(等效4扇出反相器)產生出波形好的時鐘脈沖;二是隨著流水級的增加流水線結構的效率會越來越低;三是由封裝承受能力引起的熱包封限制使得難以實施很深的互連流水線結構;四是結構和電路的創(chuàng)新將越來越多地用于減輕給互連RC效應帶來的不良影響而不太可能直接改善頻率響應。目前的高主頻

8、處理器中,一級流水級只有10-15級FO4的延遲,考慮到控制流水線的鎖存器本身的延遲,實際留給有效處理工作的邏輯只有6-9級FO4,已經難以再降低。因此,傳統(tǒng)的高主頻復雜設計遇到了越來越嚴重的障礙,需要探索新的結構技術來在簡化結構設計的前提下充分利用摩爾定律提供的片內晶體管,以進一步提高處理器的功能和性能。(3)功耗問題。隨著主頻的不斷提高,功耗問題越來越突出。現(xiàn)代的通用處理器功耗峰值已經高達上百瓦。例如,Alpha21364為100瓦,AMDOpteron是90瓦,Intel的安騰2已超過100瓦。相應地,主板上向CPU供電的電流已接近100安培,跟發(fā)動汽車時蓄電池需要供出的電流差不多。最近

9、,Intel公司利用90nm工藝重新實現(xiàn)了Pentium4(簡稱P4)。但新的P4竟然和原先用0.13微米工藝制造出來的P4跑一樣高的主頻(不超過4GHz)。這主要是因為Intel沒有辦法把芯片在高頻工作時的功耗降下來,如果進一步提高主頻,芯片的功耗太大,芯片產生的熱量散不出去導致片內溫度升高,反過來導致芯片的性能和芯片的穩(wěn)定性下降。有的發(fā)燒友通過提高芯片電壓并在芯片上加了異常復雜的散熱和冷卻裝置后,已經把P4超頻工作到6.5GHz了(當然這種工作狀態(tài)是不能持續(xù)太長的時間的)。事實上,超過150瓦的功耗,無論是目前芯片的封裝還是主板的供電能力,都已經難以為繼了。在移動計算領域,功耗更是壓倒一切

10、的指標。因此如何降低功耗的問題已經十分迫切。CMOS電路的功耗與主頻和規(guī)模都成正比,跟電壓的平方成正比,而主頻在一定程度上又跟電壓成正比。降低功耗需要包括工藝技術、物理設計、體系結構設計、系統(tǒng)軟件以及應用軟件的共同努力。如果說傳統(tǒng)的CPU設計追求的是每秒運行的次數(performancepersecond)以及每一塊錢所能買到的性能(performanceperdollar),那么在今天,每瓦特功耗所得到的性能(performanceperwatt)已經成為越來越重要的指標。因此,必須探索新的結構,通過包括工藝技術、物理設計、體系結構設計、系統(tǒng)軟件以及應用軟件的共同努力來降低功耗。(4)應用的

11、變化。在計算機發(fā)展的初期,處理器性能的提高主要是為了滿足科學和工程計算的需求,非常重視浮點運算能力;而且主頻不是很高,功耗的問題不是很突出。隨著Internet和媒體技術的迅猛發(fā)展,網絡服務和移動計算逐漸成為一種非常重要的計算模式,這一新的計算模式迫切要求微處理器具有響應實時性、處理流式數據類型的能力、支持數據級和線程級并行性、更高的存儲和I/O帶寬、低功耗、低設計復雜性和設計的可伸縮性;要求縮短芯片進入和退出市場的周期。此外還應該看到,以個人電腦(PC)為主要應用模式的桌面應用已經逐漸趨向飽和。一方面,對于大部分的桌面用戶(如上網、辦公、家庭應用等),目前的PC性能已經足夠,再通過定義新的應

12、用來提高PC機的用戶對性能的要求(象Intel和Microsoft一直做的那樣)已經有較大難度。另一方面,使用PC機的人群已經趨向穩(wěn)定,如果需要大幅度增加計算機的使用人群,就需要通過使用模式等的革命大幅度降低計算機的購買和使用成本。與此相對應的是,雖然科學計算計算機已經不是市場的主流產品,但人類對科學計算的需求是永無止境的,高性能計算技術在航空航天、石油勘探和開發(fā)、大范圍氣象預報、核爆炸模擬、材料設計、藥物設計、基因信息學、密碼學、人工智能、經濟模型、數字電影等領域起著重要的作用。高性能計算機可以對所研究的對象進行數值模擬和動態(tài)顯示,獲得實驗很難得到甚至得不到的結果,從而產生了除了理論科學和實

13、驗科學以外的第三類科學,即計算科學。在上述情況下,需要處理器的結構充分利用集成度的提高帶來的海量晶體管資源,在滿足新型的網絡服務和媒體的應用的同時兼顧傳統(tǒng)的科學計算的應用。根據上述工藝、結構、功耗、應用等幾個方面的趨勢,需要對處理器的微體系結構進行突破性的變革,這場變革應該是一場由復雜到簡單的變革,應該面向網絡服務和媒體的應用,應該考慮低功耗的要求,應該采用層次的結構簡化物理設計的復雜度。目前,片內多處理器及多線程技術作為較好符合上述趨勢的處理器結構技術正在成為處理器體系結構設計的熱點。2國內外現(xiàn)狀目前國外高性能微處理器的研制有兩個明顯的趨勢。一是研制高性能處理器的公司在市場的洗牌中越來越集中

14、到少數幾家;二是單處理器性能的繼續(xù)提高在主頻、結構、功耗等方面都碰到了明顯的障礙,因此各微處理器公司都紛紛推出多核結構的微處理器。在九十年代末生產主流通用處理器的廠家很多,如Intel、AMD、IBM、HP、SUN、DEC、SGI等公司,形成了在通用處理器市場群雄逐鹿的局面。然而,經過近十年的市場洗牌,很多公司由于市場原因退出了通用處理器領域。目前,DEC、HP、SGI已經逐漸退出了處理器設計的角逐。最早退出通用處理器市場的是DEC的Alpha處理器。Alpha處理器無論從結構設計還是物理設計的角度都堪稱技術的經典,甚至被很多教科書所采用,尤其是Alpha21264采用0.35um的工藝實現(xiàn)四

15、發(fā)射亂序執(zhí)行的結構達到了600MHz的目標,現(xiàn)在也很難找到另外一支隊伍能做出來。但在處理器市場中一個經驗的規(guī)律是:技術越先進的公司,越沒有市場。在DEC公司實現(xiàn)把同時多線程結構做到極致的Alpha21464過程中,DEC公司就在1998被Compaq收購了。具有諷刺意義的是,Alpha處理器的最早收購者,Compaq公司卻比它更早消失?;萜展驹诮涍^一筆富有爭議的交易中合并了Compaq公司(這次的交易甚至導致了惠普管理層與包括惠普家族在內的部分股東的長時間的劇烈沖突)卻馬上面對一個個棘手的問題,即在擴展基于新的64位構架(IA64)系統(tǒng)生產線的同時,是否還要生產正在走下坡路的另外兩個系列的產

16、品(PA-RISC和Alpha)。目前,HP公司已經宣布原Compaq的所有Alpha處理器開發(fā)和服務都將逐步中止(至2010年),而原先EV8的開發(fā)小組已經完整地被Intel招募了并且馬上就投入了IA64架構的研發(fā)工作中,Alpha退出歷史舞臺已經是不爭的事實。HP公司自己開發(fā)的PA8000系列處理器在2004年1月發(fā)布雙核的PA8800芯片后也很久沒有看到新產品推出10。生產MIPS系列高性能處理器的SGI公司以2002年宣布停止MIPS18000的研發(fā)為標志,也退出了處理器研發(fā)的歷史舞臺。由于連續(xù)十幾年的虧損,SGI公司已經難以為繼。在剩下的幾個微處理器生產廠商IBM、Intel、AMD

17、和SUN中,前三者目前還看不到停止研發(fā)處理器的跡象,但IBM已經宣布不再對外銷售Power系列處理器。SUN公司是否繼續(xù)研發(fā)處理器則很大程度上取決于其雄心勃勃的UltraSPARCV能否取得成功。下面對上述幾個公司在多核處理器的研發(fā)方面的情況做簡單介紹。(1)IBM是最先推出多核微處理器的廠商,在高度自動化的MPU開發(fā)工藝上采用0.13微米工藝實現(xiàn)的Power4+已成為多核微處理器的代表性產品。IBM在藍色基因巨型機中使用自己的雙核芯片,奠定了其在多核微處理器研制方面的領先地位。2001年發(fā)布的Power4片內集成兩個Power3處理器核,每個核為8路超標量處理器,亂序執(zhí)行,一級Cache私有

18、,分別含有32KB的數據Cache和64KB的指令Cache,共享片內1.5MB的二級Cache。Power4采用180nm制造工藝銅互連,7層金屬布線,大約集成了1.74億個晶體管13。2004年IBM又發(fā)布了Power5,Power5是雙核同時多線程微處理器,集成兩個處理器核,每個核為同時多線程(SimultaneousMulti-Threading,簡稱SMT)處理器,能夠同時執(zhí)行2個線程。Power5由Power4擴展而來,改造為SMT僅增加了24的芯片面積。Power5片內集成了1.92MB的二級Cache,此外還集成了三級Cache的目錄以及存儲控制器。Power5采用130nm制

19、造工藝,集成了大約2.76億個晶體管,工作頻率在1.90GHz左右14。Power4/Power5主要用于高性能服務器和適度規(guī)模并行計算機系統(tǒng)。2006年發(fā)布的Power6采用IBM的65nmSOI工藝,10層金屬層,目標是5GHz。相對于90nm的工藝,在同樣功耗的情況下,性能提高了30%,主要原因是采用DSL(dual-stressline)技術,該技術通過在CMOSchannel加上不同的應力來達到提高電子或電洞遷移率。Power6中主要通過電路設計提高主頻,其處理器核的頻率達到5GHz。Power6是兩路的多核處理器(ChipMulti-Processor,簡稱CMP)設計,集成了兩個

20、同時多線程的處理器核,每個核含有私有的L2cache。4個Power6可以封裝在一個多芯片模組中(MCM),包括32MB的L3victimcache。(2)Intel在過去一直不斷對外表示,要推出超過十億晶體管的處理器以捍衛(wèi)摩爾定律,而Montecito就是Intel帶給全世界的答案:17.2億晶體管18。在晶體管數目的競賽中,Intel憑借Montecito取得遙遙領先的地位。Montecito是一款雙核多線程處理器,同時開發(fā)指令集并行性和線程級并行性,每個處理器核在Itanium2的基礎上增加了2路阻塞多線程機制。Montecito采用90nm的制造工藝,片內集成17.2億晶體管,每個處理

21、器核分別含有16KB一級指令Cache、16KB一級數據Cache、1MB二級指令Cache、256KB二級數據Cache以及12MB三級Cache,最大功耗大約為100W,但CPU會根據當時的情況自動超頻或降頻運行,最低功耗可減少到70W。Montecito被MicroprocessorReport評為2004最佳的服務器處理器,于2005年下半年發(fā)布。Intel在自己微處理器的發(fā)展藍圖中指出,今后各個領域的CPU都將采用多核結構。Intel基于P4系列的雙核處理器為SmithField,采用90nm工藝,將兩個P4的處理器直接封裝在芯片上采用共享前端總線的結構,Yonah的處理器為共享L2

22、caches和系統(tǒng)接口,可以部分消除之前的前端總線競爭沖突問題。2006年Intel推出了基于Core構架的處理器Conroe(酷睿2),處理器核基于PentiumM,最重要的一點是增加了流水線的寬度,由處理3條x86指令到能處理4條x86指令,增強了SSE功能,由64位通路增加到128位的通路,以及能執(zhí)行128位的讀指令(load),在cache共享上,能動態(tài)調節(jié)cache的分配,最優(yōu)化cache的性能。Intel的數據表明Conroe比上一代處理器在性能上提高了40%,而功耗降低了40%。(3)AMD和Intel一直是全球處理器市場上的兩大宿敵。面對處理器高功耗的制約,Intel和AMD不

23、約而同地將目光轉向了多核處理器。AMD發(fā)展64位多核CPU的步伐走在了Intel前面,2004年8月演示了雙核Opteron,其產品供貨于2005年中期開始。雙核Opteron片內集成2個x86-64核,每個處理器核有獨立的L2cache,通過crossbar互聯(lián)處理器核和系統(tǒng)請求接口,片內集成的內存控制器,此外還集成互連和I/O控制器,包含3個HyperTransport接口,能夠方便地實現(xiàn)多處理器互連和I/O通信。雙核Opteron采用90nm制造工藝,晶體管數量在2億個以上,功耗小于95W,大大提高了微處理器的實際效能,相對于Intel早期推出的雙核處理器,AMD有極大的性能和功耗有效性

24、優(yōu)勢17,21。(4)SUN和IBM一直在高端服務器市場競爭激烈。2001年,IBM率先發(fā)布了它的雙核處理器POWER4,而SUN公司直到2004年上半年才發(fā)布了它的第一款雙核微處理器UltraSPARCIV,并在下半年推出了UltraSPARCIV+。UltraSPARCIV采用CMT(chipmultithreading)技術,片上集成了兩個UltraSPARCIII的內核、二級Cache的tag體和MCU,外部緩存16MB,每個內核獨享8MB。UltraSPARCIV由德州儀器生產,采用0.13微米工藝,主頻1.2GHz,功耗100W,和UltraSPARCIII管腳兼容,實現(xiàn)系統(tǒng)的平滑

25、升級。UltraSPARCIV+是UltraSPARCIV的0.09微米工藝的升級版本,而且增加了片上高速緩存的容量,主頻1.8GHz。根據Sun公司內部人士透露,Sun公司即將推出片內8個處理器核,每個處理器核4線程的UntraSPARCV15。2004年Sun公司公布了Niagara,也稱為UltraSPARCT1,包括8個處理器核,每個核支持4個線程,共支持32個線程16。2006年8月,Sun公司推出了Niagara-2,包括8個Sparc的處理器核,每個核支持8個線程,共享4MB的L2cache,分為8個bank,16路組相聯(lián),使用Crossbar把處理器核和L2cache互聯(lián),含有

26、4個雙通道的FBDIMM(fullybufferedDIMM)內存控制器,含有兩個網絡端口,1個PCI-Ex8的端口,其信號管腳為711個,管腳的總數為1831。與國外微處理器設計廠家不斷合并相對應的是國內微處理器設計能力在“十五”期間的快速增長。在過去的五年中,國內微處理器設計主要包括以下特點:(1)在通用處理器和嵌入式處理器的研發(fā)方面都蓬勃展開;(2)產業(yè)化剛開始起步,還需要較長時間形成規(guī)模產業(yè)化;(3)主要集中在單處理器核的設計方面,部分研究單位在單處理器的研發(fā)方面已經達到很高的水平,可望在“十一五”期間展開多核處理器的研發(fā)。在國家863計劃和中國科學院知識創(chuàng)新工程資助下,中科院計算所從

27、事龍芯系列高性能通用處理器的研制,先后完成32位的龍芯1號、64位的龍芯2號和龍芯2號增強型處理器(簡稱龍芯2E)的研制。龍芯2E兼容MIPSIII指令系統(tǒng),采用四發(fā)射的動態(tài)超標量超流水線結構,實現(xiàn)了先進的轉移猜測、寄存器重命名、動態(tài)調度等亂序執(zhí)行技術,以及非阻塞的Cache訪問、取數猜測(LoadSpeculation)、存數合并緩存(StoreFillBuffer)等動態(tài)存儲訪問機制。龍芯2E的浮點部件能夠支持SIMD結構的媒體運算以及雙單精度(Paired-Single)的浮點運算。龍芯2E片內含64KB一級指令高速緩存、64KB一級數據高速緩存、以及512KB二級高速緩存,片內集成了D

28、DR內存控制器。龍芯2E采用意法半導體(ST)90nm工藝設計,主頻達到1GHz,具有低功耗(58瓦)、高安全性特點,SPECCPU2000的定點/浮點實測分值均達到500分,性能與中檔的IntelP4處理器相當。基于龍芯2E的Linux-PC系統(tǒng)可以滿足絕大多數的桌面應用,包括運行瀏覽器、辦公套件、播放多媒體視頻等。龍芯2E于2006年9月通過中科院組織的鑒定,鑒定專家組一致認為:“龍芯2E高性能通用CPU芯片在單處理器設計方面已達到國際先進水平,居國內通用CPU研制領先水平”?;邶埿?E的低成本龍夢電腦、龍芯筆記本等樣機已經研制出來,正進入試點階段,產業(yè)化前景良好1,2。目前,計算所正進

29、行龍芯3號多核處理器的研制。龍芯3號將采用可擴展設計,處理器核數目很容易從幾個擴展到幾十個;將采用超級虛擬機技術,使得多種指令集(包括MIPS、SunSparc、X86)應用能夠同時運行。此外,對于傳統(tǒng)的如何利用多處理器核加速單線程問題,龍芯3號也將會采用軟硬件結合的并行虛擬機方式加以解決。根據龍芯發(fā)展路線圖,龍芯3號的第一個原型芯片將于2007年底推出。2003年,國防科技大學承擔了863計劃高性能通用CPU芯片重大研究課題(YHFT64-I),2005年國防科大又承擔了該項目的滾動支持項目。YHFT64-I采用目前EPIC技術,利用軟硬件方法實現(xiàn)Intel指令集兼容,能夠并發(fā)執(zhí)行8條指令。

30、芯片設計采用了大量先進的微體系結構技術,如:多級分支預測技術、寄存器堆棧技術、控制前瞻/數據前瞻、謂詞執(zhí)行技術以及低功耗技術等,能夠有效開發(fā)指令集并行性,極大提高處理器性能。YHFT64-1支持通用操作系統(tǒng),支持多處理器結構,支持數據庫、WEB等服務器應用。該芯片所有設計已經完成,采用Chartered0.13mNominal1P8M工藝,核心邏輯規(guī)模5800萬晶體管,采用HPBGA封裝,功耗12瓦,面積10X10mm2,引腿696個,工作頻率300MHz,在2005年上半年完成投片。此外,中芯微電子和北京大學、清華大學、同濟大學等單位也已研制成功嵌入式CPU以及有關的SOC。3高性能微處理器

31、發(fā)展前沿3.1研究中的幾種新型體系結構的處理芯片下面簡單介紹國外研究中的幾種新型體系結構的處理芯片。(1)IBM開發(fā)中的千萬億次(PetaFLOPS)計算機藍色基因(BlueGene)中的核心處理芯片是探索新型高性能CPU體系結構的重要一步。該芯片中含32個簡單的PowerPC處理器及內嵌的DRAM,峰值性能可達到32GFLOPS。將DRAM集成在片內,使處理器到存儲器的訪問延遲大為縮短,訪問帶寬大大提高,也很大程度上減少了能量的消耗。為了通過精簡設計提高運算速度和極大地降低功耗,每個處理器能執(zhí)行的指令的數量都大大地減少了,但每個處理器仍可支持8個同時執(zhí)行的線程以提高處理器利用率。片上還集成了

32、6個2GB/s帶寬的通道以實現(xiàn)與系統(tǒng)中其它同類芯片的通信。另外,考慮到構建超大規(guī)模計算系統(tǒng)時不可避免地會碰到因某個(些)結點失效而影響整體系統(tǒng)可用性的情況,它嘗試采用自穩(wěn)定和自修復的技術,即自動地從個別處理器或線程的失效中恢復過來。為此,在硬件上,處理器和通信鏈路上都采用了大量的冗余設計,在軟件上,也需要特別增加分布式控制和恢復的機制。圖1RAW中一個處理器的框圖(2)MIT研究的可重構RAW處理芯片采用了另一種思路27。RAW在單個芯片上將幾百個非常簡單的處理單元,用可重構邏輯連接起來,實現(xiàn)高度并行的體系結構。RAW允許編譯器(或其它相當的軟件工具)重新構建硬件體系結構的低層細節(jié),對每個要加

33、速的應用實現(xiàn)最佳的資源分配。這種結構設計簡單,單元內部和單元之間的互連線短,能充分地支持流水線并行性,特別適于未來線寬變窄的半導體制造工藝。RAW的研究者認為,開始時,RAW體系結構還只適于流式的信號處理計算,但RAW方法未來將發(fā)展成為普適的解決方案。圖1給出了RAW中一個處理器的框圖。其中下半部分就是一個普通的RISC流水線處理器(其復雜度跟龍芯1號差不多)。其特殊之處在于在執(zhí)行部件前的旁路部分,除了常規(guī)從寄存器中取出的操作數和從功能部件剛算出的操作數外,還有通過通信網絡從別的處理器那里送過來的操作數。在靈活的互連網絡的配合下,這個機制巧妙地把多個處理器的功能部件耦合在一起,構成功能復雜、動

34、態(tài)重構的并行處理系統(tǒng)。(3)在2005年國際固態(tài)電路會議(ISSCC)上,IBM、Sony和Toshiba首次公開介紹了設計中的Cell高性能處理芯片30。這三個企業(yè)聯(lián)合設計Cell芯片的工作始于2001年3月。Cell的一個主要用途是Sony的第三代Playstation游戲機PS3,但IBM同時也宣稱,Cell將是片上超級計算機(supercomputer-on-a-chip)。從ISSCC2005上披露的第一款Cell芯片的情況來看,它確實能同時滿足前述兩個方面的應用要求。Cell處理芯片可在4GHz頻率下工作,其宣稱的峰值浮點運算速度為256GFLOPS,可惜這只是單精度且不符合IEE

35、E754標準的浮點運算(如果針對游戲應用,這是合適的,因為速度比精度更重要)。Cell同時也支持完全符合IEEE754標準的雙精度浮點運算,但速度約是單精度的十分之一,估計為25-30GFLOPS。即使這個速度,也達到了當前主流高性能微處理芯片的5-10倍。因此,基于Cell處理芯片,在一個機柜里就可以實現(xiàn)足以躋身TOP500排行榜前列的超級計算機。Cell采用了與主流高性能處理芯片全然不同的片內分布式體系結構(圖2)??傮w上看,它由一個相對比較簡單的支持同時雙線程并行的雙發(fā)射64位PowerPC內核(稱為PPE)和8個SIMD型向量協(xié)處理器(稱為SPE)構成。片內有一個高帶寬的環(huán)狀高速總線(

36、EIB)把PPE、SPE及RAMBUS內存接口控制器(MIC)、FlexI/O外部總線接口控制器(BIC)連接起來。PPE主要負責控制并執(zhí)行操作系統(tǒng),SPE完成主要的計算任務。SPE的SIMD執(zhí)行部件是128位寬的,從而可在一個時鐘周期里完成4個32位的定點或浮點乘加運算。SPE里內置了256KB的SRAM作為局部存儲器(它的編址獨立于片外的DRAM)。不采用自動調配數據的cache機制,使SPE更像一個向量處理器,從而也更多地依賴程序員或編譯器的作用來發(fā)揮性能。同樣,SPE里沒有動態(tài)分支預測機制。所以,SPE配備了較大的寄存器堆(128個128位的寄存器)來盡量減少對存儲器的訪問,并盡可能地

37、展開循環(huán)、減少分支。Cell雖然實現(xiàn)了很高的性能,但也存在一些問題。例如,如果要往游戲或多媒體以外的應用發(fā)展,編程模型和軟件開發(fā)問題還沒有很好解決。又如,前面提到的芯片設計的復雜度和功耗問題也沒有很好地解決。Cell的第一款芯片用42.5mm尺寸的BGA封裝,共1236個接觸點,其中506個是信號。據估計在1.1V供電4GHz運行時,芯片功耗約50-80瓦(據說1.4V供電時可運行到5.6GHz,功耗180瓦)。90納米SOI工藝全定制實現(xiàn),8層銅連線,芯片面積為221mm2,含2.34億晶體管。這個復雜度已經超過了Intel的安騰二代,如果想用在家用游戲機里,成本是個大問題(據說Sony計劃在PS3里采用只包括4個SPE的Cell版本)。Cell芯片采用42.5mm(4)IBM和德克薩斯州立大學聯(lián)合開發(fā)中的TRIPS(Tera-OpReliableIntelligentlyadaptiveprocessingSystem)芯片是設計具有每秒萬億次運算能力芯片的第一個嘗試28,29。TRIPS結構采用粗粒度的處理器內核,以便在有

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論