面向云平臺的軟件故障和容忍機制研究_第1頁
面向云平臺的軟件故障和容忍機制研究_第2頁
面向云平臺的軟件故障和容忍機制研究_第3頁
面向云平臺的軟件故障和容忍機制研究_第4頁
面向云平臺的軟件故障和容忍機制研究_第5頁
已閱讀5頁,還剩42頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

面向云平臺的軟件故障

容忍機制研究2009-12-25研究背景核心問題及策略課題規劃及工作小結大綱研究現狀研究背景核心問題及策略課題規劃及工作小結大綱研究現狀研究背景計算需求的快速發展,用戶對軟件日益增長的需求:可靠,準確,可擴展。據調查,財富500強公司里面59%的公司每周至少有1.6小時的宕機時間據調查,由于系統宕機而導致的商業損失是每小時84,000$~108,000$。2008年8月,Google的云計算服務出現嚴重問題,Blogger和Spreadsheet等服務均長時間宕機,Gmail服務兩周內3次停擺。10,000500公司雇員X$56工資X1.6/w宕機時間=$896,000/w損失>$46,000,000/y虛擬化技術(VirtualizationTechnology)能夠充分利用底層硬件的處理能力,支持多個操作系統(OS)同時運行。軟件容錯技術是在軟件出錯的情況下保證軟件在性能和安全方面可接受的情況下繼續提供服務。研究背景研究內容除了在傳統架構下的研究軟件容錯機制,還應該在虛擬化環境下調整軟件容錯機制來適應虛擬化架構。我們旨在應用虛擬化技術來重新研究軟件容錯機制單機虛擬化架構下軟件容錯機制研究虛擬集群下軟件容錯機制研究項目支持973項目:計算系統虛擬化基礎理論與方法研究總體框架故障檢測研究工作研究背景核心問題及策略課題規劃及工作小結大綱研究現狀研究現狀傳統的軟件容錯機制Microreboot–ATechniqueforCheapRecovery,OSDI2004EnhancingServerAvailabilityandSecurityThroughFailure-ObliviousComputing,OSDI2004Rx:TreatingBugsAsAllergies—ASafeMethodtoSurviveSoftwareFailures,SOSP2005,BestPaperASSURE:AutomaticSoftwareSelf-healingUsingREscuepoints,ASPLOS2009AutomaticallyPatchingErrorsinDeployedSoftware,SOSP2009拜占庭容錯機制PracticalByzantineFaultTolerance,OSDI1999Zyzzyva:SpeculativeByzantineFaultTolerance,SOSP2007,BestPaperDiverseReplicationforSingle-MachineByzantine-FaultTolerance,USENIX2008傳統的軟件容錯機制Microreboot–ATechniqueforCheapRecovery,OSDI2004EnhancingServerAvailabilityandSecurityThroughFailure-ObliviousComputing,OSDI2004Rx:TreatingBugsAsAllergies—ASafeMethodtoSurviveSoftwareFailures,SOSP2005,BestPaperASSURE:AutomaticSoftwareSelf-healingUsingREscuepoints,ASPLOS2009AutomaticallyPatchingErrorsinDeployedSoftware,SOSP2009拜占庭容錯機制PracticalByzantineFaultTolerance,OSDI1999Zyzzyva:SpeculativeByzantineFaultTolerance,SOSP2007,BestPaperDiverseReplicationforSingle-MachineByzantine-FaultTolerance,USENIX2008研究現狀ApplicationErrorReboot傳統的軟件容錯機制Microreboot–ATechniqueforCheapRecovery,OSDI2004EnhancingServerAvailabilityandSecurityThroughFailure-ObliviousComputing,OSDI2004Rx:TreatingBugsAsAllergies—ASafeMethodtoSurviveSoftwareFailures,SOSP2005,BestPaperASSURE:AutomaticSoftwareSelf-healingUsingREscuepoints,ASPLOS2009AutomaticallyPatchingErrorsinDeployedSoftware,SOSP2009拜占庭容錯機制PracticalByzantineFaultTolerance,OSDI1999Zyzzyva:SpeculativeByzantineFaultTolerance,SOSP2007,BestPaperDiverseReplicationforSingle-MachineByzantine-FaultTolerance,USENIX2008研究現狀Read杜撰值Write丟棄傳統的軟件容錯機制Microreboot–ATechniqueforCheapRecovery,OSDI2004EnhancingServerAvailabilityandSecurityThroughFailure-ObliviousComputing,OSDI2004Rx:TreatingBugsAsAllergies—ASafeMethodtoSurviveSoftwareFailures,SOSP2005,BestPaperASSURE:AutomaticSoftwareSelf-healingUsingREscuepoints,ASPLOS2009AutomaticallyPatchingErrorsinDeployedSoftware,SOSP2009拜占庭容錯機制PracticalByzantineFaultTolerance,OSDI1999Zyzzyva:SpeculativeByzantineFaultTolerance,SOSP2007,BestPaperDiverseReplicationforSingle-MachineByzantine-FaultTolerance,USENIX2008研究現狀傳統的軟件容錯機制Microreboot–ATechniqueforCheapRecovery,OSDI2004EnhancingServerAvailabilityandSecurityThroughFailure-ObliviousComputing,OSDI2004Rx:TreatingBugsAsAllergies—ASafeMethodtoSurviveSoftwareFailures,SOSP2005,BestPaperASSURE:AutomaticSoftwareSelf-healingUsingREscuepoints,ASPLOS2009AutomaticallyPatchingErrorsinDeployedSoftware,SOSP2009拜占庭容錯機制PracticalByzantineFaultTolerance,OSDI1999Zyzzyva:SpeculativeByzantineFaultTolerance,SOSP2007,BestPaperDiverseReplicationforSingle-MachineByzantine-FaultTolerance,USENIX2008研究現狀研究現狀傳統的軟件容錯機制Microreboot–ATechniqueforCheapRecovery,OSDI2004EnhancingServerAvailabilityandSecurityThroughFailure-ObliviousComputing,OSDI2004Rx:TreatingBugsAsAllergies—ASafeMethodtoSurviveSoftwareFailures,SOSP2005,BestPaperASSURE:AutomaticSoftwareSelf-healingUsingREscuepoints,ASPLOS2009AutomaticallyPatchingErrorsinDeployedSoftware,SOSP2009拜占庭容錯機制PracticalByzantineFaultTolerance,OSDI1999Zyzzyva:SpeculativeByzantineFaultTolerance,SOSP2007,BestPaperDiverseReplicationforSingle-MachineByzantine-FaultTolerance,USENIX2008…copy_len≤buff_size…ServerCommunitymachines觀察正常行為獲取其不變量copy_len<buff_sizecopy_len≤buff_sizecopy_len=buff_size檢測工具攻擊收集信息ServerCommunitymachines…copy_len≤buff_size…違反:copy_len≤buff_size比較攻擊下的行為Candidatepatches:Setcopy_len=buff_sizeSetcopy_len=0Setbuff_size=copy_lenReturnfromprocedureServer產生候選補丁來修復錯誤Predictive:copy_len≤buff_sizeCommunitymachinesServerPatch1Patch3Patch2分發補丁到社區機器上CommunitymachinesRanking:Patch1:0Patch2:0Patch3:0…Ranking:Patch3:+5Patch2:0Patch1:-5…ServerPatch1失敗Patch3成功評估補丁成功=檢測工具沒有檢測到錯誤CommunitymachinesServerPatch3分發最優的補丁Ranking:Patch3:+5Patch2:0Patch1:-5…Communitymachines研究現狀傳統的軟件容錯機制Microreboot–ATechniqueforCheapRecovery,OSDI2004EnhancingServerAvailabilityandSecurityThroughFailure-ObliviousComputing,OSDI2004Rx:TreatingBugsAsAllergies—ASafeMethodtoSurviveSoftwareFailures,SOSP2005,BestPaperASSURE:AutomaticSoftwareSelf-healingUsingREscuepoints,ASPLOS2009AutomaticallyPatchingErrorsinDeployedSoftware,SOSP2009拜占庭容錯機制PracticalByzantineFaultTolerance,OSDI1999Zyzzyva:SpeculativeByzantineFaultTolerance,SOSP2007,BestPaperDiverseReplicationforSingle-MachineByzantine-FaultTolerance,USENIX2008PBFTtimePrimaryClient1PrepreparePrepareCommitRequestReplyExecute

s1s2s3s4[1,a]Quorum:匹配從不同的副本發來的信息resultAgreementExecution3f+1個副本研究現狀傳統的軟件容錯機制Microreboot–ATechniqueforCheapRecovery,OSDI2004EnhancingServerAvailabilityandSecurityThroughFailure-ObliviousComputing,OSDI2004Rx:TreatingBugsAsAllergies—ASafeMethodtoSurviveSoftwareFailures,SOSP2005,BestPaperASSURE:AutomaticSoftwareSelf-healingUsingREscuepoints,ASPLOS2009AutomaticallyPatchingErrorsinDeployedSoftware,SOSP2009拜占庭容錯機制PracticalByzantineFaultTolerance,OSDI1999Zyzzyva:SpeculativeByzantineFaultTolerance,SOSP2007,BestPaperDiverseReplicationforSingle-MachineByzantine-FaultTolerance,USENIX2008Zyzzyva3f+1個副本研究現狀傳統的軟件容錯機制Microreboot–ATechniqueforCheapRecovery,OSDI2004EnhancingServerAvailabilityandSecurityThroughFailure-ObliviousComputing,OSDI2004Rx:TreatingBugsAsAllergies—ASafeMethodtoSurviveSoftwareFailures,SOSP2005,BestPaperASSURE:AutomaticSoftwareSelf-healingUsingREscuepoints,ASPLOS2009AutomaticallyPatchingErrorsinDeployedSoftware,SOSP2009拜占庭容錯機制PracticalByzantineFaultTolerance,OSDI1999Zyzzyva:SpeculativeByzantineFaultTolerance,SOSP2007,BestPaperDiverseReplicationforSingle-MachineByzantine-FaultTolerance,USENIX2008LBFT借助虛擬機來提供多樣化,現在只需一臺物理機器就可以使用拜占庭協議VMM的可信給拜占庭協議帶來的機遇研究背景核心問題及策略工作小結大綱研究現狀問題1.基于虛擬機架構的軟件容錯機制研究問題一如果選擇的合適營救點處于主流程中,如每個用戶請求會導致ASSURE系統在該營救點處做檢查點(為了以后的快速恢復)。在高負載情況下,其會因過度的對軟件做檢查點而導致軟件無法正常運行。問題二在虛擬化環境下,不同的虛擬機中存在許多相同的軟件實例在運行的情況。為了保證服務的高可用性,如何有效地將一個軟件實例上錯誤處理操作共享給其它相同的軟件實例是一項具有挑戰性的工作。問題1.基于虛擬機架構的軟件容錯機制研究針對問題一不再采用在合適的營救點處對軟件進行檢查點,而是對整個營救點數據庫的營救點分配加權值,并通過提高合適營救點的加權值來保障下次容錯措施進行時優先選擇該營救點,從而避免了過度進行檢查點的情況出現。針對問題二在管理域(Dom0)中構造完整的軟件容忍數據庫,根據虛擬機所要保證高可用性的軟件來分發該版本軟件所對應的軟件容忍數據庫。(減少冗余)加權值變化時,更新Dom0和DomU的軟件容忍數據庫的數據加權值(容錯信息共享)問題1.基于虛擬機架構的軟件容錯機制研究系統架構系統流程問題1.基于虛擬機架構的軟件容錯機制研究測試信息ApplicationVersionBugDepthValueNum.ofRPApache2.0.49Off-by-one2-11Light-HTTPd0.1Stacksmashing2-12Light-HTTPd-dbz0.1Divide-by-zero101ATP-HTTPd0.4bStacksmashing1-11Null-HTTPd0.5.0Heapoverflow1void1Null-HTTPd-df0.5.1Doublefree303問題1.基于虛擬機架構的軟件容錯機制研究測試信息恢復時間采用Bug-resuce表后優化的恢復時間問題2.虛擬集群中軟件容錯機制研究問題ASSURE和SHelp的權衡ASSURE能夠從類似錯誤中快速恢復,但適合于營救點調用不頻繁的情況SHelp能夠解決營救點調用頻繁時ASSURE因過度進行檢查點導致軟件無法正常工作的問題First-Aid的錯誤的精確定位分析開銷較大在內存相關錯誤(棧溢出除外)處理方面,Rx和First-Aid系統相比前面兩個系統來說較為安全,兩種容錯方式如何去抉擇應用場景虛擬集群中,如何進行軟件容錯方式的快速共享,以此來達到共同防御研究內容SHelp和ASSURE的抉擇在測試營救點返回值時加入函數調用頻度統計,根據統計值來選擇針對某種錯誤的快速恢復策略是該采用加權值還是檢查點針對內存相關錯誤(棧溢出除外),應結合虛擬集群的優勢,平攤錯誤分析開銷。先用Rx系統方法來進行處理,并將成功處理方式和錯誤信息提交給中央節點,再由中央節點分割成多個patch發布并評估。尋找棧溢出較好的解決方法采用中央節點,Dom0和DomU三級容忍措施存儲結構來實現容錯方式信息的共享問題2.虛擬集群中軟件容錯機制研究問題1及問題2的參考文獻會議文章及簡述SOSP’09AutomaticallyPatchingErrorsinDeployedSoftwareASPLOS’09ASSURE:AutomaticSoftwareSelf-healingUsingREscuepointsEuroSys’09First-Aid:SurvivingandPreventingMemoryManagementBugsduringProductionRuns解決內存相關錯誤(主動)USENIX’07FromSTEMtoSEAD:SpeculativeExecutionforAutomatedDefense動態加載STEM,預先配置安全策略S&P’07UsingRescuePointstoNavigateSoftwareRecovery(ShortPaper)PLDI’07Exterminator:AutomaticallyCorrectingMemoryErrorswithHighProbability散列堆的分配空間,并糾正一些堆操作錯誤PLDI’06DieHard:ProbabilisticMemorySafetyforUnsafeLanguages散列堆的分配空間SOSP’05Rx:TreatingBugsAsAllergies—ASafeMethodtoSurviveSoftwareFailures,BestPaperUSENIX’05BuildingaReactiveImmuneSystemforSoftwareServicesSTEM系統通過靜態編譯的方式來實現錯誤虛擬化OSDI’04Microreboot–ATechniqueforCheapRecoveryOSDI’04EnhancingServerAvailabilityandSecurityThroughFailure-ObliviousComputing問題3.虛擬集群中基于軟件補丁的容錯機制研究軟件補丁修復漏洞增加新功能Zero-day攻擊(零日攻擊)軟件補丁發布到安裝軟件補丁之間,攻擊者根據發布的補丁來進行攻擊相關工作零日攻擊根據軟件發布的補丁來尋找漏洞,并自動生成攻擊包進行攻擊(零日攻擊)目前僅限于對修復輸入檢查漏洞的攻擊動態軟件升級動態升級需要在合適的時間,在軟件高負載的情況下,動態升級可能無法進行需要軟件在運行前經過特定的編譯器編譯問題針對零日攻擊,需要對軟件進行升級。雖然動態軟件更新可以在保證軟件不需要重啟的情況進行升級,但是其需要軟件預先經過編譯器編譯過,而且在軟件高負載情況下,更新過程將相當緩慢。現在的軟件容錯機制旨在根據錯誤分析的結果產生一個臨時的補丁,而忽視了該錯誤是否是被發布的補丁所修復STEM,SEAD,ASSURE,ClearView,Rx,First-Aid如何快速根據已發布的補丁來去修復軟件漏洞應用場景在虛擬集群中虛擬軟件社區的軟件容錯方式的信息如何進行共享,以此來共同抵制攻擊問題3.虛擬集群中基于軟件補丁的容錯機制研究研究內容根據補丁內容進行語義分析,分析出補丁中涉及到修復漏洞的內容(舍棄增加軟件功能),并以此產生一些可以動態注入的備選補丁研究一種理論模型來描述該語義分析的過程將這些備選補丁發布到虛擬軟件社區中,并根據反饋結果來對備選補丁進行評估選擇一個最優的補丁來發布到虛擬軟件社區中問題3.虛擬集群中基于軟件補丁的容錯機制研究問題3的參考文獻會議文章及簡述PLDI’09SafeandTimelyDynamicUpdatesforMulti-threadedPrograms多線程的軟件的動態升級POPL’08ContextualEffectsforVersion-ConsistentDynamicSoftwareUpdatingandSafeConcurrentProgramming通過上下文來實現事務機制S&P’08AutomaticPatch-BasedExploitGenerationisPossible:TechniquesandImplications根據補丁來自動生成攻擊包進行攻擊PLDI’06PracticalDynamicSoftwareUpdatingforC動態軟件升級VEE’06LiveUpdatingOperatingSystemsUsingVirtualization操作系統的動態升級POPL’05MutatisMutandis-SafeandPredictableDynamicSoftwareUpdating提出軟件動態升級的理論模型問題4.虛擬集群中拜占庭機制研究分布式軟件中存在惡意節點時,采用拜占庭容錯機制來保障正確節點軟件的一致性。其中惡意節點是指不響應或者發布錯誤的信息干擾其他節點的運行,其也稱為拜占庭節點。相關工作假設拜占庭節點最多有f個,則副本節點最少需要3f+1個在拜占庭機制中,如果惡意節點發動廣播攻擊,會導致拜占庭機制處于停滯狀態而無法運作針對這種攻擊,提出采用多網卡的硬件方式來解決問題4.虛擬集群中拜占庭機制研究問題一在虛擬集群中,存在多個由拜占庭協議保障的軟件組,如果某個軟件組中拜占庭節點發動惡意的廣播攻擊,會導致其他的軟件組無法運行。問題二目前拜占庭協議都是公平的看待每個節點,即投票的時候每個節點的權值是相同的。事實上,節點機器的安全級別可能是不相同的。如配置了安全芯片的,裝了一定的安全軟件的機器應比“裸機”安全級別高。根據提供服務的節點機器的安全級別,我們應調整節點投票的權值。對應于生活上的例子,如對參加比賽的選手投票時,專家的投票所對應的分值應比觀眾的高。同樣安全級別較高的機器也存在拜占庭節點,如何容忍不同安全級別的機器的權值如何選擇問題4.虛擬集群中拜占庭機制研究研究內容針對問題一采用vLan來隔離網絡,相當于一個拜占庭保障的軟件組就是一個可信虛擬域,以此來消除外部軟件組的惡意節點的網絡攻擊通過VMM來給每個虛擬機分配虛擬的NIC,避免了需求多網卡的硬件需求針對問題二研究不同安全等級機器的投票權值的快速評估算法考慮在安全分級的集群中,根據不同機器的不同的投票權值,研究新的拜占庭容忍算法問題4的參考文獻會議文章及簡述NSDI’09MakingByzantinefaulttolerantsystemstolerateByzantinefaults針對拜占庭存在的攻擊提出新的協議來進行防御NSDI’09Zeno:EventuallyConsistentByzantine-FaultTolerance舍棄每一步操作的一致性,而來保證最終的一致性DSN’08ByzantineReplicationUnderAttack提出針對拜占庭協議的一些攻擊USENIX’08DiverseReplicationforSingle-MachineByzantine-FaultTolerance借助虛擬機來提供多樣化SOSP’07Zyzzyva:SpeculativeByzantineFaultTolerance,BestPaperSOSP’07AttestedAppend-OnlyMemory:MakingAdve

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論