




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
securitysecurity高性能計算(HPC)工作組的官網:/research/working-groups/h◎2024云安全聯盟大中華區-保留所有權利。你可以在你的電腦上下載、儲存、展示、查看及打印,或者訪問云安全聯盟大中華區官網()。須遵守以下:(a)本文只可作個人、信息獲取、非商業用途;(b)本文內容不得篡改;(c)本文不得轉發;(d)該商標、版權或其他聲明不得刪除。在遵循中華人民共和國著作權法相關條款情況下合理使用本文內容,使用時請注明引用于云安全聯盟大中華區?!?024云安全聯盟大中華區版權所有2數據保護10萬+零信任Al安全隱私計算云滲透云滲透云安全專家安全區塊鏈云安全認證認證云審計零信任峰會加入我們致謝R江南天安北京江南天安科技有限公司專注于商用密碼產品研發、創新和技術服務,是國家級高新技術企業、國家級專精特新“小巨人”企業。公司根植于密碼技術研究和應用創新的深厚積淀之上,集密碼產品和解決方案研發、生產、銷售和服務于一體,是一家致力于為用戶提供全面、可靠的密碼產品和安全服務的“密碼體系服務商”。公司在密碼產品創新方面取得了顯著成就,如參與國內首個商業銀行國密改造項目,發布國內首款云服務器密碼機、國內首塊云服務密碼卡、國內首臺國密專線密碼機、國內首臺三級服務器密碼機,以及支持國密協議的開源SSL開發套件。為國家的數字經濟和用戶的數據安全保駕護航。江南天安是CSA大中華區理事單位,支持該報告內容的翻譯,但不影響CSA研究內容的開發權和編輯權?!?024云安全聯盟大中華區版權所有4報告英文版編寫專家主要作者貢獻者審稿人CSA全球員工序言在當今數字化時代,高性能計算(High-PerformanceComputing,HPC)已成為科學研究和技術創新的基石。HPC系統通過聚合強大的計算資源,使得解決傳統計算架構無法處理的復雜問題成為可能,從而在科學探索、工程設計、醫療研究、金融分析等領域發揮著至關重要的作用。然而,隨著計算能力的不斷提升,HPC系統也面臨著日益嚴峻的安全挑戰,這些挑戰不僅威脅到數據的安全性,也影響到研究成果的完整性和可靠性。《通過實現高性能計算安全增強研究完整性》報告的發布,旨在深入分析HPC環境中的安全問題,并提供有效的策略和建議,以增強HPC系統的安全性,保護研究成果的質量。報告內容涵蓋了HPC安全的關鍵領域,包括輸入驗證、錯誤處理、編碼和轉義、更新機制、信息庫驗證、內存安全控制措施、消息傳遞接口(MPI)、零信任模型、網絡安全、安全飛地、日志記錄和漏洞管理等。這些內容不僅包括技術層面的深入分析,也涉及策略和管理層面的綜合考量。本報告致力于為HPC系統的用戶、管理員、開發者以及政策制定者提供一個全面的安全指南,協助他們在確保系統安全的同時,最大化研究成果的價值。我們希望通過這份報告,能夠促進HPC廠商對安全問題的重視,并采取行動,共同構建一個更加安全、高效的研究環境。CSA大中華區主席兼研究院院長◎2024云安全聯盟大中華區版權所有61.概述 9 2.1輸入驗證 2.2錯誤處理 2.3編碼和轉義 2.4更新機制 2.5信息庫驗證 2.7消息傳遞接口(MPI) 2.8零信任 2.9HPC的網絡安全 2.10安全飛地 4.參考文獻 附錄1十大頂級超級計算機 介紹從定義上說,高性能計算(High-PerformanceComputing,HPC)系統是指把計算資源聚合在一起,使其性能超過任何單個工作站、服務器或計算機;這種系統如今已成為研究人員不可或缺的工具,使用范圍涵蓋了從科學探索到工程設計創新的廣泛領域。這些復雜計算平臺提供的計算力量可令傳統計算架構解決不了的復雜問題迎刃而解。然而,市場對性能需求的不斷增加,給HPC系統帶來了一大嚴峻挑戰:究竟應該怎樣在速度與安全之間權衡,取得適當平衡呢?有關當今十大頂級超級計算機系統的列表,請參見本文附錄。高性能計算(HPC)領域在傳統上視安全為次要考慮因素,甚至認為安全是實現峰值性能的障礙。防火墻、入侵檢測系統、數據加密等安全措施在執行時,的確有可能造成延遲并降低系統的總體吞吐量。從這個角度考慮的權衡導致許多HPC組織在速度和安全之間優先選擇前者,從而使這些系統面對網絡攻擊時表現得十分脆弱。然而在2022年的超級計算大會上,安全終于成為HPC專家關注的焦點。對更快速系統的追求造就了一大漏洞,原因就是這些機器上往往保存著可能會被惡意行為者利用的敏感數據。1解決這一權衡問題的關鍵在于HPC供應商、研究人員和安全專家之間的攜手合作和共同努力。新的硬件和軟件技術不斷涌現,可以在不影響性能的情況下增強安全性。例如,基于硬件的安全性能可以把敏感數據與工作負載隔離,另外還有專門的軟件可用于為高性能環境優化安全協議。隨著高性能計算(HPC)的持續發展,安全問題已經不容忽視。在速度與安全之間找到平衡,對于保護這些強大機器及其寶貴數據至關重要。把安全問題置于優先地位并投資開發創新性解決方案,幫助HPC組織得以通過這種方式保護系統免受網絡攻擊侵擾,確保它們能夠繼續發揮推動科學進步和保障國家安全的◎2024云安全聯盟大中華區版權所有8作用。復雜的基礎設施、遠程訪問的廣泛使用和敏感數據的存儲給HPC系統帶來多重安全挑戰。正是這些挑戰使之成為網絡攻擊的主要目標,導致研究成果喪失、數據損毀、研究進程中斷以及潛在的法律后果。組織應采取前瞻性安全措施抑制這些風險,可采取的措施包括風險評價、漏洞管理、補丁管理、訪問控制、監測和事件響應。組織可以通過采用這樣的策略保護HPC系統并確保其研究結果始終完整如一。本報告的目的是幫助參與使用、管理和保護HPC系統的各種利益相關者在確保HPC系統安全的問題上達成共識并建立共同的目標。本報告旨在證明,HPC環境的安全性是能夠以促進(而非阻礙)HPC研究人員取得預期科研成果的方式實現的。受眾本報告適用于參與使用、管理和保護HPC系統的任何人員,其中包括但不●網絡安全專業人員;●HPC系統管理員;●HPC應用程序的開發人員;●使用高性能計算系統的研究人員和數據科學家;●管理高性能計算資源的云管理員;1.概述在科學計算領域,開發者需要為自己的應用程序充分考慮信息和網絡安全方面的問題,開發代碼時若能時刻繃緊應用安全這根弦,將不僅可以產生更安全的應用程序,還能促進科研工作取得更佳成果?!?024云安全聯盟大中華區版權所有9所謂應用安全,是指為防范會導致未經授權訪問、篡改等威脅惡意利用的安全漏洞而給應用程序開發、添加和測試安全性能的過程。2更廣義地說,應用安全需要貫穿軟件開發生命周期(SDLC)的所有方面,從提出要求和設計階段直到產品發布后階段,概莫能外。唯有如此,才能最大限度減少安全漏洞。這絕不只是必須得到安全專業人員關注的問題,研究人員和科學軟件開發者也應該高度重視消除這些漏洞。根據美國國家標準和技術研究所(NIST)的定義,安全漏洞是指在軟件代碼中存在可能會被攻擊者惡意利用的缺陷、毛病或弱點。3因此可以說,提高軟件的安全性,實際上就是在努力消除代碼基底中的那些不僅會為惡意利用行為創造條件,而且還會影響應用程序產生的結果之質量方面的缺陷和毛病。據估計,每千行代碼存在15-50個這樣的缺陷,4這揭示了通過強化HPC安全措施改進代碼質量,進而提升HPC所支持的科研的準確性具有巨大潛力。1.1HPC面臨的安全挑戰以下列表雖然并不詳盡,但列出了一些常見的HPC安全挑戰:●復雜的基礎設施:HPC系統往往由數千個相互連接的節點組成,從而增加了保護和管理HPC系統的難度。這種復雜性給識別和修補漏洞、監測可疑活動以及為整個系統部署安全更新增加了許多困難。●獨有的軟件和信息庫:HPC系統往往使用著一些在HPC環境之外不常使用的軟件庫,例如消息傳遞接口(MPI)、OpenMP、科學建模軟件等。這些軟件不僅為HPC環境帶來獨有的安全挑戰和受攻擊面,而且對于這些挑戰,現有的安全工具可能并不具有現成的解決方案。例如,漏洞掃描器可能沒有在其數據庫中收入相關的軟件漏洞,而端點檢測與響應(EDR)工具可能沒有為這些軟件庫建立識別漏洞被人惡意利用的規則?!窆渾栴}:科研社區開發并共享了許多將會被拿到HPC系統上運行的應用程序,或者將被會整合進HPC應用程序的信息庫,從而增加了供應◎2024云安全聯盟大中華區版權所有10鏈風險和攻擊的可能性。●遠程訪問:研究人員和科學家會經常遠程訪問HPC系統,從而可能引入安全風險。未經授權者可能會通過入侵遠程訪問渠道接觸敏感數據、安裝惡意軟件或干擾研究活動?!衩舾袛祿篐PC系統往往存儲著敏感數據,例如科研成果和知識產權。這些敏感數據容易招致網絡攻擊,以達到攻擊者竊取、破壞或刪除數據的目的。這些數據如果丟失或被人篡改,可能會給科研社區及數據擁有組織帶來嚴重后果?!窀呒壨{:HPC系統正逐漸成為吸引可能涉及拒絕服務(DoS)等復雜技術的高級網絡攻擊的目標。運行HPC系統的組織必須對這些新興威脅有充分有認識并主動采取防御措施。上述HPC安全挑戰會造成以下后果:●研究結果被盜:安全措施不力可能會遭致未經授權者訪問并竊取敏感的研究數據,如科學發現、算法和模擬結果。這種情況有可能給科研社區造成毀滅性影響,因為有可能導致知識產權喪失、研究工作重復進行以及研究成果無法發布或分享。●研究結果遭到破壞:惡意軟件有可能感染高性能計算(HPC)系統,從而破壞或刪除有價值的研究數據。這有可能造成花費數月乃至數年心血的研究成果損失殆盡,研究人員不得不重復實驗或模擬?!裱芯抗ぷ髁鞒瘫桓蓴_:拒絕服務(DoS)攻擊可能會使HPC系統陷于癱瘓,阻止研究人員訪問開展工作所需要的資源。這將延誤研究項目的持續進行,給研究機構造成經濟損失并損害組織的聲譽?!裱芯客暾员黄茐模合嚓P法規要求研究機構保持研究數據的完整性。如果違反這些法規,可能會讓人懷疑研究結果的有效性并損害組織的聲譽?!駭祿孤叮篐PC系統可能存儲著受《通用數據保護條例(GDPR)》、《加州消費者隱私法案(CCPA)》等數據隱私法規保護的敏感數據。違反這些法規可能會導致組織受罰和承擔法律責任?!?024云安全聯盟大中華區版權所有111.2HPC的架構為了使本報告有盡可能廣泛的適用范圍,我們將圍繞著NIST高性能計算 (HPC)參考架構描述文中討論的控制措施和其他建議。以下是對NIST參考架構中各個區域的簡要描述:訪問區訪問區外部世界數據存儲區管理區存儲節點集群內部網絡集群外部網絡高性能網絡高性能計算區高性能計算區:這個區域包含通過高速網絡互連的計算節點,通常使用GPU等硬件加速器。這個區域的軟件堆棧的安裝和配置是被集中管理的。數據存儲區:這個區域安裝著存儲系統,其中包括并行文件系統(PFS)、節點本地存儲器和歸檔文件系統。它存儲著HPC應用程序的數據。訪問區:用戶和管理員通過登錄節點、數據傳輸節點和Web門戶訪問HPC系統。這些節點提供數據傳輸和作業提交等各種服務。管理區:這個區域負責管理和維護HPC基礎設施。這里包含用于配置管理、網絡管理和服務管理等各種功能的服務器和交換機。了解HPC架構有助于為執行以下章節列舉的諸多安全控制措施打下基礎,而合理布局的架構是實現HPC安全的關鍵。例如,許多HPC系統就是因為在安全外殼(SSH)密鑰管理和外部訪問HPC系統的方式上存在架構性缺陷而被加密◎2024云安全聯盟大中華區版權所有12幣挖礦組織攻陷的。52.更強的安全保護帶來更優質的科研成果我們將用以下小節探討應用安全控制措施推動科研進步的例子。2.1輸入驗證輸入驗證是一種編程技術,可確保只能給應用程序輸入正確類型和格式的數據。輸入驗證是一項關鍵安全控制措施,可用于防止惡意輸入進入應用程序。6例如,輸入驗證是增強抵御跨站腳本(XSS)或SQL注入(SQLi)等攻擊的的一種潛在的保護措施。輸入驗證例程可用來限制應用程序只接受哪些類型數據,從而使攻擊者更難提供內含可執行內容的輸入,比如在XSS攻擊中輸入“<script>alert('XSS')</script>”,或者在化應用程序中,輸入驗證碼被用來確保用戶只給電話號碼字段輸入電話號碼,或者只給電子郵件字段輸入電子郵件地址,而在科研環境中,輸入驗證同樣具有重要價值。下面,以幾個用于檢查輸入是否為有效DNA序列的輸入驗證偽代碼為例。偽代碼舉例:#readinDNA#readinDNA#ChecktoseeiftheinputisactuallyjustDNAsequencecif($Seqin['A','T','C}這個偽例程的設計是為了讀取DNA序列并檢查該序列是否只由與4個典型DNA堿基對應的字母A、T、C、G組成。該偽例程可以防止RNA或蛋白質序列被錯誤輸入,從而幫助驗證,應用程序只使用適當數據。?/crypto-mining-campaign-hits-european-supercomputers/。6/◎2024云安全聯盟大中華區版權所有13同樣,對數字數據也可以進行類似的驗證。例如,pH值被要求作為輸入項,那么最好確保不要把25用作可接受值,因為pH值的范圍僅為0到14。在某些情況下,這種控制可能會顯得更為重要,例如當軟件定義的模型只對某些輸入范圍有效時。5000kg可能是一個完全有效的質量,但是如果軟件模型在設計上不能處理超過100g的質量,則5000kg就不會是有效輸入。重要的是我們必須認識到,輸入驗證控制不僅應該用于手動輸入的字段,還應該用于被作為輸入讀取的文件或從應用程序編程接口(API)或其他來源獲取的數據?!拜斎氲氖抢?,輸出的必然也是垃圾”一直是計算機科學的一個信條,而輸入驗證是確保減少錯誤輸出的主要手段。輸入驗證通過消除輸入錯誤可能導致的錯誤或無效結果,提高了科學應用程序生成結果的質量。應用程序的科學完整性和抵御攻擊的能力都會因為輸入驗證而得到改善。2.2錯誤處理對錯誤的處理是高性能云計算領域的一個關鍵組成部分。不當處理會對系統的可用性、性能和數據完整性產生直接影響。讓我們以一種經典錯誤處理情況為例——除以零。無論是出于缺少輸入驗證還是其他什么不可預見情況的原因,我們都很難想象在一系列冗長計算中會出現分母為零的情況。任何數除以零都會導致一個未定義的值,可能會在應用程序中引發問題,例如導致應用程序崩潰,或者更糟糕的是,計算進程繼續使用這個未定義的值,導致后續計算產生錯誤的輸偽代碼舉例:j=0tryf}outputdividebyzeroerror錯誤處理為應對這種情況提供了一種更好的手段——通過錯誤處理,應用程序可以適當退出執行并提醒用戶進行糾正,而不是讓用戶在可能不知情的情況下接受基于錯誤計算的結果。因此,錯誤處理是確保HPC應用程序內進行的計算◎2024云安全聯盟大中華區版權所有14的完整性,以及這些計算支持的研究的完整性的關鍵。高性能云應用程序在錯誤處理方面面臨著獨特的挑戰,這主要是由云環境的分布式特性、不斷增加的復雜性以及對實時響應的需要造成的。組織可以通過為云原生HPC應用程序執行強大的定制化錯誤處理,最大限度實現系統的可用性、保持數據的完整性,以及保證任務關鍵的計算和研究工作的可靠性。傳統的錯誤處理方法可能無法有效應對這些挑戰,因此需要為云原生應用程序專門量身定制策略。2.2.1用于高性能云計算的錯誤處理技術有效的錯誤處理對于保持高性能云計算環境的可靠性和性能至關重要。執行強大的錯誤處理技術不僅可以保證系統彈性,還能增強安全性、確保合規和優化用戶體驗。以下是將先進的錯誤處理技術集成到高性能云計算系統中的幾點關鍵策略:●執行把多項服務相互隔離的微服務架構,使每個組件都能獨立處理錯誤和容錯。●用先進的監測和日志記錄工具主動識別錯誤、追蹤其來源和促進快速調試。為錯誤日志和監測工具執行強訪問控制,確保只有得到授權的人員能夠訪問與錯誤相關的信息,以防止未經授權的訪問或操縱?!裼秒娐窋嗦菲鳈z測和處理故障,防止級聯故障,實現系統在高負載或有故障發生的情況下的平穩降級?!褚胫悄苤卦嚈C制,自動從瞬態錯誤中恢復,增強系統彈性。●進行受控實驗,模擬系統故障并評估系統做出的響應,識別錯誤處理中的薄弱環節,增強系統的穩健性。●在測試過程中有意給系統注入故障,以評估系統在不同場景下的錯誤處理能力?!駷閼贸绦蛟O計遇到錯誤時平穩降級的能力,確保即便在降級狀態下,關鍵服務仍然可用?!翊_保錯誤日志不包含個人可識別信息(PII),通過數據匿名化或偽匿名化落實《通用數據保護條例(GDPR)》的規定?!?024云安全聯盟大中華區版權所有15●制定并執行強有力的數據泄露響應計劃,其中包括處理涉及個人數據的錯誤的具體措施,確保達到《通用數據保護條例(GDPR)》的報告要求?!駞⒖糔ISTSP800-64,讓安全編碼實踐規范貫穿應用程序整個開發生命周期。審查代碼,著重關注錯誤處理機制,強調輸入驗證和安全錯誤消息,以防漏洞被人惡意利用?!駷殄e誤處理活動全面保留審計蹤跡,保證透明度和落實《通用數據保護條例(GDPR)》的可問責性規定?!裰贫ㄏ嚓P計劃,定期對參與錯誤處理的人員進行安全培訓和意識培養,確保員工能夠熟練識別和響應安全事件。嚴格依照《通用數據保護條例(GDPR)》和NIST指南的要求開展錯誤處理工作,幫助組織從一種全面和系統化的安全方法中獲益:既能保證高性能云計算的安全,同時還能給用戶帶來更好的體驗并提高研究完整性。2.3編碼和轉義注入攻擊始終是軟件系統面臨的一種持續威脅。這些攻擊往往利用用戶輸入中存在的漏洞,操縱經過攻擊者解釋的代碼,從而達到破壞系統完整性的目的。本節將深入探討SQL注入的具體情況,強調由其帶來的風險,介紹通過轉義和編碼實現的防御措施。所謂編碼,是指把特殊字符轉換成某種不同但等效的形式,而這種形式在目標解釋器中將不再危險,例如,在以HTML格式顯示的數據中用“>”取代“>”。轉義則是指在值之前添加一個特殊字符,以避免產生誤解,例如,在引證字符之前添加一個反斜杠“\”,以便將其解釋為文本,而非一個字符串值的結束。為了讓讀者更好地了解這些控制的工作原理,我們列舉了以下場景,其中一個Web應用程序通過嵌入在應用程序中的簡單SQL查詢收集用戶憑證以進行身份驗證7:偽代碼舉例:stringquery="SELECT*FROMusersHEREusernamestringquery="SELECT*FROMusersHEREusernamerequest.getParameter("userNa";ANDpassword="+request.getParamet◎2024云安全聯盟大中華區版權所有16對于像“some_user@”和“R@ndomPwd”這樣的合法用戶輸入,SQL查詢直截了當:SELECT*FROMSELECT*FROMusersWHEREusername='som然而,攻擊者可以通過注入諸如“admin'--”之類的惡意輸入來利用這一點,繞過出具口令的要求。這時,SQL查詢可能會變成:SELECT*FROMSELECT*FROMusersWHEREusername='admSQL中的“--”表示一條注釋,使查詢的其余部分變得無效。轉義原本可以防止這種攻擊,因為在SQL語句執行之前,如果將單引號轉義,使其只被視為普通文本而非特殊字符,就可以防止它們被解釋為一條注釋的開始。下面是另外一個復雜一些的攻擊例子:偽代碼:stringstringquery="SELECT*FROMusersWHEREusername='"+"'ANDpassword="+request.getParameter("password")+"'ANDstate='ACTIVE'A攻擊者可以通過將口令輸入為“'OR1=1/*”來操縱這一點:◎2024云安全聯盟大中華區版權所有17SELECT*FROMusersWHEREusername='admineadmiSELECT*FROMusersWHEREusername='admineadmi這個巧妙的注入成功了,因為口令條件始終為真,而查詢的其余部分都被注釋掉了。通過轉義引號,使其在執行SQL語句之前不再作為特殊字符,將再次防止攻擊的成功執行。2.3.1防御策略:輸入轉義和編碼為了幫助抑制此類攻擊,人們通常會按下文所述方式使用轉義和編碼。89-使用準備語句或參數化查詢,把用戶輸入用作參數,可防止惡意代碼-執行存儲規程,在數據庫內封裝和驗證輸入,可以降低未經授權操縱建議讀者通過確保適當的類型轉換、長度限制以及對特殊字符的檢查,把上述策略與前文所述嚴格的輸入驗證結合使用??煞乐顾鼈冊贖TML中被解釋成代碼。-在動態生成JavaScript時對用戶輸入進行編碼,可防止在腳本元素內◎2024云安全聯盟大中華區版權所有18發生注入攻擊?!馯RL編碼:-對用于URL的用戶輸入實施URL編碼,可確保它們被正確解釋而不產生歧義。對于HPC環境來說,執行強健的輸入轉義和編碼正變得越來越重要。這些技術增強了系統對抗注入攻擊的能力,為保持關鍵數據的完整性和安全性提供了一個關鍵保護層。盡管網絡威脅環境在不斷演變,但主動處理輸入的方式依然是構建富有彈性的安全軟件系統的基石。在科學研究方面,這些控制也有助于促進產生更高質量的科研成果,因為它們可以幫助消除數據完整性問題。轉義和編碼可以確保文本字符串被正確解釋,不會賦予它們以超出預期的特殊含義,而這有助于減少發生問題的潛在可能性,例如基因數據有時會由于字符解釋錯誤而被誤認為是日期。2.4更新機制作為龐大科學設備的HPC系統與射電望遠鏡和粒子加速器類似,需要投入巨額資金來構建和維護才能保持它們的運行和有效性。對這些系統的維護與維護其他大型IT基礎設施一樣,需要定期更新,以納入錯誤修復、執行安全補丁和集成新功能,從而確保實現最佳性能和安全性。在HPC環境中,故障停機可能會造成巨大財務損失,金額往往高達數十萬美元乃至更多。即便是短暫的系統中斷也會干擾正在進行的研究、計算進程或操作工作流程,導致顯著的生產力損失和錯失機會。因此,更新旨在盡量減少故障停機時間,確保關鍵計算資源可被最大限度訪問。HPC系統更新的主要目的是不斷增強系統能力,特別是在加快和實現大規模數值模擬(即我們常說的“數值運算”)上。這些更新涵蓋了系統的各個方面,其中包括優化計算算法、增強并行處理技術以及集成新硬件技術(例如加速器或協處理器)。HPC更新的另外一個關鍵目的是保持系統的完整性、可用性和可靠性,使其成為生成可重復科研結果的一致工具??芍貜托允强茖W方法的基礎,確保研究結果可被獨立檢驗和驗證。HPC系統更新的頻率和策略所基于的是與其他IT系統類似的原則。更新往◎2024云安全聯盟大中華區版權所有19往與企業的具體需要密切相關,由獲得對于保持競爭力或應對新挑戰至為關鍵的新性能的要求驅動。無論是提升計算能力還是啟用更先進的算法,是否進行更新的決定都應該建立在對這些改進究竟會在多大程度上符合企業戰略目標和運行需求進行全面評估的基礎上。因此,安全方面的因素也不容忽視。有效的HPC系統更新管理離不開健全的威脅建模和風險管理實踐。這其中包括了解企業的風險偏好以及高層領導對待風險的態度。識別潛在威脅和漏洞可令HPC站點得以根據更新的潛在影響以及它們被惡意利用的可能性排列各項更新的先后順序,確保最關鍵的安全隱患優先得到有效解決。當因安全威脅的出現而需要進行更新時,企業對HPC系統內執行的安全控制措施的信心會對企業將以什么方式進行更新產生影響。HPC站點在確定更新的緊迫性和范圍之前,必須對現行安全措施抑制潛在風險的有效性做出評價。對安全控制措施的高度信任可能會允許企業采取比較平穩的更新策略,而對漏洞的擔憂則可能促使企業采取更激進的打補丁策略。HPC系統對于企業的重要性在確定更新的頻率和性質方面起著關鍵作用。舉例來說,如果系統負責處理來自科研項目或運行流程中重要儀器的連續數據流,那么為了保持數據的完整性、可靠性和整體系統性能,可能需要迅速部署更新。而另一方面,非關鍵的HPC系統可能能夠容忍更長時間的突發停機。為了避免停機并減輕因更新帶來的不利影響,HPC系統的更新應該采取兼顧多方面需要的策略。首先,企業在執行更新之前應該對更新作全面升級測試,通常應該分階段或在測試環境中進行。在這些受控環境中,應該用嚴格的回歸測試工具(例如ReFrame)來審查系統變更的兼容性和穩定性,以及這些變更對受支持科研工作流程的影響。其次,HPC系統可以借助諸如Spack和EasyBuild之類的軟件包管理工具確保更新可在用戶環境中重復部署。這些工具可幫助系統化安裝和管理軟件包,保證不同計算節點和用戶會話之間的一致性。此外,HPC設施還要依靠自己的工程團隊和與供應商的合作來迅速解決測試階段遇到的任何問題。用戶在保持通過HPC資源取得的科研成果的可重復性和完整性方面發揮著關鍵作用。因此,管理員與用戶之間的合作對于預防問題發生和保持科研成果的完整性至關重要。用戶應該遵循強有力的數據和軟件管理實踐規范,其中包括版本控制、來源跟蹤、數據驗證、軟件物料清單(SBOM)生成,以及利用不可變◎2024云安全聯盟大中華區版權所有的軟件安裝方式,例如容器和SquashFS鏡像。此外,組織還應該鼓勵用戶采用與HPC中心相同的工具測試和部署自己的軟件。這些實踐規范可以確保計算工作流程的可追溯性、可靠性和透明性,把更新過程引入錯誤或差異的風險降至最低,同時還可以鞏固用戶與HPC中心之間的關系。為了降低更新過程中的網絡傳輸成本,特別是在涉及數千節點的云環境中,一種常用的方法是向節點靜態提供引導映像。這些引導映像通常經過預配置,只需要在啟動時進行最低程度的節點自定義設置,例如設置主機名等。這種方法在映像創建過程中就開始執行安全控制措施,可為在部署更新之前識別系統存在的潛在漏洞和配置錯誤帶來很大方便。另外,這種方法還能生成將會成為識別和處理未來漏洞的寶貴資源的工件,例如軟件物料清單(SBOM)。除此之外,把映像以只讀方式掛載還可以抑制與系統篡改相關的潛在問題,從而額外提供了一個安全層。限制對映像的寫訪問可以大幅度降低未經授權修改或篡改的風險,有助于保持已部署系統的完整性和安全性。這種只讀配置可以增強基礎設施的整體彈性,保護其免受潛在安全威脅侵擾,同時還能確保更新過程的平穩可靠。雖然分階段和在測試環境中測試更新可以最大限度降低HPC環境中存在的與更新相關的風險,但是認識到它們的局限性也很重要。這些測試環境通常由幾百個節點組成,與動輒由數千節點構成的生產性HPC系統相比,規模明顯要小得多。因此,盡管更新在這些受控環境中接受了嚴格的測試,但是在把它們轉移到更大規模的生產環境中時,仍然存在與生俱來的風險。這里的主要挑戰之一是,我們無法在測試系統中完全復制生產環境的復雜性和細微差別?,F實世界使用場景中具有代表性的大規模工作流程可能會表現出難以被復制到測試環境中的行為和依賴關系。因此,盡管更新分階段接受了全面測試,但是它們在生產環境中的表現,尤其是在大規模工作流程中的表現,始終存在一定程度的不確定性。此外,測試的有效性取決于測試集覆蓋范圍的全面性。盡管我們會在測試過程中盡可能廣泛地覆蓋用例和場景,但實現完全覆蓋實際上是不可能的。因此,存在與未經測試的邊緣案例或系統組件之間未被預見到的交互相關的剩余風險在所難免,而這些風險可能只會在生產環境中表現出來。另外,由于資源和時間有限,測試不可能無限期進行。即便擁有尖端測試框架和自動化工具,模擬和驗證系統◎2024云安全聯盟大中華區版權所有21變更的能力也是有限的。因此,在測試的深度和持續時間與及時部署更新以滿足運行要求之間,總是需要做出權衡。按計劃停機維護影響生產的嚴重程度由系統是更新還是升級,以及接受維護的具體組件決定。關鍵基礎設施組件,例如網卡(NIC)和電纜,可能會對連接形成干擾,而對工作負載管理器等中心服務的更新可能會影響作業調度和資源分配。操作系統的更新從打小補丁到重大升級不等,每種情況對系統功能和與用戶應用程序的兼容性的影響程度各不相同。而要求重新編譯用戶應用程序的更新則又增加了另外一層復雜性,極可能延長停機時間。因此,應該采用什么更新策略,主要取決于所涉資產是否參與數值模擬的提交或執行。在集群的外部網絡邊界上組部署虛擬化網關節點或堡壘(通常由3至7個節點組成)是一種常見的做法。這些節點是抵御蠻力攻擊的重要保護措施,并可作為跳轉主機進入HPC登錄節點。為這些堡壘選擇操作系統時,通常要針對其所提供的具體服務而量身定制——無論它們只是充當跳轉主機,還是提供諸如用戶主文件夾之類的最小服務,都是如此。由于它們發揮著HPC網絡接口的關鍵作用,并且有著與HPC系統的不同的用途——它們不參與科學模擬或數值預測——因此相較于基礎設施中的其他資產,它們更新的頻率會更加頻繁。一般來說,對它們應該采取金絲雀更新策略,最初只更新一個節點,如果所有測試全部通過,才會更新其余節點。更新的觸發規程會因HPC站點所用設備的不同而各異,但也可以簡單得像下面列舉的這個cron作業一樣。&&/&&/usr/bin/dnfupdate-rI1/usr/sbi/usr/bin/dnf在這個特定場景中,更新規程計劃在凌晨2:00啟動,只有當包管理器(本例中為DNF)確定節點處于可重啟狀態時才會激活節點重啟。腳本“is_the_lead_node_sane”扮演著關鍵角色,被用來評價主節點是否處于可以開始更新進程的穩定狀態。任何偏離正常狀態的情況都表明更新失敗,工程團隊會立即收到通知并著手干預。包管理器的選項,例如“--security”,由更新的頻率決定。一些設施會選擇每日進行安全更新,同時每隔X天進行一次全面系統更新。這種方法允許在固定且錯開的時間間隔內系統化更新剩余節點——同時、分批或單個進行均可,條件是“is_the_lead_node_sane”腳本有效運行?!?024云安全聯盟大中華區版權所有22自動化測試機制可以通過外部觸發器激活,也可以在系統啟動后由“systemd”模塊執行。后者提供了對外部服務的自主性和獨立性,可以通過具有適當權限的“is_the_lead_node_sane”腳本出現故障,則需要系統工程師手動介入,通過終端命令啟動更新,或者等待下一個更新周期。另外,外部觸發方法有其自身的優勢,可根據所采用的外部觸發解決方案,只需簡單點擊鼠標即可手動更新。數據傳輸節點采用的更新機制與堡壘節點的更新機制基本相同,但有一個關鍵區別:需要檢查節點是否介入了任何正在進行的傳輸作業。因此,傳輸節點作業在后記中額外集成了一層驗證,用于防止關鍵數據傳輸操作受到干擾,同時確保安全更新能夠順利進行。決定更新的條件是節點的正常運行時間,必須保證只有當節點處于閑置狀態時才啟動更新。在這種框架下,可以安排每天在沒有傳輸作業運行的時候更新傳輸節點,也可以按傳輸作業策略規定的時段更新。因此,制定有限制的傳輸作業策略至關重要,而不可選擇無持續時間限制的作業執行方式,因為持續不斷地執行作業可能會妨礙系統及時更新。另外一種方法是時刻檢查更新,并且無論當前是否有傳輸作業在進行,都執行安全更新。在這種情況下,需要由用戶負責在更新完成后重新啟動傳輸作業。這一策略優先考慮了系統安全,同時又承認把傳輸操作的連續性交給用戶管理的必要性。系統完整性與運行連續性之間取得平衡后,HPC環境下的數據傳輸節點即可達到安全標準,也可保證運行效率。Web門戶通常要借助云編排技術部署,由這些技術為管理和更新基于Web的應用程序提供靈活和可擴展的解決方案。門戶采用的具體更新機制會因負責其運行的工程團隊偏好的策略而各異。一種更新Web門戶的方法是利用持續集成/持續部署(Cl/CD)管道。在這種模型中,更新通過一系列自動化步驟自動集成、測試并部署到生產環境中。一些工程團隊可能會選擇采用手動更新規程,特別是對具有復雜架構或敏感數據要求的Web門戶。手動更新往往需要更為謹慎,即應該先在分階段環境中進行全面測試之后,再把更新應用到生產環境中。此外,云編排技術通常還會提供內置的滾動更新功能,使更新得以逐步施用到Web門戶,只對用戶有極小影響。滾動更新即為一次更新應用實例的一部分,確保門戶在整個更新過程中始終保持可訪問和功能正常狀態。這種方法有助于把◎2024云安全聯盟大中華區版權所有23停機和服務中斷時間縮減至最短,使更新過程無縫進行,同時保持良好的用戶體從我們在架構圖中列出的資產列表可以看出,HPC系統中的其余資產主要用于數值模擬的提交和/或執行。所以,更新過程必須以一種能夠讓用戶適應其工作流程有可能受干擾的方式進行。有鑒于此,更新一般每年進行幾次,尋求在系統維護與計算能力不被中斷之間達到某種平衡。一些HPC中心每年進行兩次更新,在這個過程中需要全面停機,以確保所有組件的更新都得到全面執行和測試。管理HPC服務的另外一種策略是利用云編排器,這種做法可以為傳統的系統部署和更新方法帶來范式轉變。云編排器的采用可以大幅度減少對通過專用分階段系統進行操作系統或服務更新的依賴。這種變革性方法使多項服務升級并行接受測試成為可能,縮短了關鍵組件的測試周期。在這個場景下,云編排器能夠用一個專被分配來用于測試目的的節點子集部署一個小型集群。這種創新性測試環境為在受控環境中評估更新,進而在把更新部署到生產環境之前對更新進行充分驗證提供了方便。當然,這種測試方法同樣存在缺點——認識到這一點非常重要。部署小型集群進行測試會不可避免地帶來權衡取舍問題,因為這樣做需要與測試或生產系統爭奪資源。資源的這種重新分配意味著要從這些系統中抽取一部分容量來部署每個單獨的測試,從而會影響整個系統的性能和容量利用率。盡管存在這些缺點,但是云編排器帶來的并行測試和更新周期縮短好處往往會超過相關的資源分配挑戰。不過,通過云編排器為計算節點和集群服務提供HPC服務的做法會引入額外的復雜性和安全考慮因素。這種架構擴大了保護和更新HPC系統和服務的傳統任務,提供集群的云編排器的整個基礎設施都被涵蓋其中。范圍被這樣擴大后,HPC中心不僅必須滿足其核心HPC資源的安全保護和維護需要,還必須滿足云編排器環境的需要。云編排器的集成要求全面掌握傳統HPC系統和云技術,這對系統管理員提出了獨有的挑戰。他們必須在兩個各自有一套工具、協議和最佳安全實踐的不同技術棧之間穿行并實施管理。這種雙重性給HPC中心實施的安全教育培訓和意識培養計劃施加了額外的壓力——它們必須培養出能夠有效管理和保護這兩種環境的管理員?!?024云安全聯盟大中華區版權所有2.5信息庫驗證科學計算領域的開發人員常常會開發使用多個信息庫的應用程序。標準化信息庫讓科學界的開發者享受了許多好處,因為使用驗證過準確性的信息庫可以幫助確??蒲薪Y果的有效性和可重復性——與白手起家建庫相比,使用現成的信息庫通常會大大降低引入錯誤的可能性。信息庫中的內容是可供重復使用的代碼片段,可以使應用程序的開發變得更快、更容易。這些代碼可由構建應用程序的同一團隊開發(第一方庫),可由與應用程序開發團隊有合作關系的另一團隊開發(第二方庫),也可由提供信息庫或資源的任何其他方開發(第三方庫)。無論是哪種情況,我們都必須清楚,一個庫可能會同時使用其他庫,而這些庫可以屬于前面提到的任何類型。由此不難看出,即便研究項目的復雜性極低,都可能存在一條由多個庫組成的長鏈,而這些庫在許多情況下并不是主要開發者自己構建的。信息庫具有通過以下兩種主要方式在已完成開發的應用程序中引發安全問題的潛在可能性。首先,信息庫可能會給應用程序的代碼庫引入漏洞,在存在依賴樹的情況下,開發者以及托管和支持應用程序的團隊可能對這些漏洞并不知情,甚至根本就沒有想到,這也是軟件物料清單(SBOM)日益變得關鍵的原因之一。其次,針對軟件庫的供應鏈攻擊越來越猖獗,威脅者會給庫插入惡意軟件或其他惡意內容,以達到破壞目標環境的目的。針對Python包倉庫PyPI的攻擊便是一個例子10。雖然把惡意軟件擋在組織大門之外至為關鍵,但是保持結果的完整性,確保所使用的任何信息庫均不曾被人篡改也同樣重要。信息庫被人篡改后,可能無法再達到預期的準確性或產生預期的結果。以下幾種最佳安全實踐可以幫助減少脆弱的信息庫面臨的風險:開發人員在構建和測試應用程序時,應該只使用源于已知可信來源的信息庫。開發人員應該避免使用過時或文檔不完善的信息庫。此外,對信息庫的依賴項應該逐一測試。每個信息庫都會有多個依賴項,例如其他第三方庫、外部API、用戶輸入等。當前有多種工具可以幫助對信息庫進行此類測試。開發人員應該通過 /en-us/2021/03/07/poison-packages-supply-chain-risks-user-hit◎2024云安全聯盟大中華區版權所有25集成測試保證應用程序以符合預期的方式運行。最后,開發人員還應進行靜態應用程序安全測試(SAST)和動態應用程序安全測試(DAST),以找出信息庫中可能存在的漏洞。如果所用信息庫得自可信來源,而且是最新版本,這些安全測試取得理想結果應該不成問題。應用程序投入運行后,開發人員應該定期檢查所用信息庫是否有了新的漏洞。檢查可以使用上面提到的技術,也可以通過執行版本管理系統來進行。如果正在使用的信息庫變得越來越脆弱,則應該有一個流程確保盡快進行更新,以防攻擊者利用新的漏洞篡改科研結果。盡管上述技術可以幫助組織檢查他們考慮使用的信息庫的安全問題,但是組織可能還需要考慮他們預計要分發的信息庫面臨的安全挑戰。因此,組織需要考慮采取一種方法,使信息庫的用戶可以驗證庫的完整性。校驗和或安全代碼簽名等技術可用于幫助驗證代碼的完整性和真實性。2.6內存安全控制措施和OpenMP在HPC中,內存對于執行復雜科學和工程應用至關重要。內存是計算機處理器處理數據的臨時存儲空間,直接影響著HPC處理大型數據集和執行計算密集型任務的能力。HPC內存安全是指通過技術手段來防止HPC應用程序出現內存訪問錯誤。內存訪問錯誤是一種常見問題,有可能導致程序崩潰、數據損壞和安全漏洞。以下是HPC應用程序中常見的一些內存訪問錯誤?!駭祿偁帲寒斢卸鄠€線程嘗試同時訪問和修改同一內存位置時,就是發生了數據競爭。這有可能導致數據損壞,因為不同的線程可能會彼此覆蓋更改?!駜却嫘孤簝却姹环峙浜蟛辉籴尫懦鰜?,就是發生了內存泄漏。這最終有可能導致程序耗盡內存并崩潰。當線程嘗試訪問超出其堆棧幀的內存時,就是發生了堆棧溢出。這有可能導致程序崩潰或產生安全漏洞。●雙重釋放內存:當內存被分配、釋放,然后又再次釋放時,就是發生了雙重釋放。這有可能導致內存損壞和安全漏洞。●釋放后使用:當先前已釋放的內存被直接或間接使用時,就是發生了釋◎2024云安全聯盟大中華區版權所有26放后使用。這有可能導致數據損壞和安全漏洞。內存安全控制措施技術可通過執行訪問規則、檢測違規行為和提供恢復機制來幫助防止出現這些錯誤。常用的HPC應用程序內存安全控制措施技術包括:●內存屏障:這些指令確保所有線程在完成一個內存操作之后才開始下一個內存操作。●原子操作:這些操作保證能夠以原子方式執行,即便操作被其他線程中斷也是如此?!駜却嬗成湮募哼@些文件被映射到進程的虛擬內存中,可幫助改善內存訪問性能和安全性?!駜却嬲{試器:這些工具可以識別和調試內存訪問錯誤。●指針標記:這項技術涉及為指針分配標簽,以標明指針的類型和擁有權。根據標簽執行訪問規則可以幫助防止內存錯誤。●保護頁:這項技術涉及給被分配的內存區域周圍添加額外的內存頁。這些保護頁可在被訪問時觸發異常,以此來檢測內存訪問錯誤?!駜却婊貪L:這項技術可將內存狀態恢復到發生錯誤之前的某個時間。HPC開發人員和用戶還可以采取其他措施來解決內存安全問題:●使用具有內存安全性能的語言和信息庫:一些編程語言,例如C++17、Rust等,內置有內存安全性能,可幫助預防常見內存訪問錯誤?!癫捎渺o態分析工具和模糊測試:靜態分析工具可以在開發過程中識別代碼中的潛在內存安全漏洞,而模糊測試可以生成隨機測試用例來觸發與內存相關的漏洞?!褡裱踩幋a實踐規范:避免緩沖區溢出、恰當釋放內存和正確初始化所有變量。●執行嚴格的測試和驗證規程:這其中包括在各種情況下用自動化測試工具測試應用程序,以驗證內存安全性?!袷褂脙却婀芾韼欤哼@些庫可以提供比傳統編程語言構造更強和更高效的內存管理方式。像libunwind和Valgrind這樣的管理庫可幫助跟蹤內存分配和內存釋放、檢測內存泄漏和識別與內存相關的其他問題?!駥﹂_發人員和用戶開展有關內存安全的教育:開發人員和用戶需要了解◎2024云安全聯盟大中華區版權所有27內存安全問題的潛在風險以及遵循安全編程實踐規范的重要性。這一點可以通過培訓、發放相關文件和開展意識培養活動來實現?!癯掷m監測和改進內存使用:持續監測HPC應用程序的內存使用情況,以識別和解決潛在問題非常重要。這一點可以通過使用性能計數器和監測面板等工具實現。HPC開發人員和用戶可以通過采取這些措施并把其他因素(例如內存膨脹和地址空間布局隨機化[ASLR])考慮周全來創建更可靠、更安全、更高效和更有效的應用程序。內存膨脹是指內存被分配后不再釋放出來,導致未被使用的內存始終占用資源。這可能會影響性能并增加發生內存相關錯誤的可能性。HPC開發人員應該嚴格執行內存管理策略,確保內存既被適當分配也被適當釋放,從而解決這個問題。地址空間布局隨機化(ASLR)是另外一項可幫助提高內存安全性的技術。ASLR隨機化虛擬內存空間中內存頁的位置,增加了攻擊者預測和利用內存漏洞的難度。這一技術可以有效抑制基于內存的攻擊和增強HPC系統的整體安全性。HPC開發人員還可以利用加速器;這是一種專為處理特定計算而設計的硬件設備,比CPU更高效。把任務卸載到這些專用設備上可以最大限度減少主內存系統的負載。而對主內存使用的減少可以顯著降低發生內存相關錯誤的風險,例如內存泄漏和懸空指針。值得一提的是,內存管理的改進還可以提高代碼的科學質量。例如,競態條件不僅可能導致安全問題,還可能導致由于線程或進程訪問或寫入內存中存儲的值的順序不同而產生不一致的輸出。如果內存以錯誤的順序訪問,這些問題往往會導致不正確的輸出,從而造成結果與算法原本應該產生的預期結果不符。消息傳遞用于協調構成HPC系統的諸多節點,允許多個進程在HPC系統的不同節點上獨立(擁有各自的內存和執行環境)但并發地運行。這些進程可以通過使用消息傳遞接口(MPI)交換數據和相互通信。如果架構設計不當,通過消息傳遞進行通信的節點會極易受競態條件影響,還可能會通過傳遞中的消息給進程注入錯誤或惡意內容。◎2024云安全聯盟大中華區版權所有28通過MPI確保HPC通信的安全是保證數據的完整性和保密性的關鍵。以下是一些常用于這一目的技術手段和實踐規范:●加密:在進程之間傳輸的數據應該加密,以防數據被未經授權訪問。這在處理敏感數據時尤為重要?!裆矸蒡炞C:在允許進程加入MPI通信組之前,首先要對進程進行身份驗證。這樣做可以阻止未經授權的進程參與計算并訪問數據。●完整性檢查:可以用校驗和或其他完整性檢查來確保數據在傳輸過程中不曾被人篡改?!癜踩腗PI執行方案:一些MPI執行方案內置有安全性能。例如,MPICH2的MPI執行方案支持安全套接層(SSL)和傳輸層安全(TLS)協議,由這些協議提供安全的加密通信?!窬W絡安全:從更廣泛的層面上說,用于MPI通信的網絡基礎設施也應該得到安全保護。這其中包括通過防火墻控制流量、把MPI通信網絡與其他網絡隔離,以及監測網絡活動以發現入侵跡象。我們以這樣一個場景為例,其中有一個HPC應用程序正在處理敏感數據。該應用程序通過MPI在多個節點上進行并行計算。為了確保MPI通信的安全,該應用程序使用了支持SSL/TLS的MPI執行方案。在數據被從一個進程發送到另一個進程之前,應用程序用SSL/TLS給數據加密。接收進程在接收數據時進行解密。這確保了即便數據在傳輸過程中被截獲,也無法被未經授權的第三方讀取。此外,提高消息傳遞的安全性還可以讓研究受益。例如,消除競態條件的潛在可能性有助于確保進程按正確順序執行,從而保證了研究結果的準確性。請注意,這些技術手段盡管可以大幅度增強MPI通信的安全性,但是它們同時還會帶來額外的開銷并影響HPC應用程序的性能。因此,在設計和執行HPC應用程序時,必須在安全性和性能之間找到平衡。2.8零信任零信任的原則是“永不信任,總要驗證”。在零信任架構中,任何實體,無論來自內部還是外部,都不被默認可信。每個用戶、設備和應用程序都被視為不可信,不論它們處于什么位置,在訪問資源之前都必須接受身份驗證和認證。在◎2024云安全聯盟大中華區版權所有29HPC環境中采用零信任安全模型,可為解決與研究完整性相關的安全問題提供一種主動和全面的方法。這種主動和持續的驗證可以最大限度縮小受攻擊面、降低網絡內部的橫向移動風險和增強整體安全態勢。零信任高性能云計算的關鍵策略:●遵循NIST零信任架構(ZTA)框架,強調持續驗證、嚴格的訪問控制和最低權限原則的重要性。●實施微分段,把網絡劃分成相互隔離的小段,以限制橫向移動并控制潛在威脅?!駷橛脩羯矸蒡炞C執行多因素認證(MFA),以在口令之外增加一層安全保護,確保只有得到授權的人員可以訪問。●利用強大的身份和訪問管理(IAM)解決方案管理和控制用戶的訪問、權限和角色,確保落實最低權限原則?!駡绦谐掷m監測和實時威脅檢測,以快速識別和響應可疑活動或異常情況?!窠o傳輸中的和靜止狀態的數據加密,以保護敏感信息不被未經授權訪問?!裢ㄟ^相關機制征得用戶對數據處理活動的明確同意,為個人數據提供透明性和控制。●促進數據主體權利的行使,例如訪問、更正和刪除個人數據的權利,同時確保這些過程的安全性。●通過適用的身份驗證和授權機制來保護API,確保只有得到授權的應用程序能夠訪問API和與API交互?!裨诳尚械那闆r下通過先進的端點保護機制來加強端點安全(例如通過專門用于訪問HPC系統的工作站或跳轉箱),因為一些端點安全工具可能會影響性能。●加固系統,定期更新和打補丁,以抑制漏洞風險。●采用網絡安全控制措施,例如防火墻、入侵檢測/預防系統和安全網頁網關,以過濾和監測流量。●整合NISTSP800-53第5修訂版規定的安全和隱私控制11,確保以一種基于風險的全面方法管理云安全。◎2024云安全聯盟大中華區版權所有30●采用NISTSP800-53規定的安全DevOps控制,讓安全保護貫穿系統的整個開發生命周期,確保從一開始就把安全問題考慮周全。●遵循NISTSP800-37第2修訂版闡明的NIST風險管理框架(RMF)12,在高性能云應用程序的部署和運行工作中落實風險管理原則。組織可以通過遵循這些《通用數據保護條例(GDPR)》和NIST指南,為高性能云計算構建一個強大的零信任(ZT)安全基礎,把身份管理、持續監測、安全配置、數據保護和事件響應等關鍵方面全部涵蓋其中。零信任還可以幫助提高HPC系統和應用程序的科學完整性,因為它確保只有得到授權的操作被允許執行。零信任通過這種做法限制了錯誤操作對輸出結果的質量產生負面影響的潛在可能性。組織可以借助零信任建立一個富有彈性的安全基礎,不僅保護敏感數據,還保持科研社區的可信性和聲譽。2.9HPC的網絡安全在HPC中,網絡分段是一項關鍵的網絡安全策略,涉及把企業網絡劃分成離散的子網或網段。這種方法可以把關鍵組件單獨隔離,強化了安全性和對敏感數據的保護。網絡分段在HPC中的一個重要應用是把HPC系統的各個組件隔離到不同的安全區域內,例如把訪問區與其他區域(例如數據存儲區和計算區)隔離。這種分段可以阻止未經授權者訪問關鍵組件,從而降低潛在安全漏洞的影響。網絡分段還可以充當一種安全控制措施,幫助提升HPC系統的性能,因為適當的網絡分段可以減少網絡噪聲,進而可以改善網絡吞吐量和延遲。把一個網絡劃分成NIST建議的高性能計算區、數據存儲區、訪問區和管理區,并視每個區域為一個獨立的安全區域,可以帶來許多安全優勢,具體如下所安全區域是網絡和信息安全的一個基本概念。它們被用來根據安全要求、可信級別和數據敏感性對網絡或計算環境的不同區域進行分類和隔離。安全區域是網絡分段和訪問控制的關鍵組成部分。安全區域在網絡內定義了不同的網段,每個網段都設置有特定的安全控制措◎2024云安全聯盟大中華區版權所有31施、訪問策略和信任邊界。這些區域的建立旨在實現這樣幾個目標:●隔離:安全區域把特定區域內的資源和數據與其他區域隔離開來,限制潛在威脅橫向移動?!裨L問控制:安全區域執行訪問控制,規定了哪些人員或哪些設備被允許與特定區域內的資源通信?!駭祿Wo:通過把敏感或關鍵數據隔離在指定區域內來幫助保護它們?!耧L險降低:安全區域可最大限度縮小受攻擊面和限制安全漏洞,從而降低整體風險。區域之間的通信應該僅限于在得到批準的通信信道內,而這些信道具有增加控制的潛力。通信信道即為數據和信息在各安全區域之間流動的路徑或管道。這些信道包括物理網絡、虛擬連接或組織架構內的邏輯路徑。設立通信信道的目的是在保持安全和信任邊界的同時,促進數據和服務在安全區域之間的受控交換。通信信道受基于其所連接的區域的特定安全要求和可信級別的安全控制措施和策略轄制。通信信道與安全區域之間的交互涉及:●訪問控制策略:每條通信信道都受其所連接的安全區域規定的訪問控制策略轄制。這些策略決定了哪些人員或哪些設備被允許通過該信道訪問兩端的資源。●網絡分段:通信信道用于執行網絡分段,確保把不同的安全區域隔離開來。這一點對于控制數據的流動和減少安全漏洞的影響至關重要。●安全措施:通信信道必須嚴格執行其所連接的安全區域定義的安全措施和控制。例如,通過通信信道傳輸的敏感數據可能被要求必須實施強加●監測和審計:通信信道內的活動接受監測和審計,以查出任何未經授權訪問或數據泄露。安全信息和事件管理(SIEM)系統常被用來達到這一對不同的安全區域還可以按不同的可信級別進行劃分,以幫助確定安全需要。例如,訪問區的可信級別應該有別于管理區。每個安全區域都會分配可信級別,以反映要求該區域必須達到的可信度和安◎2024云安全聯盟大中華區版權所有32全水平??尚偶墑e有助于確定可在一個區域內托管的數據和服務類型,以及所需要的訪問控制和安全措施級別。與安全區域的交互涉及:●數據敏感性:可信級別影響安全區域內的數據分類。更高的可信級別往往與更敏感的數據對應,因此要求采取更嚴格的安全措施?!裨L問控制:可信級別決定了一個區域必須執行的訪問控制策略??尚偶墑e更高的區域可以對受權用戶執行比較寬松的訪問策略?!癜踩胧嚎尚偶墑e決定了一個區域需要采取的安全措施的級別??尚偶墑e更高的區域通常必須執行更強的加密、身份驗證和入侵檢測系統。●通信邊界:可信級別有助于建立通信邊界,決定了哪些安全區域之間可以相互通信??尚偶墑e更高的區域與其他高可信級別區域之間的通信邊界可以比較寬松。2.10安全飛地前面講的許多策略還常被用來通過創建安全飛地來提高安全性和改善研究的完整性。13這些安全飛地是指配備了基于硬件的加密和隔離技術的私密內存區域,被突出為一種解決方案。安全飛地可以保護各種人工智能(Al)和機器學習 (ML)資產,其中包括:●原始數據:用于機器學習(ML)算法的敏感數據可以在使用、傳輸和存儲過程中得到保護,從而降低暴露風險和確保數據隱私?!駥S杏柧氁妫喊踩w地保護用于訓練機器學習模型的算法和技術,即便這些算法在不可信硬件上運行?!裢评?專家引擎:基于實時數據的決策引擎受到保護,確保企業的專業知識和核心價值安全無恙?!駭祿Y論:在安全飛地內生成的數據被默認是安全的,對暴露的風險可以通過執行策略來控制。使用安全飛地不僅可以降低數據和知識產權風險,還可以為從更廣泛的數據集構建強大能力提供機會。安全飛地通常與安全區域和數據分類理念結合使用?!?024云安全聯盟大中華區版權所有332.11日志記錄日志記錄在保護HPC應用程序的許多方面發揮著關鍵作用?!窆收吓懦喝罩居涗浛蓭椭R別和診斷系統、應用程序或網絡中存在的問題。系統管理員通過查看日志,可以發現表明存在潛在問題的模式或錯誤。這使及時排除故障和解決問題成為可能?!裥阅鼙O測:日志記錄允許通過跟蹤響應時間、資源使用情況和數據吞吐量等指標來監測系統性能。分析這些日志有助于優化系統和提高整體性●安全增強:日志記錄可幫助檢測和響應安全威脅。日志可以通過跟蹤失敗的登錄嘗試、未經授權訪問和其他可疑行為提供有價值的見解。這些信息有助于識別和抑制安全漏洞,保護敏感數據和保持系統完整性。實施強有力的日志記錄和審計實踐。對日志記錄數據的訪問、修改和其他系統變更可為司法調查提供審計蹤跡。合規是保持可信度和遵守行業法規的關鍵?!駳v史記錄:日志創建了系統活動和變更的歷史記錄。這些記錄為未來參考、趨勢分析和決策提供了寶貴的資源。了解過去的事件可幫助就改進和更新系統做出決策?!窀蚍治觯寒斢惺录l生時,詳細的日志使人得以深入分析根因。日志可以通過追溯導致問題發生的事件,幫助確定漏洞、錯誤配置或惡意活動。●取證與調查:安全事件發生后,日志將充當關鍵證據。它們可以協助開展事后調查,幫助安全團隊掌握攻擊向量、受影響的系統以及事件的影盡管日志記錄是安全生態系統的一個重要組成部分,但它同時也為這個環境引入了某些風險。●性能影響:日志記錄可能會顯著影響系統性能。寫入日志涉及輸入/輸出操作(例如硬盤寫入),這會消耗CPU周期、內存、存儲帶寬、硬盤空◎2024云安全聯盟大中華區版權所有34間和緩沖內存等資源。過度的日志記錄可能會降低應用程序的運行速度,對應用程序的響應能力和吞吐量造成影響。●緩沖區溢出:當程序寫入超出被分配的緩沖區的邊界時,就是發生了緩沖區溢出。如果日志庫沒有進行適當的邊界檢查,有可能導致內存損壞和安全漏洞?!駪覓熘羔槪簯覓熘羔樖侵钢赶蛞驯会尫诺膬却婊驘o效內存的指針。如果日志庫處理指針不當,可能會導致未被定義的行為和安全問題?!窀袷阶址┒矗喝绻罩編煸试S使用不受控制的格式字符串(例如用printf風格格式化),可能會導致任意代碼執行或信息泄露。●注入攻擊:日志庫如果未適當清理輸入,面對注入攻擊(例如SQL注入或命令注入)時會變得十分脆弱?!窀倯B條件:在多線程環境中,日志庫如果未能正確處理并發訪問,可能會出現競態條件。這可能會導致非預期行為或安全漏洞?!駜却嫘孤喝罩編烊绻茨苓m當釋放內存,可能會導致資源耗盡和潛在的拒絕服務(DoS)攻擊?!衩舾袛祿孤叮喝罩局杏涗浀拿舾行畔?例如口令、令牌)可能會暴露給未經授權人員?!裆矸蒡炞C/授權缺失:日志庫應該執行適當的訪問控制,以防未經授權用戶篡改日志?!癫话踩奈募嘞蓿喝绻罩疚募试S任何人訪問,敏感數據可能會暴●不充分的錯誤處理:日志庫的錯誤處理不當有可能導致非預期行為或系統崩潰?!褚蕾嚶┒矗喝罩編焱枰蕾嚻渌M件(例如第三方庫)。由這些依賴性產生的漏洞可能會影響整體安全性。例如,BoostC++日志庫14曾被發現存在一些安全風險。1?/vulnerab◎2024云安全聯盟大中華區版權所有352.12漏洞管理HPC系統的漏洞管理對于提升科學成果至關重要。我們以一個用HPC系統進行氣候建模的研究機構為例。這些模型需要使用大量數據和計算資源,得出的結果對于了解和應對氣候變化具有重大影響。●數據完整性:有效的漏洞管理可以確保這些模型所用數據的完整性。如果有漏洞被人利用,數據可能會被篡改,導致生成不準確的模型結果。組織可以通過主動管理漏洞,獲得對其數據完整性和模型準確性的信心。●系統可用性:漏洞還可以被利用來破壞系統可用性。例如,DoS攻擊可以使HPC系統陷于癱瘓。而這將延遲模型的處理,減緩研究的步伐。漏洞管理可幫助防止出現這種系統中斷,確保研究人員能夠在需要的時候訪問他們需要的資源。●保密性:一些研究可能涉及必須保密的敏感數據。漏洞管理可以幫助保護這些數據免遭未經授權訪問?!衤曌u:有效的漏洞管理可以提升組織的聲譽。組織可以通過表明自己對網絡安全的承諾來贏得合作伙伴、資助者和公眾的信任。HPC系統漏洞管理直接支持組織的科研使命。它確保研究人員能夠有效、安全、自信地開展工作,從而產生更可靠和具有影響力的科研成果。以下是可協助做到這一點的幾個流程?!褓Y產發現與清單管理:IT專業人員可以用資產清單管理系統來跟蹤和維護公司數字環境內所有設備、軟件、服務器等的記錄?!衤┒磼呙瑁郝┒磼呙杵骺梢詫ο到y和網絡進行一系列測試,以查找常見弱點或缺陷。例如,像npmauditfornode和mavendependencies-check這樣的包管理工具可用來檢測庫的依賴關系中存在的漏洞?!裱a丁管理:補丁管理軟件可幫助確保計算機系統打上最新安全補丁。大多數補丁管理解決方案會自動檢查更新,并在有新補丁發布時提示用戶?!衽渲霉芾恚喊踩渲霉芾?SCM)軟件可幫助確保以安全的方式配置系統,它們能夠跟蹤和批準對設備安全設置的更改,同時保證系統安全策略合規?!裰笜藴y量:漏洞管理程序會對某些指標進行測量,以評價它們的有效性?!?024云安全聯盟大中華區版權所有36這些指標可能包括掃描覆蓋率、掃描頻率、關鍵漏洞數量、已關閉漏洞數量以及排除項。例如,美國陸軍作戰能力發展指揮部分析中心借助HPC對國防部的可存活性、脆弱性和致命性建模進行更快速和更復雜的分析。15需要注意的是,漏洞管理必須不間斷持續進行,才能始終適應新出現的威脅和不斷變化的環境。組織在為HPC系統制定漏洞管理計劃時要充分認識到,市場上有售的許多漏洞掃描器可能無法檢測出運行在HPC系統上的許多專業軟件應用程序和信息庫的過時版本,因此,使用商業化漏洞掃描器可能只能揭示系統中實際存在的部分漏洞。組織可能還需要考慮采取諸如資產清單和版本跟蹤之類的策略,以此來補充商業化漏洞掃描器的功效。盡管打補丁修補漏洞確實有助于提高研究結果的完整性,因為經過更多次修補的軟件版本往往意味著其代碼庫錯誤更少,但是我們必須清楚,并非所有舊庫和舊版軟件都是可以修補或更換的。科學研究的可重復性需要往往決定了舊版軟件必須保留,以防將來出現重復一組關鍵計算的需要。雖然打補丁是一項關鍵的安全控制措施,但是HPC系統的漏洞管理還必須考慮采用抑制漏洞的補償性控制,以應對沒有補丁可用的漏洞或需要為科研的可重復性而維持的遺留軟件。3.結論利用高性能計算(HPC)取得更好研究成果之旅需要精心的規劃、強大的基礎設施和對安全的高度關注這三點的緊密結合。我們的這次探索表明,提高HPC系統和應用程序的安全性,具有提升各領域(包括金融、醫療和科學研究)研究質量和研究完整性的巨大潛力。首先,采用HPC架構和部署的最佳實踐規范至關重要。這涉及精心設計可/article/252336/armyvulnerabilitylethalityanalysisbolsteredthrough◎
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 家居建材團購鏈家居間協議
- 芯片半導體制造基礎知識
- 端午節國防教育
- 藝術培訓合同:演員技能提升與演出合作
- 西城區歷史文化名城保護工程合同協議
- 2024漣源市創成科技職業學校工作人員招聘考試及答案
- 2024河南省經濟技術中等職業學校工作人員招聘考試及答案
- 2024河北省成安縣綜合職業技術學校工作人員招聘考試及答案
- 腦卒中個案護理匯報
- 特定漁船股權轉讓合同
- 2025年河北省保定市徐水區中考一模語文試題(原卷版+解析版)
- 2025屆貴州省安順市高三二模語文試題
- 2025中國海洋大學輔導員考試題庫
- 新疆維吾爾自治區普通高職(??疲﹩握姓呓庾x與報名課件
- 2024年昆明渝潤水務有限公司招聘考試真題
- 2025-2030中國小武器和輕武器行業市場發展趨勢與前景展望戰略研究報告
- 高中主題班會 高考勵志沖刺主題班會課件
- 高三復習:2025年高中化學模擬試題及答案
- 月考試卷(1~3單元)(試題)-2024-2025學年六年級下冊數學人教版(帶答案)
- 老舊街區改造項目可行性研究報告
- 中考英語寫作指導課件(共41張PPT)
評論
0/150
提交評論