云原生容器基礎設施運維實踐_第1頁
云原生容器基礎設施運維實踐_第2頁
云原生容器基礎設施運維實踐_第3頁
云原生容器基礎設施運維實踐_第4頁
云原生容器基礎設施運維實踐_第5頁
已閱讀5頁,還剩8頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、云原生容器基礎設施運維實踐Manage large scale Kubernetes nodes in Cloud-Native fashionAgenda阿里巴巴節點運維的挑戰KubeNode:云原生節點運維底座未來展望阿里巴巴節點運維的挑戰規模大數百ASI集群 (Ali Serverless Infra, ACK + Ali addon)數十萬節點 (單集群節點最多10k臺)數萬應用數百萬容器環境復雜x86 / ARM / GPU / FPGA在線 (應用類型差異大)、混部、安全容器穩定性要求高在線業務延遲、抖動敏感宕機、夯機業務無感知KubeNode:阿里巴巴云原生節點底座What &

2、Why以云原生方式管理節點生命周期及節點組件申明式、面向終態組成:中心端:Machine Operator :節點及組件管理Remedy Operator : 節點故障自愈節點側:Kube Node Agent:單機 agent配套組件:Kube Defender 統一風控NPD: 單節點故障檢測kube-apiserverKube DefenderASI Control PlaneMachine OperatorRemedy OperatorKube Node Agent節點組件(kubelet / docker / npd / .)Node阿里云、AWS、Azure .KubeNode 和

3、社區項目關系/kube-node不相關,該項目2018年初已停止ClusterAPIKubeNode 可以作為 ClusterAPI 節點終態的補充功能對比:Cluster APIKubeNode集群 ProvisionYesNo節點 ProvisionYesYes節點組件終態NoYes節點故障自愈Yes (simple)Yes (full, rule based)CRDsMachine: 節點元信息MachineSet (MS): 節點集合MachineComponentSet (MCS): 節點組件集合MachineComponent (MC): 節點組件ControllersMS con

4、troller: 節 點 provisionMCS controller: 節點組件分批安裝、升級Infra Provider: 對接云廠商 OpenAPIKube Node Agent單機組件安裝、升級、終態維持KubeNode Machine Operatorkube-apiserverMachine ControllerMachoneComponentSet ControllerKube DefenderMachine OperatorKube Node AgentNode阿里云、AWS、Azure .MachineSet ControllerInfra ProviderMachine

5、/ Machine Component節點組件(kubelet / docker / npd / .)Use Case: 節點導入k8s 擴展 CRD 描述節點及組件MachineMachineComponentMachineComponentSet節點組件確保終態一致versionconfigstatuskube- apiserver多集群管理系統Machine ControllerMachoneComponentSet ControllerKube Node Agent1. 提交操作2. 安裝 kube node agent, 3, 提交 Machine CRD4. watch Machi

6、ne CRD, 同步 label/taint etc. and update Machine phase5. watch MachineComponentSet CRD, update MachineComponents to Machine, such as kubelet, pouch, npd, etc.6. watch Machine / MachineComponent CRD, do real operation to install components (kubelet, pouch, npd, etc.), and ensure all components working

7、status is fine.Use Case: 組件升級ASIOpsASI 組件變更統一 CD 平臺上百集群 Pipeline 自動流水線發布測試 - 預發 - 正式變更后自動觸發健康巡檢KubeNode 組件升級逐批次灰度、暫停升級單機 watch 變化觸發升級,高并發高 效率健康巡檢異常狀態上報、暫停自動變更kube- apiserver多集群管理系統MachoneComponentSet ControllerKube Node Agent1. 提交升級操作2. (Loop) 逐批次更新 MachineComponentSet,發布后自動健康巡檢3. watch MachineCompo

8、nentSet CRD, update MachineComponents to Machine, such as kubelet, pouch, npd, etc.4. watch Machine / MachineComponent CRD, do real operation to install components (kubelet, pouch, npd, etc.), and ensure all components working status is fine.CRDsNodeRemedier:節點故障修復規則RemedyOperationJob:節點自愈修復任務Contro

9、llersRemedy controller: 自愈控制RemedyJob controller: 自愈任務控制NodeRemedier Registry: 自愈規則注冊中心Host Doctor: 中心故障診斷,對接主動運維事件NPD: 節點故障檢測 (插件式: kernel/kubelet/docker/)Kube Node Agent單機自愈修復任務執行KubeNode Remedy Operatorkube-apiserverRemedy ControllerRemedyJob ControllerKube DefenderRemedy OperatorKube Node AgentN

10、PD(plugins)節點組件Node阿里云、AWS、Azure .NodeRemedier RegistryInfra ProviderRemedyOperationJobHost DoctorUse Case: 夯機自愈故障自愈NPD - Node Condition - Remedykube- apiserverASI CaptainRemedy ControllerRemedyJob ControllerKube Node Agent1.1. 發布、更新自愈規則1.2. 更新 NodeRemedier 規則4. 生成對應 RemedyOperationJob5. watch Remed

11、yOperationJob CRD, 執行自愈修復, 遷移置換節點上的業務容器,避免夯機影響業務6. watch RemedyOperationJob CRD,執行單機自愈修復操作NPD2. 發現內核死鎖日志, 上報故障 ConditionKube Defender3. watch Node CRD, 對接風控是否允許自愈Remedy 自愈優勢云原生自閉環自愈鏈路覆蓋廣:硬件、OS、組件秒級故障發現、分鐘級故障自愈對接風控,防止自愈操作引發二次故障數據體系數據采集鏈路統一數據采集和存儲數據平臺應用資源利用率分析統計實時監控報警整體故障分析統計節點組件覆蓋度、一致率分析節點自愈效率分析全鏈路診斷KubeNode 數據體

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論