自動化運維技術及最佳實踐_第1頁
自動化運維技術及最佳實踐_第2頁
自動化運維技術及最佳實踐_第3頁
自動化運維技術及最佳實踐_第4頁
自動化運維技術及最佳實踐_第5頁
已閱讀5頁,還剩86頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、自動化運維技術及最佳實踐技術創新,變革未來傳統運維面臨的挑戰排查問題ClientDatabaseOSNetWorkMiddle-WareApplicationH/W嘿!業務出問題了!數據庫供應商網絡廠商中間件廠商應用開發商硬件供應商OS供應商誰也不知道系統到底怎么了?信息滯后一、誰也不知道系統到底是什么情況,只有出事了才知道系統存在問 題,甚至出事了都不知道系統有啥問題二、有時候領導都聽說系統出問題了,運維部門還不知道 三、運維人員往往擔任的是“救火隊員”的角色。人員一、編制和經費緊張,沒辦法請專家在一線坐鎮。出問題后,專家到 現場才發現很多數據沒采集,無法定位問題二、單位里的高水平人員太少,

2、一旦高手休假或者調離崗位,運維風 險就急劇增加,運維了十多年,運維水平的提升似乎遇到了瓶頸環境一、系統往往是分階段建設,基礎環境復雜。往往包含多種主機類型、 多套業務系統。技術要求較高。二、系統變更頻繁,運維人員甚至不清楚數據中心的拓撲情況。三、運維和開發之間的矛盾。缺乏強有力的證據證明系統是否存在問 題。四、運維服務外包給第三方公司,但是第三方公司的支撐力度無法滿 足不斷提高的運維要求的需要。技術更新迭代快速Oracle一般每34年推出新版本數據庫產品,每個版本中都相對之前版本具有新特性。 客戶目前數據中心主流軟件版本為10g、11g。隨著12CR2的正式發布,已有客戶廣泛使用12C中CDB

3、/PDB特性、in memory option特性。 甚至有客戶已開始使用18C自愈數據庫進行邊緣業務交付。12C幾個重要的新特性適應一個新版本的特性往往需要幾個月甚至半年的專業學習。 需要學習新特性的含義,最優參數配置,最高效使用方式。自動化運維技術發展史運維發展時間表無序化運維腳本化運維自動化運維智能化運維沒有規矩,不成方圓少量場景自動化1、讓機器干機械的事2、標準化是前提1、讓機器干人的事2、機器學習+人工智能運維發展階段在很長一段時間內,手工運維、自動化運維、智能化運維將三者并存文檔化運維知識手冊+個人經驗工具化運維部分場景自動化純人工運維:沒有規矩,不成方圓純手工敲命令查詢相應的SQ

4、L來獲取需要的信息,將信息記錄并整理,對比后得出 結論和解決方法高度依賴個體工程師價值,運維質量難以保障!師傅領進門,修行在個人。培養成本極高!人不夠了?招!導致:人才無法線性擴張!耗時長,數據對比繁瑣,恢復時間長!腳本化工具化:常見通過shell腳本來快速查詢相應的多條SQL語句,獲取需要的信息。通過一定的定時任務觸發相應的檢查腳本,每天都需要將腳本輸出信息進行 查看,排序,且腳本輸出一般為純文字形式,顯示不直觀。同樣依賴個體工程師價值來進行腳本編寫,問題解決,運維質量難以保障!標準化運維:人+工具(文檔)+流程工具流程職責權限技能人員變更故障實施監控告警文檔增加標準化監控設備,通過監控設備

5、及時觸發告警信息,轉變運維服務模式,增加文檔知識庫的建立。規范化變更、故障解決、實施流程,將運維交付進行標準化。規范人員職責劃分,權限分類來更好的進行運維規范。oracle EM cloud control 12C我們有時候會使用oracle EM來進行監控。使用Oracle SQL Tunning和SQL Access Advise來進行SQL優化優點:能夠給出性能瓶頸點,可以快速對癥下藥 弊端: EM cloud control 12C 需要license且部署繁瑣自動化運維少量運維專家+運維機器人-參考:裴丹落地生根:AIOps路線圖標準自動化運維:讓機器干機械的事大規模機器,大數據量。

6、應用場景如下:實時監控日志分析自動巡檢快速部署彈性擴容故障處理(常規故障,二維故障)自動化運維的前提互聯網企業具有天然的優勢,在自動化運維方面會早一些。但傳統企 業及中小企業幾乎為零起步,大部分企業還處于原始人工運維的階段。 標準化是最最最重要的前提,標準化指的是:1、設備標準化2、系統標準化3、數據庫標準化4、接口(日志)標準化智能化運維的未來發展方 向背景絕大部分公司目前AIOps還處于探索階段,小部分公司處于系統性建設 基礎的階段。很多吹得神乎其神的AIOps落地的公司或組織,我覺得很少能在大規模 場景下經得起推敲。很多情況下,使用的都還是傳統的統計分析方法,只是被包裝了一個 AIOps

7、的名字而已。但同時這也是任何事物發展過程中的一個必經階段。目標未來集中主要在兩個大方面: 1、成本,需要從節約成本。2、可用性,需要以提高效率為根本宗旨,做到及時發現問題,快 速定位問題,最終解決問題。系統可用性量化指標業界用N 個9 來量化可用性, 最常說的就是類似 “4個9(也就是99.99%)” 的可用性。智能化運維:基于機器學習很多運維場景都可以總結成一些規則化的東西,可以經過提煉 總結生成人工經驗庫。除了人工經驗以外,還可以通過AI算法 對歷史數據進行分析,得到一些由機器生成的規則。運維大數據:機器學習為主,經驗為輔為機器學習提供素材,掌握系統業務節奏(全局和局部),明確 資源臨界點

8、(閥值)智能化運維很大程度上取決于數據的質量及樣本的豐富性。也就 是說,如果樣本很少,數據本身帶有傾向性,質量不高,那么 AIOps的準確性和效果就會大打折扣。運維大數據:機器學習為主,經驗為輔風險異常預測 資源異常預測,如空間、CPU、內存、I/O等 性能異常預測 故障規律預測為決策提供依據圖:硬盤故障趨勢智能化運維:讓機器干人的事運維自動化運維大數據預測智能化運維四大要素機器 學習經驗 算法分析研判故障處理后臺架構機器學習引擎變化監測引擎CPU內存I/O網絡數據庫參數 數據庫配置 統計信息 DML頻率 對象DDL業務模型TOP SQL TOP OSW會話登錄SQL解析SQL執行SQL提交網

9、絡返回性能解析模塊主機資源數據庫資源性能測試模塊小型數據庫指主機資源負載較低,并發不高的數據庫,空間小于500GB。其性能問 題往往是由SQL執行效率引起。中大型數據庫指主機資源負載或者事務并發較高的數據庫。其性能問題往往由主機資源不 足、數據庫資源沖突、SQL執行效率等相關。AI性能運維需求:不同類型的數據庫,AI性能運維需求不同以結果為導向,傻瓜式的操作指南過程性的關聯告警,明確問題方向誰需要AI運維?小白。性能優化難點不報錯無頭緒時好時壞所有性能優化目標:性能拐點后移找到變化=找到問題方向性能優化關鍵點1:尋找變化分類,樸實無華的名詞:流程化肢解性能問題AI性能優化關鍵點2:分類AI性能

10、優化關鍵點3:尋找拐點和突變點突變點:拐點:主要用途:應用于多種場景,如性能告警,判斷各子模塊性能異常肢解+標簽AI性能優化關鍵點4:智能標簽AI性能優化關鍵點5:機器學習1、學習曲線規律(數據庫指標特征)2、預測變化趨勢3、修正告警閥值、性能預警數據統一分析引擎和智能閾值事件和時序關聯分析:時序數據庫(RRD、Whisper/TSDB)智能運維:邏輯讀超過正常水平分析自動化運維主流技術手段及框架開源工具隨著互聯網的發展及開源框架的興起,很多企業逐漸意識到借助 開源工具能夠大幅度提高運維效率,這也大大縮短了企業實施 DevOps的周期,為進一步實施AIOps打下了基礎。因此,從節奏 和趨勢來講

11、,AIOps落地會比想象更快。載體DockerKVMAnsible經典的ELK一臺服務器怎么打補丁?上萬臺服務怎么打補丁?自動化運維平臺目前自動化運維產品主流部署模式主流產品類型適用于本身具有高級技術的DBA維護人員。通過大量的信息提示能夠能自行對比數據之間的差異變化,判斷問題產生原因,找到解決問題的方向。通過積累的大量專業知識快速使用命令解決問題。維護人員本身具有快速發現,排查,解決問題的能力。適用于沒有專業DBA技術的維護人員。通過監控運維平臺快速感知問題癥結點。通過運維軟件中封裝的大量運維工具能夠快速獲取解決方案,解決運維問題快速恢復業務或提前解決預警問題。美創眼中的自動化運維自動化運維

12、之框架監控何為監控?監控是給不懂的人看的監控不是指標的簡單展示監控之間的指標不是孤立的監控容易做,告警很難做監控是需要精確反映問題的DBA日常都在做些什么?能否通過監控展示出來?DBA最關注的性能是什么?能否通過監控展示出來?如何避免告警泛濫?平安短信關聯告警DBA日常在關注些什么?可用性性能可靠性錯誤變化DBA最關注的性能是什么?考慮以下幾個問題:如何挑選幾個指標準確描述數據庫狀態?SQL執行流程如何在大屏中展示?預警,分為案例庫匹配預警、自發性預警告警,特征值過程性關聯告警知識庫,根據告警內容自動匹配知識庫數據中心一體化監控運維平臺簡單指標采樣運維大數據日常巡檢機器 學習經驗 算法故障修復

13、性能優化知識庫操作簡單:無需繁雜的參數配置,復雜的界面跳轉,能夠通過鼠標點擊 完成任何功能實現 “數據簡單”:將用戶需要的信息從復雜的信息海洋中提煉出來,展示 出直觀的數據庫狀態,不再讓用戶尋找判斷問題癥結。使用簡單:通過報告直接給出解決方案和建議,大大降低用戶的DBA技術 門檻,完成高級DBA才能完成的工作高效、專業、豐富高效:內置各種功能都能夠快速達到客戶目標。通過幾個簡單的步驟就 能快速輸出針對當前問題的解決方案。專業:產品開發公司需要有足夠的DBA技術積累,才能夠將技術積累開發 成產品進行交付,平臺中的任何工具都必須要有足夠的專業性,內部封 裝的各類采集器都需要做到最優化,減少客戶環境

14、中的資源消耗問題。 盡量避免產品本身BUG。產品要具有前瞻性。豐富:需要豐富的功能列表,考慮到客戶日常運維過程中盡可能多的運 維難題,才能更好的發展運維監控平臺的功能監控,以過程為導向。實時反映系統健康狀態巡檢,監控的補充。檢查遺留問題、故障隱患軟件配置可用性安全性資源參數可靠性實例監聽服務容災備份弱密碼高權限主機資源數據庫資源主機參數數據庫參數RDBMSGRID巡檢平臺會話登錄解析執行提交/返回內存資源主機資源數據庫參數RAC Statistics以SQL生命周期為依據,流程化解析數據庫性能動態評估SQL執行效率,分析SQL執行計劃性能解析故障處理的難點: 未來還沒發生的故障 不同因素之間的

15、干擾當前能做的: 解決容量不足類故障 保留故障現場 快速止損故障處理故障處理快速止損是當前數據庫智能化運維領域中最易實現的監聽重啟實例重啟kill進程空間擴容固化執行計劃Kill鎖主機 資源擴容現場保存閥值告警快速止損的常見手段:構建策略知識庫01美創選擇的運維開發運維人員掌握開發技術,面對復雜的環境、大批量的目標,通過寫簡單的小程序,多快好省的完成工作, 就是DevOps。02為什么是Python可供使用的模塊多。比Java簡單。和操作系統打交道方便。開發周期短:同樣實現一個功能,C語言需要1000行,JAVA需要100行,Python僅僅只需要10行。等等。DevOps:運維開發03Dev

16、Ops:運維開發這個Python程序只有42行(算上空行), 實現的效果卻十分驚人,它可以批量在多臺主 機上運行指定腳本。roothzmc tools# ./case1.py -host host_list.txt -cmd cmd_list.aop # 192.168.200.222 #Space:FilesystemSizeUsedAvailUse%Mounted on/dev/sda1241G31G198G14%/tmpfs3.9G911M3.0G24%/dev/shmFree Memory:cachedtotalusedfreesharedbuffersMem:785831244733

17、02242371-/+ buffers/cache:5287330Swap:999909999Process count:233# 192.168.200.223 #Space:Used Avail Use% Mounted onFilesystem/dev/sda1 tmpfsSize 241G7.8G83G146G37% /72K7.8G1% /dev/shmFree Memory:totalusedfreesharedbuffers768582520312150814429287971215937cached Mem: 5864-/+ buffers/cache:Swap:9999Pro

18、cess count: 210這是運行的效果,在多臺主機(畫面上顯示的 是兩臺)上顯示空間、內存和進程數。腳本接收兩個參數,一個是命令文件: cmd_list.aop,一個是目標列表文件: host_list.txt。這個是主機列表文件:roothzmc tools# cat host_list.txt TARGET1IPADDR = 192.168.200.222USER = oracle PASSWORD = hzmcdba SCRIPT_DIR = /tmpTARGET2IPADDR = 192.168.200.223USER = oracle PASSWORD = hzmcdba SCRIPT_DIR = /tmp這個是命令文件:roothzmc tools# cat cmd_list.aop echo Space:df -hechoecho Free Memory: free -mechoech

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論