算法創新賦能證券業智能運維轉型_第1頁
算法創新賦能證券業智能運維轉型_第2頁
算法創新賦能證券業智能運維轉型_第3頁
算法創新賦能證券業智能運維轉型_第4頁
算法創新賦能證券業智能運維轉型_第5頁
已閱讀5頁,還剩4頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

當前,證券業正處于快速發展的歷史機遇期,資本市場改革知金融體系開放在

為各家券商帶來業務增量的同時,也對其金融科技水平和抗風險能力提出了更

高要求,而證券交易系統的平穩、健康運行不僅與廣大投資者的合法權益密切

相關,更是涉及金融安全、社會穩定的重要課題。實際場景中,證券業務具有

交易時段集中、交易規模巨大等顯著特點,對IT系統的可用性和響應效率均有

著非常嚴苛的要求,給系統運維工作帶來了巨大壓力。在此背景下,證券業運

維工作急需開展智能化轉型,以更為高效地支撐業務發展。

一、證券業運維轉型面臨的算法挑戰

現階段,智能運維的主流方案一般基于“大數據+機器學習”技術實現,即應用

統計學方法來分析告警、事件、指標、日志等大數據樣本,并結合機器學習算

法進一步預測系統行為,這一模式的主要特點是應用驅動、事后分析、數據擬

合。然而,伴隨智能化運維需求的持續提升,智能算法出現了一些難以解決的

問題,并導致其在復雜系統全維度監控、故障定位等工作中面臨著諸多挑戰。

1.盲人摸象式算法無法洞見系統整體運行情況

在傳統的監控系統中,運維人員通常更關注基礎監控、應用服務的接口請求量

等指標,但在復雜系統中,僅僅關注單點日志或者單個維度指標并不足以幫助

其掌握系統的整體運行狀況。例如,當行情火爆時,單指標異常檢測算法可能

會基于訪問并發數產生CPU告警,但通過分析日志可以發現,這一情況在證券

業屬于正?,F象。

2.數據缺陷無法得到有效補償

在運維領域,故障數據的稀疏性會導致算法沒有足夠的樣本,使其只能在有限

的數據范疇內進行建模、擬合、預測,從而影響智能算法的實際效果。但在實

際工作中,由于證券行業對后臺服務運行的穩定性和安全性要求極高,系統故

障本身是一個小概率、低頻事件,而算法需要基于大量歷史數據來學習規律,

并借此實現優化提升,如果之前發現的故障后來不再出現了,那么實際上是形

成了一個悖論。

3.算法適應性不足

由于運維系統架構復雜,關聯關系呈網狀發展,數據驅動的算法很難做到適應

性演進。與此同時,如果使用一個缺乏觀測、分析系統內部運行機制的結構化

模型,意味著必須開展大量的數據采集、模型適配、參數調優等工作來確保分

析準確性,而一旦過分依賴大數據,會導致模型對黑天鵝事件等難以形成有效

預測。此外,證券業系統變更頻繁,基于歷史大數據樣本得到的經驗規律和特

征模型經常難以再復用,也無法準確分析和預測當前系統行為,而針對不同類

型的問題場景定制專門的分析解決方案,將大幅提升運維人員的技能學習成

本。

4.算法缺乏有效的反饋和修正機制

在實際應用中,智能運維算法并非“開箱即用”,而是需要與運維數據、業務

特點、運維目標等深度融合,不斷進行打磨和適配。但是,目前大多數算法缺

乏基于反饋的模板調整能力,難以應對“這種模板應該根據這個變量拆

分,,,,這個變量應該被泛化”等個性化需求。此外,運維專家與算法設計人員

對于“故障”的理解也不盡相同,從而導致算法可能進行了無效學習或是錯誤

學習,并直接影響了算法的有效性。

二、數字學生系統分析體系建設路徑

針對上述難點,證券業急需以實現復雜IT平臺可觀、可測、可控為目標,從實

時、在線維度還原系統工作機制并構建系統分析模型,研究、設計和驗證具有

系統性、魯棒性、自適應、自學習的智能運維新算法,以更好滿足復雜系統潛

在故障檢測以及系統穩定性分析等運維需求。

1.總體規劃

圍繞上述目標,筆者團隊以實現復雜系統的整體可觀測性為核心,從系統內部

的白盒化思路出發,提出了數字李生系統分析體系建設規劃,并進一步細分為

兩個階段:

第一階段是自上而下建立多層次指標體系,即通過描述系統內不同組件、模塊

之間的依賴關系,構建系統內各指標間的非線性影響權重量化模型,以更為準

確地展現IT系統運行狀態,同時為數據管理、數據分析、智能運維等場景提供

基礎數據;并在此基礎上,結合數據融合、特征工程、智能分析等手段,全面、

準確、及時把握高維復雜狀態空間,滿足IT平臺的全維度觀測需求。

第二階段是自下而上構建數字攣生鏡像模型,通過降低數據依賴性、提升算法

適應性,使得在系統結構或業務環境發生改變時,可基于數據動態輸入、算法

動態調整,讓數字李生鏡像模型快速適應系統變化,最終在整體保持系統穩定

性與可靠性的同時,高效解決大規模、多尺度時變平臺的實時調控問題,實現

對IT平臺能力的量化評估。

2.算法設計

TT系統中各類資源構成的參數空間具有數量龐大、參數間存在復雜的非線性交

互影響等特點。為分析IT系統不同模塊之間的關聯交互作正,首先需要量化分

析不同模塊相關參數對相鄰模塊以及服務質量關鍵指標(QualityofService,

QoS)的貢獻程度,從而建立模塊之間的量化交互模型。為此,筆者團隊將平臺

中不同層級的功能模塊抽象為不同的邏輯功能節點,并構建了分層影響作用樹

(如圖1所示)。其中,每個節點根據不同的模型類型,均可以代表系統轉移函

數、特定性能指標等具體含義,節點間的連線則可用于表示模塊間接口變量、

指標之間的非線性影響權重。

在此基礎上,筆者團隊搭建了一種非線性影響權重量化模型,該模型能夠通過

多個源指標構成的某集元素這目標指標的影響程度來描述IT系統的基礎特性。

同時,結合非線性疊加測度理論,筆者團隊在模型中引入了全新方法來量化模

塊間參數的相互作用,即通過分析各個參數相互作用下的影響重要性,以此來

定量表征模型參數間的相互作用,該模型的突出特點是能夠用廣義非線性非可

加積分(Choquet積分)來定量評測模型變量之間的相互作用對QoS的貢獻度。

例如,當給定一組觀測數據,模型可以通過評估系統變量的非疊加測度來發掘

變量之間的復雜依賴關系,并量化單一變量及變量組合對目標函數(系統性能)

的貢獻大小。

此外,考慮IT系統本身具有復雜行為模式、冗余設計、反饋和滯后響應機制、

臨界點行為、系統持續演進等特點,而上述因素都會對準確評估IT系統健康度

產生影響,筆者團隊針對性建立了基于馬爾科夫鏈的狀態轉移概率模型,用于

探索IT系統內在可辨識的隱結構。具體而言,隱結構具有一定的穩定性,可反

映出IT系統特有的工作模式、運動規律,同時還具有足夠的靈敏性,可在系統

出現異常時實現及時感知。

最后,筆者團隊通過記錄節點在狀態遷移過程中的性能指標,基于節點的正

常、異常狀態比例,根據特定標準實現了對節點健康度的統計評分。該健康度

評分方法基于節點不同狀態下的期望輸出指標,能夠有效區分節點在不同輸入

激勵條件下的實際工作能力,為全面評估節點在復雜系統中的復雜行為提供了

一種新的視角。在此模式下,基于輸入特征和輸出特征的統計建模規律,將能

夠準確反映出節點在較長時間跨度以及不同業務模型輸入條件下的服務能力和

水平。

綜上,前述算法主要具有以下三大特點:一是訓練樣本僅需準備一定量的測量

指標、日志等數據,無需與歷史數據強耦合,即可以構建相對穩定的量化模

型;二是通過指標間非線性交互影響量化模型,可提供輸入卻輸出的相互影響

權重,使模型比基于AI的黑盒模型具備更好的可解釋性;三是在泛化和可遷移

性方面,由于構建了量化相互影響權重模型,模型比純數據方法具備更好的泛

化和遷移能力。

3.數據底座建設

為打破數據孤島,實現數據統一采集、統一存儲、統一管理與統一視圖展示,

筆者團隊從能感知、會表述、自執行等維度入手,創新搭建了綜合性智能化數

據底座(如圖2所示),以進一步拓展數據應用的深度和空間,充分發揮數據價

值。

在能感知(可觀)方面,筆者團隊應用數字攣生技術,針對運維對象構建了數字

攣生可視化界面,并引入系統健康度評估體系和方法論,實現了系統健康度可

視化管理,使運維人員通過該界面能夠直觀了解系統健康度以及關聯影響。同

時,監控平臺覆蓋運維全領域,擁有維度豐富的各類數據,并結合智能運維算

法支持快速發現故障,從而可實現對數據中心所有運行組件的全感知。

數據底座

采集■存儲■管理■展示

圖2智能化數據底座

在會描述(可測)方面,智能化數據底座基于數字攣生技術中的數字虛體,可細

致描述物理實體的可視化模型和內在機理,并對物理實體的狀態數據進行監

測、分析,進而通過不斷優化模型參數,提供智能化的決策輔助功能。

在自執行(可控)方面,“知其然,并知其所以然”是數字李生的核心理念?;?/p>

于智能化數據底座,運維人員可詳細了解系統內部的各種影響及互動關聯機

制,進而有目的地快速解決問題,實現真正的安全可控。

三、后續研究展望

當前,智能運維領域存在算法黑箱、算法同質化、模型缺陷等多種潛在風險,

但業界尚未針對智能運維算法的規范性、可靠性、可遷移性、有效性等制定統

一的評估方法,從而在一定程度上影響了智能運維技術的應用和發展。國泰君

安作為智能運維國家標準編訂單位之一,己連續多年參與智能運維領域的研究

與實踐,積極為智能運維國標編制建言獻策。未來,國泰君安將繼續作為牽頭

單位研制智能運維算法的治理標準,推動智能運維系列標準推廣落地。在此基

礎上,國泰君安將攜手業內同仁共同探索智能運維體系的落地路徑,深入推進

各項運維能力建設和場景應用:

一是不斷提升感知能力的時效性,在運維對象全生命周期的初始環節,就將其

納入數據中心感知體系中進行管理。

二是持續構建“白盒”模型,運用數字季生方法論實時還原復雜系統的運行狀

態,使核心業務在業務組件中的流動過程更加清晰可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論