基于雙活“零”切換的服務不間斷的BOSS系統(tǒng)_圖文_第1頁
基于雙活“零”切換的服務不間斷的BOSS系統(tǒng)_圖文_第2頁
基于雙活“零”切換的服務不間斷的BOSS系統(tǒng)_圖文_第3頁
基于雙活“零”切換的服務不間斷的BOSS系統(tǒng)_圖文_第4頁
基于雙活“零”切換的服務不間斷的BOSS系統(tǒng)_圖文_第5頁
已閱讀5頁,還剩20頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、成果上報申請書成果名稱基于雙活零切換的服務不間斷的BOSS系統(tǒng)成果申報單位山東省(自治區(qū)/直轄市公司成果承擔部門/分公司帳務中心項目負責人姓名項目負責人聯(lián)系電話和Email成果專業(yè)類別*業(yè)務支撐所屬專業(yè)部門*業(yè)務支撐線條成果研究類別*其它省內評審結果* 優(yōu)秀關鍵詞索引(35個容災雙活零切換應用投資200萬元(指別的省引入應用需要的投資金額產品版權歸屬單位中國移動通信集團山東有限公司對企業(yè)現有標準規(guī)范的符合度:(按填寫說明5符合如果該成果來源于研發(fā)項目,請?zhí)顚懷邪l(fā)項目的年度、名稱和類型(類型包括:集團重點研發(fā)項目、集團聯(lián)合研發(fā)項目、省公司重點研發(fā)項目、其他研發(fā)項目,可填寫多個:省重點研發(fā)項目:應

2、急容災零切換,革命性提升BOSS系統(tǒng)業(yè)務服務水平。成果簡介:山東公司針對容災系當前存在的切換時間長、投資大、容災側資源平時不能使用、流程復雜維護難等問題進行了積極探索,采用創(chuàng)新技術大膽嘗試,徹底解決容災系統(tǒng)資源閑置問題(含存儲,通過在國內首次創(chuàng)新嘗試將vplex存儲虛擬化結合oracle的遠程rac技術實現了跨數據中心的雙活方案,即BOSS系統(tǒng)生產端和容災端可以同時放開對外訪問,徹底解決了以往容災端平時不能打開對外訪問的弊端。雙活數據中心結合通過定制開發(fā)的BOSS系統(tǒng)對外統(tǒng)一接口平臺,經過測試容災切換最多只需要幾十秒,且無需人工干預。BOSS系統(tǒng)的雙活數據中心將是BOSS系統(tǒng)的一場革命,必將大

3、大降低停機窗口、提高服務質量,降低業(yè)務風險,同時大大節(jié)約投資。省內試運行效果:描述成果引入后在本省試運行方案、取得的效果、推廣價值和建議等。1、人力解放:通過優(yōu)化,大大減輕了容災系統(tǒng)維護工作量,山東公司目前只有一人在兼職維護容災系統(tǒng)。2、容災系統(tǒng)可用性:通過優(yōu)化,是容災系統(tǒng)可用性和切換信心度大幅增長,現在山東公司每半年均進行1到2次真實切換演練,在2011年集團公司組織的容災演練專項檢查中,山東公司第一個參與真實演練并獲得滿分,充分證明了優(yōu)化的效果。3、提高客戶滿意度通過優(yōu)化,使系統(tǒng)停機窗口做到最小,尤其是雙活“0”切換技術,使切換窗口最到最小,近幾年山東公司客戶滿意度在集團內保持了比較高的名

4、次。4、節(jié)約投資通過創(chuàng)新的雙活“0”切換技術以及虛擬化技術的應用,使容災端的資源真正利用起來,從而大大節(jié)約了投資,以山東公司容災系統(tǒng)投資占硬件整體投資的50%計算,相當于每年可以節(jié)約4000萬人民幣文章主體(3000字以上,可附在表格后:根據成果研究類別,主體內容的要求有差異,具體要求見表格后的“填寫說明6”。附表后。基于雙活零切換的服務不間斷的BOSS系統(tǒng)一、背景和意義為了更好的保障BOSS系統(tǒng)運行,提高服務質量,我們先后建立了應急系統(tǒng)、容災系統(tǒng)等,但仍存在如下矛盾,并越來越突出投資大,效益慢:今年BOSS擴容需要約XXXX萬TPCC,XXXT存儲設備,需要同步對容災系統(tǒng)擴容。1、災備端平時

5、無法打開:災備端的資源(尤其是存儲平時無法打開使用,造成資源浪費嚴重。2、切換時間長:一般需要1-2小時以上才能起來。3、故障情況下切換決策難:有時切換時間+決策時間>=災難修復時間,難以決策,期間無法辦理業(yè)務。4、難以找到RTO、RPO都為0的0切換方案。5、流程復雜,維護難:系統(tǒng)切換需要一系列管理和技術流程,維護復雜,生產、容災端都需要維護。6、無法做到在線的系統(tǒng)升級遷移和新業(yè)務上線。這種情況下,我們急需探索在BOSS系統(tǒng)中引入容災系統(tǒng)雙活零切換技術,基于如下考慮:1、可以從降低運行風險、提高客戶滿意度等方面提升業(yè)務運營水平。2、可以從降低業(yè)務停機窗口、降低維護工作量等方面降低系統(tǒng)運

6、維壓力。3、可以降低系統(tǒng)災難處理壓力、最大限度降低業(yè)務中斷時間,從而提高客戶滿意度。4、使容災側資源平時可用,達到雙活。5、降低演練測試的業(yè)務停頓窗口,提升演練質量。二、山東公司雙活零切換方案介紹2.1 雙活零切換方案的選型原則必須要從技術、管理、使用維護等方面考慮選擇雙活零切換的方案,具體來說:1、技術可靠要求數據要跨中心流動,在同一個中心內部的無法做到容災。要求數據必須雙活訪問,切換需要的RTO、RPO都為0。2、滿足高可用性要求滿足跨中心的高可用性,數據一致行的保證。由于跨中心,網絡(IP、SAN穩(wěn)定性問題必須考慮,由超強容錯機制。3、易于管理方案必須易于管理,手段便捷,因為復雜的管理也

7、是一種災難。4、易于使用維護方案必須低風險,易于使用,自動化程度高。切換簡單,流程少甚至無流程,并降低人工操作風險。2.2 基于雙活零切換技術的主要方案分析目前主要有四類解決方案,對比如下:應用改造+觸發(fā)器同步方案應用改造+商用軟件同步方案應用改造+賽門鐵克卷管理+oracle遠程rac應用改造+Emcvplex+oracle遠程rac應用改造難度難以全部數據同步,只能關鍵表關鍵表同步(gg、dsg、quest等通過對應用本身改造并進行部署改造,可支持全部數據同步投資較小較大較大較大性能影響生產、容災端影響生產、容災端影響生產,較低不影響維護管理麻煩麻煩較麻煩簡單、穩(wěn)定RTO>0>

8、0接近0 0RPO<>0<>00 0腦裂現象非全業(yè)務,非雙活非全業(yè)務,非雙活難以避免通過創(chuàng)新應用避免山東公司綜合考慮并試驗驗證后選擇了第四種方案。2.3 山東公司方案構成主要由如下特色技術實現1、核心數據層:國內首創(chuàng)的將vplex和oracle遠程rac技術相結合并創(chuàng)新性應用于BOSS系統(tǒng)三中心,可實現全業(yè)務跨數據中心的雙活訪問2、應用路由層:業(yè)內率先新開發(fā)實現統(tǒng)一應用接口平臺,作為連接數據庫服務的入口,并支持高可用連接切換。3、應用部署層:對應用部署方案進行創(chuàng)新性改造,支持跨中心雙活部署.下面分別進行介紹:2.3.1 核心數據層介紹在引入vplex以前的存儲復制架構:

9、主備模式,存儲底層同步,備份端平時不提供對外訪問。如下圖所示:引入vplex 后,生產端、容災端的存儲資源平時均可訪問,vplex 通過全局緩存保證數據一致性和高可用性。平時兩邊主機分別訪問本地存儲,故障情況下可跨中心訪問對方存儲。如下圖:Oracle 遠程RAC 技術:跨數據中心的數據庫,一個數據庫多個跨節(jié)點實例。每個實例都是活的,可以訪問。但是需要結合其他共享存儲技術(主機的鏡像、存儲復制、vplex 等實現跨中心存儲并發(fā)訪問技術才能實現,如下圖: Site B Site ASYNCHRONOUS REPLICATIONActive-Passive Site VPLEX Metro Sit

10、e B Site A F I B R E C H A N N E LActive-Active SiteVPLEX enables active use ofresources at two sitesD I S T R I B U TE D V I R T U A LV O L U M E 但是數據層遠程rac 技術存在“腦裂”風險,由于數據中心間距離遠,網絡穩(wěn)定性差,必須需要額外進行冗余設計,如網絡連接、內部網絡、san 連接等。2個數據中心間網絡全斷情況下,無論vplex 還是oracle 的rac 均可能出現“腦裂”現象,造成訪問中斷,數據不一致現象發(fā)生。 山東公司結合三個數據中心設計

11、,在第三中心分別增加vplex 和oracle 的仲裁節(jié)點,避免了“腦裂”現象。 共青團路機房開發(fā)區(qū)機房經十路機房15KM/20GIP 帶寬/40GSAN 帶寬5KM/10GIP 帶寬/24GSAN 帶寬15KM/20GIP 帶寬/40GSAN 帶寬在三個中心間建立互聯(lián)環(huán)狀全冗余架構,任何兩點之間的故障都不會影響第三點。 通過增加第三節(jié)點,防止兩個中心間網絡全斷場景。 最終的山東特色的核心數據層架構如下: 2.3.2 應用路由接口層方案數據層實現雙活方案后,應用路由接口層必須進行改造才能最終實現0切換。山東公司針對外部接入,業(yè)內率先專門實現統(tǒng)一的對外應用接口平臺,實現了跨中心高可用性、并提高了

12、新業(yè)務開發(fā)效率和易維護性。EMC VPLEX SANSAN EMC DMX4EMC VPLEXSANSANEMC DMX44節(jié)點 ORACLE RAC 節(jié)點集群METRO 光纖互聯(lián)(波分 15KM p 網絡(波分 15KM 第三中心Vplex 仲裁點 oracle 虛節(jié)點第一中心第二中心現狀:1、系統(tǒng)使用的協(xié)議多:CICS :網廳、WAP 、SOCKET :短信、VC 、銀行等,EASYCICS :IVR 、自助,HTTP +XML :一級BOSS2、一個接口需要針對不同的協(xié)議開發(fā)多套,提高了開發(fā)的成本,“煙筒式”架構。3、做不到對外服務0切換:難以做到每個對外服務接口均支持高可用性。 山東公

13、司針對上述現狀,結合0切換需求,開發(fā)的新的統(tǒng)一接口平臺從架構、數據庫連接、負載均衡等方面考慮了在單數據中心故障下的零切換方案。如下圖:在每個數據中心均建立相應的接口機,接口機連接后臺訪問的中間件服務器,并提供對外服務,中間件負責連接數據庫,接口負責同時提供對外服務,確保一個數據中心故障情況下另一個接口平臺仍能正常對外服務。通過多實例部署,分別練到多個數據中心,并同時對外提供服務,通過負載均衡技術,在多服務器和多數據中心間分擔系統(tǒng)壓力,降低了單節(jié)點和單中心接入宕機的風險,確保系統(tǒng)穩(wěn)定。新的統(tǒng)一接口平臺解決了在數據庫、網絡故障情況下進程僵死、掛起等現象,從而支持了數據層的雙活零切換。下圖是進程隊列

14、的處理邏輯:自助終端1自助終端2自助終端3自助終端4自助終端服務器1自助終端服務器2負載均衡器防火墻接口機1接口機2中間件服務器1中間件服務器2數據庫數據庫個人工作站HTTP+XMLHTTP+XML 2.3.3 中間件層全業(yè)務部署方案接入層和中間層保留相當余量,部署了相當的業(yè)務邏輯,每個中心中間層主機都可以接管所有業(yè)務,平時均為生產。每個交易中間件主機針對每套數據庫同時建立2-4個連接指向跨中心的數據庫節(jié)點,并部署完全相同的服務和應用。 WEB 層建立通用的分發(fā)器,負責調用交易中間件的region 服務(主、備。 可配置為負載均衡機制或主備機制,在一端失敗時,自動調用備用端region 和服務

15、。圖示如下:Servlet 應用WEB 應用服務器分發(fā)器后臺接口服務1營業(yè)數據庫12.3.4 山東公司0切換方案驗證情況完全按照一套生產營業(yè)crm 系統(tǒng)測試。 充分模擬考慮性能、各類故障等情況。測試環(huán)境:NGCRM +統(tǒng)一接口軟件+emc vplex +oracle rac (9i 11g 。 測試時間:2011年4月2號-6月18號。 測試拓撲如下: 測試設備清單如下:設備名稱配置用途Server1-1,1-2IBM P7,16CPU, 60GmemorySite1 測試主機 (IBM,數據庫節(jié)點 Server2-1,2-2IBM P7, 16 CPU,60Gmemory Site2 測試主

16、機 (IBM,數據庫節(jié)點 Serv3-8IBM P5 4C 40G中間件測試機器Server1-1SAN1-1SAN1-2Server1-2SAN1-1SAN1-2SAN1-3SAN1-4DWDMSAN2-3SAN2-4Server2-1SAN2-1SAN2-2Server2-2SAN2-1SAN2-2Switch1-1Switch1-2Switch1-3Switch1-4Switch2-1Switch2-2Switch2-3Switch2-4DWDMWANBiilingCRMCallCenterNMSOAHR。Center-2Center-3VPLEX1VPLEX2DMX-4-1DMX-4-

17、2SAN1-1,1-2MDS9509Site1測試主機HOST用SAN 交換機SAN2-1,2-2MDS9509Site2測試主機HOST用SAN 交換機SAN1-3,1-4MDS9509Site1測試Site間互聯(lián)用SAN 交換機(EMCSAN2-3,2-4MDS9509Site2測試Site間互聯(lián)用SAN 交換機(EMCDMX-4-1256G CACHE, 320*300GdisksSite1測試存儲(EMCDMX-4-2256G CACHE, 320*146GdisksSite2 測試存儲(EMCVPLEX164G CACHE, VPLEX Site1測試VPLEX(EMCVPLEX26

18、4G CACHE, VPLEX Site2測試VPLEX(EMCAIX/HACMP測試主機操作系統(tǒng)/ 集群軟件(IBMORACLE 9i/11g RAC ORACLE 9i/11gStretch RAC測試數據庫軟件(ORACLE測試場景用例:1、重點功能測試,包含仲裁測試和業(yè)務測試。2、容錯測試,包含數據庫繁忙測試、數據庫故障測試、主機故障測試、VPLEX 故障測試、存儲故障測試、中心互聯(lián)故障測試等。3、性能測試,包含IOPS和MBPS等指標。故障層次故障測試場景模擬ORACLE 故障1.Server1-1 oracle 故障宕機2.Server1-2 oracle 故障宕機3.ORACLE

19、 RAC Server 心跳互聯(lián)故障主機故障1.Server1-1 故障宕機VPLEX 故障1.Vplex1 direct1故障2.Vplex1 故障存儲故障1.Vplex1 部分存儲空間故障2.Vplex1 整個磁盤陣列故障數據中心故障1.Vplex Metro數據中心互聯(lián)故障2.Vplex Metro數據中心互聯(lián)故障,NO Witness Server測試結果如下:性能方面:和傳統(tǒng)SRDF 方案差別不大。 針對真實應用的測試結果如下:序號 容錯測試場景模擬 測試結果1S2-1 ORACLE undo space fullOthers NO impact2 S2-1 ORACLE Share

20、 Pool Latch wait Others NO impact3 Server1-1,1-2 oracle 故障宕機 Others delay18s4 Server1-1,1-2 oracle 心跳網卡故障 Others delay 33s5 Server1-1,1-2 故障宕機Others delay 23s6 Vplex2 direct2-1故障Server 2-1,2-2 delay 20s, others NO impact7 Vplex2 engine2故障 Server 1-1,1-2 NO impact 8 Vplex1 部分存儲空間 故障All servers NO imp

21、act9 Vplex1 整個磁盤陣列 故障All servers delay 15s 10 Vplex Metro 數據中心互聯(lián)故障Server1-1,1-2delay43s( reconnect,delay 17s 11Vplex Metro 數據中心互聯(lián)故障(NO witness Server1-1,1-2delay43s( reconnect,delay 23s 業(yè)務占比雙活模式(秒當前模式(秒差距百分比響應時間差值(秒001過戶提交 1.60% 5.06 3.26 55% 1.8 002停開機提交 1.60% 3.94 2.731 44% 1.21 003產品變更提交 6.80% 2.

22、14 2.232 -4% -0.09 004營收統(tǒng)計提交 5.20% 0.852 0.896 -5% -0.04 005日志查詢提交 6.80% 0.492 0.467 5% 0.03 006改資料提交 2.00% 1.58 1.515 4% 0.07 007繳費提交50.40% 1.94 1.856 5% 0.08 008客戶資料查詢提交 6.80% 2.09 2.186 -4% -0.1 009禁止業(yè)務提交 2.00% 2.004 1.787 12% 0.22 010銷戶退網提交 1.20% 5.38 5.362 0% 0.02 011改付費計劃 1.20% 5.847 1.833 219% 4.01 012開戶提交

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論