




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數據管理與數據質量
-美國金融業中的對策處理速度容量限制數據質量Overview數據<=Data=信息(并非數字集合)數據科學(約)=信息科學為何研究大數據?因為相關產品(如硬盤,
memory,CPU等)價格指數下降因為信息爆炸因為大數據導致許多新問題大數據研究是多學科的綜合(IT,DM,BI,BA,…)實業界對大數據問題的對策(見下文)1.數據庫策略1.1Database(DB)performance1.2DBspace1.1DBperformanceAuditing–2tables:asmallactive&ahugepassivePartitionIndex(good/bad;Cluster;Global/Local)Locktype(whenapplyrowlock)Transaction:1-phaseor2-phaseNormalizationInternaloptimization
(e.g.ExecutionPlan=>hintinOracle)Constraints(e.g.Check)usagetoreplacetriggerTricks(e.g.Datefunction;Searchsmalltablefirst;…)1.2DBspaceSpacearrangementforevendistribution
(e.g.1hugetableusesafewdatafiles)CleaningprocedurewithdefragmentPartitiondesignwithcleaningplan2.Applications(軟件)
(Javaexample)Usingadvancedlanguage(e.g.JavaorC#)2.1Memory(內存)2.2Disk/networkspace2.3Performance2.4Maintainability2.1MemoryMinimizebigobjectscreationandcoexistenceGC(GarbageCollection)ornullbigobjectsonceoutofscopeChooseappropriateGCtypegc()TrytosplitonebigobjecttosmallobjectsUsemutableclassforfrequentlychangedbigobjects(e.g.StringBuilder,insteadofString)2.2Disk/networkspaceSmartcleanandarchiveprocesses
e.g.archivezippedoldornotusedfilestolowspeednetworkspaceanddeleteveryoldfilesfromthatspaceSmartloggingsettingse.g.log4jsizerollinge.g.AvoidduplicatedortriviallogginginfoMonitorforspaces2.3PerformanceAvoidredundanttreatment(inbigloops)
MaximizereuseMulti-threadingDBaccessingLogging--avoidslowoptions(e.g.line#)2.4MaintainabilitySOAprinciplesLosecoupling,reusability,granularity,modularity,composability,componentization,interoperability,…JEEpatterns(DAO,DTO,BizDelegation,…)Designpatterns(23)andMVCCreationStructureBehavior(e.g.Visitor)OOPprinciplesAbstraction,encapsulation,polymorphism,…Open/Close3.數據質量控制3.1Business3.2ProcessA.Failover&DR(DisasterRecovery)B.QA(QualityAssurance)
(see<軟件質量管理點滴>
fordetails)C.UAT(UserAcceptanceTest)3.3Technology3.1BusinessReducemanualwork;IncreaseautomationCompleteapprovalsystemformanualwork
E.g.1level=>2levelsor3levelsapprovalExtendviewpointstoconfirmdataqualityReduceredundancysystems(e.g.duetomerge,duetovendors)ScheduleCleansing(seedetails)EnhanceReconciliation(seedetails)BuildTrustlevel(seedetails)Trytocoverallrarecases3.1.ECleansingWhenAtsystemmergeAtmajorchangeHowDevelopdetectionapplicationsDelivermismatchreportstoIT&businessFindsolutionsonbothIT&business3.1.FReconciliationWhere1+subsystemshavedataforsamecontents.1+subsystemshaveindependentdatechangefunctionality.WhatRun&improverecon.app.routinely.Categorizereportsbyurgency.Analyzereports.DebugoradjustbizruleorapplyCleansing.3.1.GTrustlevelWhenAt1+fixeddatainputsInputsareindependentMustdecidefinaldetailsfrominputsHow(basedon)Providerlevel(foradetaileddatagroup)DatahistorySamples:Bloomberg,Reuter,Telekurs,DTCC,…;Moody,S&P,Fitch.3.2.AFailover&DRFailoverDB:2+atdiff.locations;real-timereplicationAppActive-Active:ClusterwithLoadBalancingActive-PassiveAuto(viaSAN)Manual+AutoDRDB:e.g.dailyorhourlyorreal-timereplicationApp:Manualswitch3.3TechnologyDBdesignConstraint‘Check’(forsensitivetablevalues)Normalization(toreduceduplicatio
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- DB36-T1780-2023-離子吸附型廢棄稀土礦區土壤質量調查評價技術規范-江西省
- DB36-T1722-2022-晚稻常規粳稻栽培技術規程-江西省
- DB36-T1566-2021-紅花油茶造林技術規程-江西省
- 安徽省亳州地區重點達標名校2024-2025年中考四模數學試題含解析
- C++調查外包項目試題及答案
- 2025年醫保支付方式改革政策實施試題試卷
- 企業管理培訓體系構建
- 醫學皮膚護理課件
- 2025年消防行業消防安全知識培訓考試題庫:職業道德知識測試
- 2025年高考化學沖刺卷:化學反應速率與平衡圖像深度解析與應用題
- 上泰pH計SUNTEX-PC-3110操作說明書
- T∕CNTAC 23-2018 醫護職業服裝
- 芯片生產全過程從沙子到封裝課件
- 水泥混凝土路面翻修施工方案完整
- 怡口軟水機中央凈水機安裝調試指南.
- 暖通畢業設計外文翻譯
- 專業大戶、家庭農場情況調查表
- 小學英語正在進行時用法及習題(含答案)
- 小黃瓜種植觀察日記(課堂PPT)
- 焊縫外觀質量檢驗規范
- 浮吊作業施工方案范文
評論
0/150
提交評論