




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1大數據治理體系與數據治理體系的聯系與區別大數據治理是一項系統工程,大到大數據技術平臺的搭建、組織的變革、政策的制定、流程的重組,小到元數據的管理、主數據的整合、各種類型大數據的個性化治理和大數據的行業應用。組織必須治理全部大數據,將大數據治理定義如下:
大數據治理是廣義數據治理計劃的一部分,即制定與大數據有關的數據優化、隱私保護與數據變現的政策。將上述大數據治理的定義分解為以下部分:
1大數據是廣義數據治理計劃的一部分數據治理機構必須采取以下措施,以將大數據整合到既有的數據治理框架中:
擴展數據治理憲章的外延,將大數據治理納入其中;
拓寬數據治理委員會成員的范圍,將數據科學家等大數據的超級用戶吸納進來;
任命處理社交媒體等特定大數據的主管;
將大數據與元數據、隱私、數據質量和主數據等數據治理準則結合。大數據治理關乎政策制定政策包括人們在特定情形下如何作為的成文和非成文的宣告。譬如,大數據治理政策可能申明,未經顧客知情并同意,組織不得將顧客的Facebook資料整合到其主數據記錄中。大數據必須優化考慮一下組織是如何將現實世界的準則應用到大數據治理中的。公司設計了精致的企業資產管理計劃,對機器、飛機、交通工具和其他資產進行妥善管理。與對實物資產進行登記類似,組織必須對大數據進行如下優化:
元數據——建立大數據類別信息;
數據質量管理——像公司對實物資產進行定期檢修一樣,定期凈化大數據;
信息生命周期管理——對大數據進行存檔,并在沒必要繼續保存某些數據時,將其刪除。大數據隱私至關重要組織同樣必須建立旨在防止大數據誤用的適當政策。組織在處理社交媒體、地理定位、生物計量學和其他形式的個人可識別信息(PII)時,必須考慮涉及的聲譽、規制和法律風險。大數據必須變現所謂變現,就是將數據等資產轉化為現金的過程,變現的方式可以是將數據賣給第三方,也可以是利用數據開發新的服務。在當下,公司意識到,必須將大數據視為具有財務價值的企業資產。例如,運營部門可以通過傳感器數據,根據定期檢修計劃,提高設備正常運行時間。呼叫中心可以分析客戶代表的記錄,通過了解顧客呼叫的原因,降低呼叫量。此外,零售商可以使用主數據激活Facebook的應用程序,提升顧客忠誠度。2.1大數據治理框架大數據治理框架由三大部分組成:大數據類型、大數據治理領域、行業與功能2產業和功能場景保險業電信業零售業公共事業醫療保健業組織元數據隱私數據質量大數據類型web和社交媒體數據機器對機器的數據生物計量學數據大體量交易數據人工生成的數據信息治理大數據治理需要高度聚焦于數據本身。傳統的數據治理領域同樣適用于大數據大數據分析受用例驅動,用例的具體情況因產業和功能而異??蛻舴誌T業務流程整合情緒分析Facebook忠誠度計劃客戶流失分析索賠調查IT日志分析車載通信技術位置服務索賠欺詐分析智能儀表患者監測索賠分析客戶流失分析通話質量保證基因測試人臉識別承保電子病歷RFI日志3.1大數據治理成熟度模型實施大數據治理的第一步,是評估大數據治理成熟度的當前狀態和期望的未來狀態?,F將某信息治理委員會的成熟度模型用于成熟度評估。該模型設立了4個領域的11個大數據治理成熟度指標。3支持準則數據架構數據標準審計信息日志和報告核心準則數據質量管理信息生命周期管理信息安全與隱私支持要素管理人員數據風險管理政策目標業務成果要求支持增強組織機構和認識元數據3.1.1大數據治理成熟度模型介紹及問題示例4目標目標指信息治理計劃的預期結果。目標傾向于關注降低風險與提升價值,這反過來又受降低成本和提高收入的驅動。業務成果:代表信息治理計劃的目標和目的。業務成果:A是否已經確定了大數據治理計劃的關鍵業務關聯方?B是否對大數據治理可帶來的財務收益進行了量化?支持要素核心準則支持準則組織結構和認識:指業務部門和IT部門間的相互責任,以及對治理不同管理層次中數據的信托責任的認識。管理人員:旨在保證數據監護,實現資產增值、風險消解和組織控制的質量控制準則。數據風險管理:據以識別、保留、量化、規避、接受、消解和轉嫁風險的方法論。政策:期望得到落實的組織行為的書面表達。數據結構和認識:如關鍵角色的職位說明中,是否包含大數據治理,如配備首席數據官和信息治理官?管理人員:是否已經建立了責任分配(RACI)矩陣,以定義針對大數據關鍵屬性的角色和責任?數據風險管理:是否在大數據治理與風險治理之間建立了聯系?政策:是否已經歸檔了一組大數據治理政策?數據質量管理:指測量、提高和保證產品數據、測試數據和歸檔數據的質量和集成性的方法。信息生命周期管理:有關信息采集、使用、保留和刪除的系統化的、基于策略的方法。信息安全與隱私:組織用于消解風險和保護數據資產的策略、實踐和控制手段。數據質量管理:對于與大數據相關的質量問題(數據價值不高或不顯著),是否達成了一致意見?信息生命周期管理:是否制定了流程,根據法律和業務要求合法處理不再需要的大數據?信息安全和隱私:首席信息安全官是否是大數據治理計劃的關鍵支持者?數據架構:結構化和非結構化數據系統及應用的架構式設計,用于實現數據的可用性,并將數據分配給合適的用戶。元數據:指用于創建常見的語義定義、IT術語、數據模型和數據庫的方法和工具。審計信息日志和報告:指監測和測量數據價值、風險和信息治理有效性的組織流程。數據架構:Hadoop、NoSQL以及與當前架構相關的其他新興大數據技術的共存戰略是怎樣的?分類和元數據:業務詞庫是否包含與大數據相關的關鍵業務術語(如針對點擊流數據的“獨立訪客”)?審計信息日志和報告:企業如何檢測特權用戶對醫保索賠和通話詳單等敏感大數據的訪問?問題示例模型介紹案例5.2某大型金融機構資金管理部的大數據治理路線圖5創建Hadoop基礎設施大數據治理的演進關鍵活動每日頭寸快照社交媒體和非結構化內容治理大數據某大型金融機構的資金管理部,為大中型企業提供現金管理和流動性管理的綜合服務。該部門處于部署大數據計劃的早期階段,其最初的大數據治理路線圖如右圖所示:第1-6個月構建技術基礎設施,獲得Linux服務器和ApacheHadoop發行版。由于大數據是一個新事物,在切入業務前,必須設計一個可行的用例,并進行財務可行性論證。此外,組織要認真審視數據管理的傳統方面:怎樣將數據導入并導出Hadoop?Hadoop中的數據質量如何?大數據的元數據是怎樣的?如何將大數據整合到未來12個月將要部署的主數據管理數據庫中?大數據已經成為主流媒體的熱門詞匯,高管層至少很有可能同意支持一個大數據試點項目。因此,數據治理團隊需要及時更新路線圖,將與大數據有關的人員、流程和技術計劃納入其中。第6-12個月引入詳細的交易記錄,以分析每日頭寸快照。受傳統基礎設施成本高昂的影響,以往的金融機構從未進行這樣細致入微的分析。第12-24個月將社交媒體數據和其他非結構化內容引入Hadoop環境。由于金融機構的大多數客戶是大企業,對交易對手的10-K和10-Q歸檔等非結構化內容,進行探索性分析。第24-36個月資金管理部已經有了現成的聚焦于大企業客戶的主數據的信息治理計劃。大數據處理框架的組成6大數據治理需要高度聚焦于數據本身。我們將大數據分為五種:web和社交媒體數據、機器對機器的數據、大體量交易數據、生物計量學數據和人工生成的數據。大數據類型信息治理準則產業與功能傳統的信息治理準則,同樣適用于大數據,相關準則包括組織、元數據、隱私、數據質量、業務流程整合、主數據整合和信息生命周期管理。大數據分析是受例驅動的,用例的具體情況因產能和功能而異。限于篇幅,我們只列出了部分的產業和功能。大數據的類型大數據大體可分為五種類型7Web和社交媒體數據二的點擊流數據TwitterFeedsFacebook帖子網絡內容Web和社交媒體數據二的點擊流數據TwitterFeedsFacebook帖子網絡內容機器對機器的數據二的公用事業智能儀表讀數RFID讀數石油鉆探設備傳感器讀數網絡內容Web和社交媒體數據二的點擊流數據TwitterFeedsFacebook帖子網絡內容Web和社交媒體數據二的點擊流數據TwitterFeedsFacebook帖子網絡內容類型6.1職責分配(RACI)所代表的內涵8應負責方(Responsible)指授權管理某屬性的人。(一種屬性可有多個負責人)最終負責方(Accountable)指數據屬性承擔最終責任的人。咨詢方(Consulted)指通過雙向溝通接受咨詢的某人或某些人。被告知方(Informed)指通過單向溝通被告知的某人或某些人。7大數據治理計劃需要實施的最佳實踐91324創建一個體現關鍵大數據術語的業務定義的詞庫。理解對ApacheHadoop中元數據的持續支持。對業務詞庫中的敏感大數據進行標記。從相關的大數據存儲中輸入技術元數據。將相關的數據元與業務詞庫中的術語進行鏈接。5768使用運營元數據監測大數據的流動。保留技術元數據,以支持數據血統和影響分析。從非結構化文件中采集元數據,支持企業搜索。擴展既有的元數據角色,將大數據納入其中。9元數據是描述數據產品特征的任何信息,如名字、位置、可感知的、重要性、質量、對企業的價值,以及與企業認為值得管理的其他數據產品的關系等。元數據決定信息架構的如何滿足業務需求,因此元數據是信息治理計劃的關鍵。7.1業務詞庫10業務詞庫業務詞庫是企業用于傳達其對信息的認識的語言。創建并維護該層業務元數據,對表達要求的含義和描述IT系統可用的信息至關重要。業務詞庫保證了信息開發的準確性和速度。術語代表著企業和業務層面對信息的理解,所以許多組織傾向于自下而上創建數據詞典,對已有的信息進行歸類。在處理大數據時,業務驅動的數據定義和數據目錄之間的區別尤為重要業務詞庫保證了信息開發的準確性和速度。在處理大數據時,業務驅動的數據定義和數據目錄之間的區別尤為重要。7.3對業務詞庫中的敏感數據11對敏感的大數據進行分類發現敏感數據對業務詞庫中的敏感數據進行標記執行大數據隱私政策進行分類大數據治理計劃需要對社會保險號碼等敏感數據進行分類。分類應來自業務詞庫模型并被傳承到不同數據庫中數據的所有物理實例中。敏感的大數據可能隱藏在非結構化文本中。大數據治理計劃應考慮數據分析工具的利用,以便自動發現非結構化字段的敏感數據。首席信息安全官制定有關敏感數據的政策。只有在識別到敏感數據的位置時,組織才能執行政策,因此,在業務詞庫中標記敏感數據就非常關鍵。大數據治理團隊可以通過使用數據分析工具發現敏感的大數據,以監督對政策的遵從度。從相關的大數據存儲中輸入技術元數據12在創建業務詞庫后大數據治理團隊需要從大數據源中采集合用的、相關的元數據。大數據源Hadoop文件商業智能報告應用數據庫數據模型準結構化非結構化數據結構化信息管理經銷商元數據中央存儲庫橋接器連接器7元數據13元數據創建一個體現關鍵大數據術語的業務定義的詞庫理解對ApacheHadoop中元數據的持續支持對業務詞庫中的敏感大數據進行標記從相關的大數據存儲中輸入技術元數據將相關的數據元與業務詞庫的術語進行鏈接使用運營元數據監測大數據的流動保留技術元數據,以支持數據血統和影響分析從非結構化文件中采集元數據,支持企業搜索創建非結構化數據的索引,也是元數據的一種形式,許多企業的搜索供應商已開發相應工具。14保險業通過向呼叫人員提供客服關懷、告警、保單和客戶信息文件等多個文件庫的可搜索訪問,可將平均處理時間減少三秒,年節約數百萬美元。通過提供對EMCDocumentum、文件系統、微軟Share-Point、內網和外部數據庫中客戶、患者和研究數據的快速訪問,加快科研進程。讓臨床醫生可訪問來自醫學刊物和其他文件庫的最新研究成果。制藥業醫療保險業7.9拓展既有的元數據角色,將大數據納入其中信息治理團隊可能安排許多與原數據相關的角色。組織需考慮這些角色進行拓展,以將大數據治理納入進來。15業務詞庫管理者數據科學家元數據管理者數據血統管理者數據主管數據架構師本角色負責保管應將大數據術語包含在內的業務詞庫。本角色負責在相關數據源識別和輸入技術元數據。數據血統管理者與數據管理者配合,確保數據血統分析中數據源之間的數據流可得到準確地反映。本角色參與大數據特別是關鍵業務術語定義的管理。本角色監督元數據模型的創建及其與企業數據模型的連接。本角色縮短了大數據原始卷和使其有用的業務洞察間的距離,其通過創造力和想象力創建原型,以揭開大數據中的秘密。9大數據質量16維度傳統數據的質量大數據的質量處理頻率處理是面向批量的處理是實時的或面向批量的數據多樣性數據格式大部分是結構化的數據格式可能是結構化的、準結構化的或非結構化的置信度數據需處于原始階段,以方便數據倉庫的分析糟糕的數據質量可能會阻礙分析工具獲得業務洞察數據進化的時間選擇在下載到數據倉庫前數據需要進化數據的體量和速度可能要求采取流式的、內存中的分析來進化數據、從而降低存儲要求關鍵數據元素評估客戶地址等關鍵數據元素的數據質量數據可能被模糊定義或錯誤定義,關鍵數據元素可能會反復變化分析位置數據遷移到數據質量和分析引擎數據質量和分析引擎可進入數據中,以保證可接受的處理速度管理工作數據主管可管理大部分數據由于體量大和速度快,數據主管只能管理相對更小的數據數據質量管理是測度、提高、驗證質量以及整合組織數據的方法等一套行為準則。體量極大、速度極快和多樣的特點,決定了大數據質量所需的處理有別于傳統信息治理計劃的質量管理。大數據治理計劃必須采取的實踐179.1與商業上的利益攸關者協作,建立并測度大數據質量的置信區間9.2利用準結構化和非結構化數據,提高人口稀疏的結構化數據的質量9.3使用流數據分析技術解決內存中的數據質量問題,無需將中間結果輸入硬盤9.4任命對信息治理委員會負責的主管,由其負責提高10業務流程整合
1810.1識別將會受到大數據治理影響的關鍵流程10.2建立關鍵合同的流程圖10.3針對業務流程中的關鍵步驟,制定大數據治理政策1.大數據源圖21.1大數據技術參考架構19Web和社交媒體數據機器對機器的數據大體量交易數據生物計量學數據人工生成的數據15.大數據安全和隱私16.大數據生命周期管理17.云2.開源的基礎組件HDFSMapReduceHadoopCommonHBaseOthers5.數據庫NoSQLIn-MemoryRelationalLegacy6.大數據整合批量遷移復制虛擬化7.文本分析8.大數據發現9.大數據質量10.元數據11.信息政策管理12.主數據管理13.數據倉庫和數據集市14.大數據分析和報告3.Hadoop發行版4.流媒體分析18.大數據標準8.大數據發現9.大數據質量微軟的大數據平臺201.微軟Hadoop發行版6.WindowsAzureExcel5.大數據分析與報告SQLServerAnalysisServicesSQLServerParallelEditionSQLServerReportingServi
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/CMA JY-047-2021加油機在線監督管理規范
- T/CIMA 0028-2021手持式數字多用表檢驗規范
- T/CIMA 0021-2020諧波有功電能表檢驗裝置
- T/CIIA 017-2022科學數據安全標準體系
- T/CHTS 20025-2022公路橋梁單元式工字形鋼梳齒型伸縮裝置
- T/CHINABICYCLE 1-2018電動自行車集中充電設施設備技術規范
- T/CHES 43-2020水利水電工程白蟻實時自動化監測預警系統技術規范
- T/CHC 1004.3-2023植物基食品第3部分:肉制品
- T/CGA 42-2023地下黃金礦山巖石力學數據采集技術規范
- T/CECS 10302-2023抗流掛聚氨酯防水涂料
- 地域文化(專)-終結性考試-國開(SC)-參考資料
- 《卵巢無性細胞瘤》課件
- 燃氣鍋爐房工程施工方案
- PRP注射治療膝關節炎
- 第一次電力工程例會發言稿
- 上海市安裝工程預算定額(2000)工程量計算規則
- 安徽省江南十校2023-2024學年高一下學期5月階段聯考化學試題2
- GB/T 7247.1-2024激光產品的安全第1部分:設備分類和要求
- 東方電影學習通超星期末考試答案章節答案2024年
- 唐宋名家詩詞鑒賞學習通超星期末考試答案章節答案2024年
- (完整)注冊安全工程師考試題庫(含答案)
評論
0/150
提交評論