




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
阿里巴巴數據中臺方法論工具化沉淀與5000+數據人交流互動阿里巴巴關注的是建立統一數據體系,同時貼近業務場景打造出體驗一流的數據服務與產品;企業管理者會關心同之處,去了解數據中臺的技術領先性...企業數據生產環節包括數據治理和分析,其中Dataphin承載了幫助企業治理好數據的使命,為未來數據資產入好數據。當前數據建設與治理所面臨的問題構建企業級數據中臺的核心訴求企業數據能力建設的三個發展階段Dataphin:源自阿里巴巴的數據建設、治理、消費一體化平臺規劃:高屋建瓴,總覽企業數據體系研發:高效建設,穩定運行特色研發能力資產治理:高價值數據,助力企業高質量發展數據服務:集中管控,快速服務業務系統自助分析:靈活分析,快速釋放數據價值資產目錄:主題式的目錄,打造精品數據開放能力:自由拓展,滿足企業個性化需求產品訂購與部署模式產品配套服務04企業實踐樣板雅戈爾:5年造數據中臺,最高節省70%日常精力臺州銀行攜手瓴羊共建數據平臺,打造小微金融治理新標桿一汽紅旗:“國車老大哥”乘上數字化東風,線索轉化率提升超過30%敏實牽手瓴羊加速數字化轉型,數據查詢效率提升近90%關于瓴羊P08P62數據建設與治理的現狀與訴求時技術又覺得沒有沉淀與成長;既懂業務又懂數據的人才不足,需求理解到開發實現涉及大量溝通,服務效數據體系化組織數據高效生產數據便捷服務用中臺方法論構建與治理企業級好數據用中臺方法論打造企業級好數據阿里巴巴在2015年提出全面啟動中臺戰略,并在集團內部開啟了一系列數據技術建設探索,沉淀下特有方法論捋清了數據全生命周期的管理思路,將其植入到瓴羊智能數據建設與治理Dataphin產品中,并與QuickBI(智能商業分析)、QuickAudience(智能用戶運營)一同形成數據中臺建設核心產品體系。自2018年問世以來,Dataphin已發展出了內容豐富的功能大圖,到目前為止經歷了多輪大版本升級,產品核心的能力模塊清晰顯現,可以幫助企業高效地完成「好數據」的構建。DataphinDataphin智能數據建設與治理數據建設、治理、消費一體化平臺全域數據資產目錄領域數據治理多模式數據處理數據服務大規模統一調度與運維隱私計算高效地匯整所有拖拽式標簽工廠全域數據資產管理報告全域數據資產盤點全域數據中心數據服務即席分析Dataphin從下而上可分為四個大板塊:平臺底座:●引擎平臺兼容:可支持不同的引擎及部署環境,可納管不同的引擎,包括但不限于MaxCompute、EMR、及開源版等,也支持不同云平臺環境的部署及私有IDC部署。企業自有系統進行對接集成或進行功能個性與定制。全域數據治理:全域數據運營:數據在消費者手中用起來才能發揮數據的價值,全域運營是將數據資產推送到數據消費場景中,讓數據在消費者手動實現價值化。全域數據運營板塊主要提供以下功能模塊:●自助消費:通過打通BI分析系統,面向業務人員運營人員,實現從可見到可用;通過提供即系分析的功能,可通過簡單的SQL、Python能力進行數據分析。一站式全鏈路全域數據資產●多樣的計算引擎兼容,可利舊降本:除了支持大數據離線和實時計算主流引擎外,我們還會不斷探索和集成更多的計算引擎,以滿足不同客戶的需求。我們會不斷優化引擎的性能和穩定性,以提高計算效率和降低成本。在部署的平臺底座上,我們也適配支持了不同的云平臺,包括阿里云的公共云多租戶、阿里云專有云、阿里云公共云VPC部署,IDC部署,以及其他云平臺上進行部署。●資產化驅動構建數據:阿里巴巴多年的內部的實踐,我們沉淀了一套完整的方法論,幫助數據資產的構建。這套方法論和產品也在100多家客戶中進行了深度的驗證。●價值導向、消費驅動的數據治理:我們將進一步完善數據治理體系,包括數據盤點、數據質量管理、數據安全與合規等方面。我們還將借鑒和應用更多的經驗和案例,不斷提升數據治理的水平和效果。同時,我們也會更加注重數據的價值和消費者需求,以提供更有針對性和可用性的數據治理解決方案。在這個方法論中,某一個完整獨立的業務對應一個業務板塊,數據建模是基于一個業務板塊來進行板塊●主題域模型:在數據中臺,主題對應一個宏觀的分析領域,比如銷售分析就是分析“銷售”這個主題,聯系較為緊密的主題的集合就是主題域。每一個行業都可以拆分為有多個(十個左右不等)主題域組成的主題域模型。●概念模型:在主題域的基礎上,每個主題域內增加了實體以及實體之間的關系。●邏輯模型:在概念模型的基礎上,增加每個實體的屬性以及屬性的約束。●業務分析模型:行業中重要的以及常用的分析方法與分析視角。在邏輯模型基礎上,將業務分析問題轉換為Dataphin特有的派生指標,并進一步提煉出原子指標和業務限定。業務分析模型業務分析模型原子指標主題域1主題域2主題域3業務統計粒度派生公共實業務板塊的劃分總原則是高內聚,低耦合。可以通過業務活動之間以及業務活動與業務對象之間的關系來厘定數據在消費者手中用起來才能發揮數據的價值,全域運營是將數據資產推送到數據消費場景中,讓數據在消費者手動實現價值化。全域數據運營板塊主要提供一下功能模塊:8%文章(Article)圖集(8Lo∈收藏(Collect)評8(Merchandise)地理位置oo概念模型主要由業務實體以及實體關系組成。活動有以下幾個關鍵要素(屬性):實體關系釋義與舉例1.業務對象A是業務對象B的屬性,則業務對象B關聯如:地址是客戶的屬性之一,客戶實體關聯2.業務對象A是業務活動C的參與者,則業務活動C關聯了繼承普通對象B是普通對象A的一種,但是比普通對象A多一些獨有的繼承了普通對象A。層級業務活動A有三個處理節點B、C、D,每個節點對應一個業務事件,業務事件發生后,A的狀態將發生變化。業務活動A包含業務事件如:銷售活動包含銷售下單,銷售付款,銷售完結業務活動A有三個處理節點B,C,D,每個節點對應一個業務事件,事件的順序發生,則B、C、D之間為流轉關系。前后序進入業務活動B之前必須先完成業務活動A,則A是B的前序活動,B是A的后序活動。企業在構建數據中臺時,首先就是要將企業內部各個業務系統的數據同步集成到數據中臺,然后進行后續的數據研發工作。一句話總結數據集成的能力,就是提供不同數據源之間的通道能力,解決異構數據源之間,讀取、轉換和寫入三個流程。Dataphin中的數據集成模塊是一個簡單高效的數據同步平臺,通過組件拖拽式的方式,提供了豐富的異構數據源間高速穩定的數據同步能力,與強大的數據預處理能力,匯集全域數據,打破數據孤島,為數據中臺的建設打好堅實的數據基座。 數據引入:全域數據可集成豐富實時/離線、全量/增量安全自定義引入字段容錯可配置測試數據可便捷生成可過濾輸出在企業信息化建設過程中,由于各業務系統建設和實施數據管理系統的階段性、技術性以及其它經濟和人為因素等因素影響,使得企業在發展過程中積累了大量不同存儲方式的業務數據,采用的數據管理系統也大不相同。從簡單用中臺方法論打造企業級好數據的文件數據庫到復雜的網絡數據庫,構成了企業的異構數據源。Dataphin數據集成支持豐富的異構數據源,包括關系型數據庫、大數據存儲、文件存儲、消息隊列、NoSQL、API、應用系統等40+數據庫。并支持創建自定義數據源,靈活接入數據,提供了數據源的可擴展性與靈活性。關系型關系型數據庫大數據存儲文件存儲消息關系型數據庫大數據存儲文件存儲消息隊列半結構化儲存自定義數據源半結構化儲存自定義數據源OceanBaseTeradataIMPALAVertiOceanBaseTeradataIM3.1.2強大的數據預處理能力與傳輸配置在數據集成過程中,對于數據安全、同步配置、數據預處理等都會存在一些訴求。Dataphin數據集成提供豐富的數據預處理能力以及任務中數據傳輸過程中的可配置項。●字段處理:提供字段選擇、條件過濾,與字段計算的能力。幫助在同步過程中過濾掉冗雜數據,提高數據質量。●數據安全:對于敏感字段,比如個人隱私信息,在集成任務中可以結合安全模塊,對敏感字段進行加密或解密,進一步保障數據在同步過程中的安全。●傳輸配置:支持限流配置,可根據數據庫性能與任務并發數靈活配置;支持條件分發,一個來源數據源以某個條件,二分發到兩個不同的目標數據庫中,可避免任務的二次配置;支持容錯配置,指定集成任務允許產生的臟數據上限;支持運行參數配置與數據庫連接配置:可根據場景靈活調整,提升集成任務的成功率與運維效率。字段處理字段處理●字段計算數據安全●字段加密傳輸配置傳輸字段處理在進行數據中臺建設時,匯集全域數據,需要集成的表體量較大,大量的任務配置與調試工作量會消耗大量人力與資源。Dataphin的數據集成提供任務配置、調試等各場景下的易用性功能,可提高任務配置與調試的效率。●組件化配置:可通過在畫布界面中拖拉拽組件進行集成任務的配置,通過無代碼化操作,降低任務配置門檻。●實時/離線整庫遷移:支持通過配置化的方式進行實時或離線的整庫遷移,高整庫數據遷移場景下的配置效率。●運行日志智能診斷:將原始日志提取為結構化的信息,包括任務運行信息(運行時長、CPU負載等)、同步通道信息(讀取/寫入速度,臟數據條數等)。在任務運行報錯后,自動提取日志內的錯誤信息,根據知識庫進行相似度檢索,提供可能的報錯原因與可參考的解決方案,提高排查與調試的效率。傳統的數據中臺建設過程中,數據模型需要用限定詳細的文檔記錄設計,再基于文檔進行代碼研發。經過多輪變更后設計文檔與實際代碼可能已南轅北轍。Dataphin通過規范化、模塊化的低代碼配置,在設計的同時生成代碼,有效的保證了模型與代碼的一致性,提升數據質量。Dataphin模型體系中,主題域模型和概念模型屬于規劃部分,邏輯模型和業務分析模型則屬于研發部分。1屬性是用來從各個方面描述實體,是純粹的業務認知。屬性的增減完全跟隨業務本身的變化,而不是基于業邏輯模型設置完成后,系統將自動生成相應的調度任務。后續如果業務側發生了變化,重新設十whereorder_date>='20200620′andorder_date<=′202006統計(分析)粒度發布管控是變更管控的子功能之一(后續可逐步拓展研發管控、運維管控等),變更管控分為更規則和變更新了才能運行指標”自動推算需要納入基線監控范圍的任務:添加需要保障的任務或字段后,系統將基于依賴關系自動推算需關聯路徑與關鍵實例識別:基線上需要保障的任務,其依賴關系可能錯綜復雜,Dataphin提供甘特圖功能以快速定位阻塞基線上數據產出的關鍵路徑與關鍵實例,其中影響基線任務產出的多條路徑中,耗時最長的路徑為基線關鍵路徑。例運行過程中可能產生的異常,同時提供單個任務每次運行的執行日志,可快速定位異常信息進行進一步分對于任務配置問題或網絡環境問題導致的的運行失敗,可以通過重跑快速恢復任務運行。某些特殊場景按需分配:實時采集(增量)全入(調度定時回流(分鐘/小時/天數據同步(全量)流批統一存儲層澄Dataphin在Flink流批一體的能力之上額外提供了更多的平臺能力,如數據源管理、元數據管理、元表使得元數據可顯示化定義和可管理,安全可靠,支持一次建表,多次引用,承載了權限管控,上下游血緣資產可查可探。流批存儲層的統一管理,實現模型層統一,流批代碼統一、在一份代碼上可同時進行流和批任務的各自專屬配置,生產獨立有協同的調度實例。●研發運維提效支持基于代碼模板等多種開發方式、編輯器智能提示,任務資源及參數的靈活配置,全面的版本管理,對象的批量管理、容器化調試和開發環境多模式測試等功能;支持任務靈活啟停、日志和異常信息分類分級查看、豐富的監控指標及靈活多樣的告警配置。●穩定性及質量保障Dataphin實時數據質量主要面向開發者,針對產品中實時產出的數據表,通過對產出結果進行數據質量分析和校驗,來保障數據的最終有效與準確。支持流量閾值設置,防止計算資源過度競爭,避免下游系統過載。支持實時元表質量監測,可配置統計趨勢監測、實時多鏈路對比、實時離線數據核對。4.特色研發能力Dataphin除規范建模、離線及實時研發及運維能力外,還提供了兩種特色的資產構建能力。標簽作為企業數據資產的一部分,在數據應用及業務中扮演著非常重要的角色。不同的企業中對標簽有不同的應用。如金融機構中,對私客戶經理需要基于客戶畫像進行理財產品推薦。消費金融領域對用戶貸前準入有嚴格審核,需要基于借貸用戶以及設備信息建立畫像生成風險評估報告,對高風險客戶進行有效識別。在零售營銷業務中,需要針對不同的用戶進行運營,如為促進高價值新用戶留存提高復購,制定運營策略“對當天注冊為會員的新用戶,且滿足注冊當日消費總金額滿100元條件時,對其進行短信營銷,派發優惠券”等。標簽資產作為重要的資產,也需要進行有規劃的建設和管理,業務部門可便捷高效地使用標簽資產用于業務。Dataphin標簽平臺提供了基于標簽類目進行標簽的開發、管理、應用、治理,實現數據資產商業價值閉環。標簽平臺基于Dataphin基礎研發版能力,面向成熟期企業,提供企業核心商業要素的標簽建設與管理能力,幫助企業沉淀好找好用、易開發、好治理的數據資產。目管理流離線標簽標簽資產類目查詢像查詢閱平臺管理業務規劃/資產治理公共云多租戶環境資產開發資產應用營銷應用離線服務標簽平臺面向不同角色的人員提供了全生命周期的標簽加工、管理與應用功能:從業務場景和訴求出發,可進行標簽市場的規劃與管理,標簽的實體、ID的管理以及標簽屬性的前置規劃,為后續的標簽開發及標簽應用做好前置的設計和規劃。可對標簽和群組進行類目管理、對標簽和群組的應用進行統計分析,從而進行標簽的運營工作。為標簽資產建設者提供標簽生產、群組加工的工作空間,在工作臺可以進行視圖和行為關系的定義,基于視圖、事件、行為關系進行標簽、群組加工邏輯配置完成資產開發與發布,并上架至資產市場。業務人員也可以基于市場的標簽或群組進行再加工,生成衍生標簽、衍生群組用于自己的業務。依托于Dataphin資產建設模塊強大的數據集成、數據研發及運維能力,以及圍繞標簽資產建設與運營管理的標簽平臺有其獨特的優勢:當前我國數據流通還處在起步階段,數據價值無法最大化釋放。因此,數據的開放共享、交換流通成為大數據產業發展的重中之重,快速發展的隱私計算等數據流通新技術為產業"破局"提供了關鍵Daphin隱私計算,基于隱私計算技術,為企業提供數據可用不可見的數據安全流通方案,幫助企業實現產業間解決企業/機構間數據流通問題解決企業/機構間數據流通問題安全聯邦學習安全聯合模型機器學習安全數據特征分析安全聯合分析預計算安全模型評估數據使用方本地隱私計算節點A-LSCC合作空間數據數據表創建FL邏輯回歸FL線性回歸數據保護設置隱私集合求交ID安全匹配非平衡ID安全匹配ID安全匹配預計算安全數據加密安全數據對齊安全數據左對齊隱匿信息查詢隱匿信息查詢預計算運行實例運行帳期運行狀態運行日志數據中心數據表數據源文件源數據審批模型審批區塊鏈存證深度學習模型預測項目審批任務審批免批規則調度規則運行狀態在線服務定制方案安全聯邦學習數據加持方本地隱私計算節點B-LSCC任務創建任務運行任務鎖定ID安全匹配隱匿信息查詢安全聯合學習安全聯合分析安全多方計算模型管理FL決策樹同態加密差分隱私聯邦學習協調中心FL深度學習合作空間共識審計特征分析任務管理4.2.2隱私計算核心能力功能介紹:在弱匿名化的前提下進行ID安全匹配。用于在不泄漏數據參與多方原始數據的前提下,得出共有ID集,非共有ID不會透出。適用場景:適用于一些數據圈選的場景。例如,某銀行期望在某電商平臺,對【特定非活躍老客】用戶進行老客營銷,需要求兩邊客戶交集,但兩邊客戶ID不透出,此處可用ID安全匹配功能完成。求A和B共同交集,但雙方都不透露非交集部分隱匿信息查詢,也稱隱私信息檢索,是指查詢方隱藏被查詢對象關鍵詞或客戶ID信息,數據服務方提供匹配的查詢結果卻無法獲知具體對應哪個查詢對象。適用于一些查詢場景,數據查詢方不想向數據服務方透露要查詢的內容。例如病患想通過醫藥系統查詢其疾病的治療藥物,如果以該疾病名為查詢條件,醫療系統將會得知該病人可能患有這樣的疾病,從而病人的隱私被泄露,通過隱私信息查詢可以避免此類泄露問題。在原始數據不出域的前提下,通過交換各個參與方的算法訓練的中間結果梯度、參數信息,或完全在密文條件下進行計算,從而發揮參與多方數據樣本更豐富、更全面的優合建模。其中,縱向聯合建模,聯合多個參與者的共同樣本的不同數據特征進行聯合建模,即各個參與者的訓練數據是縱向劃分的。橫向聯合建模,聯合多個參與者的具有相同特征的多行樣本進行聯合建模,即各個參與者的訓練數據是橫向劃分的。十十縱向聯合建模,適用于參與者訓練樣本ID重疊較多,而數據特征重疊較少的情況,例如某銀行和某電商平臺,分別擁有一部分客戶數據,擁有的客戶特征不一樣,銀行擁有客戶的金融信用數據,電商擁有客戶的電商消費數據,期望聯合兩方數據訓練精準營銷模型,則適合使用縱向聯合建模。橫向聯合建模,適用于參與者的數據特征重疊較望聯合兩方數據訓練共同訓練評分卡模型,則適合使用橫安全聯合分析功能介紹:在原始數據不可見的前提下,提供SQL模式對多方數據進行聯合分析。適用場景:適用于雙方數據不共享,但有一些統計分析的需求。例如電商平臺在媒體平臺進行了營銷廣告投放,投放結束后,電商平臺期望能聯合兩邊的數據,進行全鏈路的營銷活動復盤分析,就可以借助聯合分析功能實現。客戶A客戶B十十原始數據不出域,完成聯合分析4.2.3隱私計算核心優勢●安全性高Dataphin隱私計算,擁有全鏈路數據保護和權限管理機制,在數據的數據源調取、算法使用、算法變更環節,隱私計算都會發起授權,需要數據合作方進行確認審批,保證數據的使用不會出現數據合作預期之外的場景,全程清晰可見。另外,Dataphin隱私計算底層加密算法全部自研,自研算法在多個頂會中稿,底層算法能力已開源。并且,瓴羊Dataphin隱私計算已獲得工信部、ISO、國家金融評測中心三大類評測。●性能優越Dataphin隱私計算生長于阿里數據中臺實踐,在解決大數據場景下有優越的性能,支持百億級別的PSI、億級別的SQL分析,千維聯邦學習,隱匿信息查詢秒級返回。安全性和性能是隱私計算領域的兩大挑戰,想達到很高的安全性,性能必然受到影響。瓴羊Dataphin隱私計算,結合了大量的場景實踐,創新性提出了智能計算模式,能保障安全性的前提下,能根據場情況,自動選擇最優的協議、最優的計算引擎、最優的算法,自動為該場景匹配最優的計算模式。隨著各行各業數字化轉型進程的加速,業務數字化的基礎日漸扎實,數據驅動業務或數據化運營,不再是傳統頭部企業及大型互聯網公司的專利,越來越多的企業也在擁抱數據、消費數據。因此,數據治理的訴求呈現出日漸強烈的趨勢。治理的價值在于構建企業內一份質量可靠、安全可控、服務便捷的好數據,讓數據價值得以釋放。然而,數據治理并非一蹴而就。一般圍繞四大關鍵領域“成本、質量、安全、服務”開展工作,進行目標設定:●生產經濟:以控制甚至節約成本為目標,實際運作則需要拆解到業務線或者不同領域范圍的成本控制,比如銷●質量可靠:以減少數據質量問題、收窄數據質量風險敞口為目標,實際運作則需要拆解到應用場景或不同數據等級,如優先保障高管數據看板、驅動業務運行涉及的數據質量等;●安全可控:以滿足合規要求、防止數據泄漏為目標,實際運作則需要拆解到不同的數據類型或流程環節,如隱私數據、監管報送數據等;●服務便捷:以盤點供給豐富的數據、驅動數據消費為目標,實際運作則需要拆解到不同的業務線、數據類型及數據資產管理:360°全鏈路數據洞察與管理數據需要資產化管理,而非當做成本表、指標、API等資產對象全景呈現按圖索驥確信字段級血緣可追溯物理元數據及邏輯元數據管理數據標準、碼表、詞根定義及管理o敏感字段脫敏及防泄露資源陳本管控可治理自定義規則擴展及強弱規則阻斷告警基于資產元數據的落標關聯映射源、表、字段級資產分類分級及數據識別計算存儲健康度評估數據質量資產安全資源治理下面,我們就來詳細看一下每個具體的功能模塊在全鏈路資產治理中發揮的重要作用。統一元數據業務元數據數據質量數據標準數據安全資源治理針對不同來源的資產數據,Dataphin支持不同的采集方式,以更好地適配使用訴求。Dataphin系統支持自動、定時采集倉內數據資產(即項目綁定的計算源中存儲的數據資產)的技術元數據信結合從源端系統采集到的技術元數據和資產盤點過程中豐富的業務管數據,資產管理人員可快速了解數據資產概貌,資產開發和使用人員可快速找到所需要的資產并查看資產詳情,大大降低了溝通成本,快速打通資產消費鏈路。Dataphin支持管理多種類型的資產對象,包括:數據表(8種細分表類型)、字段、指標、數據源、項目、API、標簽等。每種資產對象根據使用場景和使用方式,在資產目錄展示了不同的信息項,便于消費人員更直接、更快捷的找到自己需要的信息,并評估是否滿足使用訴求。如:數據表資產,除了基本的表結構和字段信息,還展示了血緣和影響分析,便于在數據變更時準確評估下游影響并通知到相關人員;可快捷查看已配置的質量監控規則和質量報告,便于了解數據質量,判斷是否可用于開發或分析任務;支持快捷發起數據探查以了解數據分布概要、識別是否有主鍵重復、空值等影響數據準確性的潛在風險等等。基于統一的元數據采集與管理,下游應用也更加靈活豐富。與全鏈路數據治理的基石。數據標準是用于描述公司層面需共同遵守的數據含義和業務規則,通常從業務、技術、管理三方面進行定作為資產治理的重要一環,Dataphin數據標準模塊為數據標準的建設提供統一的產品化能力,支持:數據業解決數據建設管理過程中遇到的規范性、統一性問題,提升企業整體數字能力建設的標準化成熟和資產的健康度。DataphinDataphin支持數據標準定義與應用,同時結合質量、安全的能力,從數據開務和支持。數據標準管理的過程就是對數據以及數據的屬性信息的標準化定義和應用的過程標準模板配置自定義屬性引用公共屬性標準視角落標評估明顯資產視角落標監控評估資產評估推進整改指導消費監控規則業務信息數據開發屬性信息數據標準參考數據資產對象修訂中④到達生效時間已生效已停用⑥下線發布中標準創建完成后,需要和對應的資產對象關聯起來才能真正實現其應用價值,實現對資產的規范性約束。映射條件:標準英文名=字段名稱標準集item_id(無法映射)落標映射資產對象落標監控評估的結果統一在“落標評估明細”頁面呈現。落標評估明細提供了兩種查看視角。針對不滿足關聯標準定義的資產,標準管理人員可以推動研發人員可以盡早進行整改,從源端保障數據規范性和統一性。內容質量:系統模板/完整性/..目數據標準常常需要和參考數據一起使用,才能更好地適配業務需求。常見的參考數據包括碼表、詞根。碼表可用于約束標準屬性字段的取值范圍,提升標準定義的準確性。詞根常用作詞綴并作為數據表、字段等研發對象命名的參考依據,以提升命名規范性減少數據消費時的不一致性和理解誤差。Dataphin數據標準模塊支持碼表和字根的創建和管理,研發鏈路中也支持基于已定義的詞根自動推薦字段規范化命名和關聯標準,大大降低了標準管理人員的操作成本。總體來說,作為資產治理的重要一環,Dataphin數據標準功能為標準的統一管理提供了靈活的產品化能力支持,同時也能減少人工監控成本,為標準的落地執行提供了強有力的保障,讓數據消費通暢無歧義。Dataphin智能數據建設與治理整體工作提升質量整體工作提升質量·支持異常監控告警、質量整改建議、異常數據歸檔查詢等功能·支持整改工作臺跟蹤質量問題研發流程質量保障內置模板全面覆蓋全域數據質量檢驗量校驗統、數據消費的數據應用進行質量校驗數據質量核心能力研發質量校驗方式·支持阻斷任務,防止質量問題擴散·內置完整新、唯一性、有效性、準確性、覆蓋常用業務場景全域數據質量是指對客戶全場景/全數據源下的數據常用的數據場景,都可以進行數據質量監控。Dataphin能夠對客戶在數據處理中常用到的數據引擎、數據源和數據對象進行數據質量的監控,詳細支持的列表如下:支持范圍支持Dataphin上的物理表和100+不同監控指標的質量規則校驗支持MySQL、Oracle、Hive、表的質量檢測100+不同監控指標的質量規則校驗注冊到Dataphin上的數據源的穩定實時元表實時指標監控實時離線對比實時多條鏈路對比5.3.2豐富的內置質量規則模版量模版分類下28個模版共計100+不同監控指標的質量規則校驗:分類說明(主要基于DAMA)企業有1000員工只有600人有聯系方式唯一性對字段是否唯一進行校驗。員工身份證號碼在系統看到相關信息員工年齡-1歲,無效比較不同數據表的主鍵是否相同、單價總監,在銷售系統是主管校驗數據產出是否穩定,也可以用于校驗業務數據是否穩定校驗數據總大小/總條數是否穩定,以及數據的匯總值、平均值是否穩定等當一個月波動20%的時候可能存在異常自定義SQL支持自定義指標監控和自定義異常數據提示:此處僅針對模版的整體能力進行說明,每一個分類下都有更多的模質量分大盤全局質量分*日期2023-09-04全局質量分趨勢項目質量評估數據源質量評估個人質量分評估00項目質量分排行詳情日環比周環比監控資產數數值已選字段(7)日環比周環比234針對已發現的質量問題,提供問題的統一查看和管理、快速發起整改流程并跟進整改進度等功能,助力提升質整改完成后可以重跑校驗規則查詢最新的校驗結果,校驗通過后可主動發起驗收。整改任務發起人收到整改此外,對于暫時不需要治理的治理項,可以放入“治理白名單”進行統一管理,會正常執行,但不會生成待治理項。在治理白名單頁面,可以針對白名單進行統一管理,如修改白名單生效時度數據安全事前-敏感數據識別·全量敏感數據自動識別事前-敏感數據識別·全量敏感數據自動識別·識別記錄支持查看與管理·落地企業數據分類分級標準·密鑰權限統一管理和審計·敏感字段在權限流程額外·常用加解密/脫敏算法事中-敏感數據保護事后-安全風險與審計·代碼任務支持動態脫敏·確保敏感數據不泄露數據分類是安全模塊的基礎,數據分類的定義包含了業務場景、識別方式、敏感等級的信息。安全的自動識別和脫敏保護都依賴于數據分類。Dataphin內置了“通用”和“金融”兩個行業模型,包含了大量行業常用的數據分類信息,用戶可以根據自己的需要,一鍵引入內置的數據分類,并支持根據企業自身特性進行自定義修改,快速實現企業數據安全分類體系的冷啟動。全部(212)作業務類(85)賬號信息(a)0交易信息(3)合約協議(54)法定數字貨幣能包信息(1)e客戶類(96)?個人(59)?單位(37)經營管理類(31)5.4.2智能的敏感數據識別通過自動識別和人工打標,可以快速生成企業的敏感數據清單,該結果可用于后續權限申5.4.3內置豐富的脫敏算法,動/靜態脫敏更好保障敏感數據集中管控,快速服務業務系統在數據的消費場景中,除了簡單地提供數據表,另一種常見的方式是提供數據服務,也被稱為APl或接口,這種方式可以改善用戶的使用體驗,更加便捷、安全和高效。在企業中,常見的數據服務場景如下:對內的數據服務:企業不同部門之間通過數據服務實現數據共享,實現跨部門的協作;數據部門提供數據服務給業務團隊,實現數據賦能業務,用于進一步的商業分析決策;對外的數據服務:企業將部分數據服務開放給合作伙伴或第三方,實現數據變現。但是,在傳統的數據服務開發模式中,一般數據服務的需求從提出到交付分為:需求提出-需求分析-需求評估與設計-開發-測試-上線-交付,完整的流程往往需要花費超過2周的時間。而且,在接口上線后,如果業務需求發生變更,則需要重新提交需求,安排迭代和開發。這種開發模式對于不同角色而言存在以下問題:問題管理者業務場景多樣,個性化需求多數據接入方式多樣,接入效率低多物理表關聯查詢SQL代碼復雜,維護困難沒有全局服務市場和詳細資料,不知道怎么查找已有服務定制化開發響應緩慢,無法快速滿足業務需求市市場與調用服務運維服務開發管理API申請發布系統配置網絡配置數據服務市場服務開發Notebook是集文本與SQL查詢于一體的交互式數據分析筆記本。在SQL查詢任務的功能基礎上,支持了7.3Dataphin分析平臺使用場景為分析平臺綁定專用計算源,分析師可直接在分析平臺中使用致最新數據不能及時共享出去。主題式的目錄,打造精品數據隨著數據量的不斷增長以及消費場景的多樣化,當前單一的數據目錄已經很難滿足數據管理者和消費者對于資產管理和查找的需求。對于數據管理者來說,常常遇到以下問題:不同場景有不同的數據分類組織方式,難以使用一套目錄承載數據資產多且雜,難以快速識別核心資產,也無法區分業務關心的資產精品資產缺少推廣鏈路,資產價值難以發揮對于數據消費者來說,查找所需資產時也會遇到以下阻礙:無關數據一大堆,真正關心的找不到難以評估資產價值,用資產時小心翼翼種種困難和吐槽的背后,核心原因是缺少一套有效的資產管理及運營體系,數據難以與業務形成有效連接,數據資產價值無法發揮放大。Dataphin的資產專題功能,致力于打造面向主題的精品數據資產建設和運營生態,幫助數據生產者和消費者提升工作效率,持續提升資產價值。Dataphin的資產專題支持三層管理結構:專題分組-專題-專題目錄。每個專題分組下可以創建多個資產專題,每個資產專題下可以創建最多五級目錄。基于這種結構,可以實現多層級、多視角的資產分類管理。如:創建一個技術視角的專題分組,首先按照數據分層創建專題(如:ODS層、中間層、應用層等);每個專題下,再按照數據來源和存儲項目劃分目錄;再創建一個業務視角的專題分組,按照業務場景劃分為不同的專題,每個專題內按照業務實體和活動劃分不同的目錄。這樣一來,數據開發人員和運行分析人員在查找資產時,都可以選擇最適合自己使用習慣和訴求的專題,更快捷的查找目標數據。除了基礎的分類功能,支持給資產專題增加“是否精品”的標簽。針對典型的解決方案相關的數據,或某些高質量、應用范圍較廣的數據,可以通過添加到精品專題的方式進行主動推廣。此外,在專題廣場,所有成員都可以對專題進行收藏、點贊;運營管理員可以結合這些反饋,有針對性的進行推廣操作。總體來說,數據管理者可以借助資產專題功能打造主題/業務團隊等多個精品資產的運營陣地,從多視角切入進行資產盤點并評估資產熱度,優化全局資產供需匹配機制,以便提供更好的資產服務;數據消費者也可以更容易地搜索需要的資產,收藏精品資產專題或為其點贊,實現業務數據資產的一站式查找&自助消費。義數據源的開放能力,幫助企業實現各類應用對接Dataphin、結合系統元數據進行二次開發、對接內部審批系統Dataphin提供各模塊對應的OpenAPI,通過調用這些支持將Dataphin基礎研發平臺的部分能力集成到其他系統中,包括離線腳本任務和管道集成任務的查詢協助企業構建個性化的運維工具,通過API可完成離線腳本任務和管道集成支持使用部分Dataphin平臺級別的功能,包括創建與管理數據源、查詢項目信息、管理租戶和項目中的成客戶可以結合業務場景進行二次開發,以更好地滿足對下游業務的適配性;也可以對數倉開發任務等進行更細粒9.3審批與消息集成產品訂購與服務說明Dataphin支持公共云共享模式(全托管)、公共云獨享模式(半托管)、本地化部署和阿里云專有云這幾類訂購與部署模式。Dataphin提供多種可售版本,每個版本對應不同的基礎功能組合,以滿足多樣化的企業訴求。每個版本在最小功能合集的基礎上,可根據實際需求場景靈活疊加購買增值功能包,以夯實數據建設與治理基礎,更好地對接上層應用服務。1.1公共云共享模式(全托管)阿里云公共云環境下,Dataphin支持即買即用的在線服務訂購。您可根據需要選購不同的產品功能規格及訂購時長,詳情如下:●可選地域:華北2(北京)、華東2(上海)、華南1(深圳)、華東1(杭州)●云資源依賴:根據購買版本及規格,Dataphin為每個用戶分配一定額度的調度資源,您只需關注開發需要使用的計算引擎(如MaxCompute、FlinkVVP)并進行相關資源配置,無需關心其他產品部署所依賴的底層資源,即可快速開啟服務。1.2公共云獨享模式(半托管)此外,Dataphin支持阿里云公共云獨享模式(半托管)。相比于公共云在線服務,您可以獨立掌控軟件部署和任務運行所需要的相關云資源,購買后,云平臺將基于資源在指定VPC中實現自動化部署,具備更好的安全性和可拓展性,此外,您可以自行控制產品的升級時間,享受更加自由、靈活、自主可控的云上自助體驗。·云資源依賴:需要單獨購買軟件部署依賴的底層資源(如ECS、Redis、RDS等)、任務調度資源和計算資源,可靈活進行資源擴容除公共云服務外,Dataphin支持本地化部署,并可適配多云平臺及多種計算引擎,包括MaxCompute、特定訴求。“以客戶成功為核心”是Dataphin深植其中的服務理念。Dataphin團隊不僅提供技術支持,更傾力構建與客戶的深度協同與溝通橋梁。從精細的需求管理、系統變更的策略規劃,到個性化的實戰培訓方案,Dataphin始終致力成為客戶在數據轉型旅程中的可靠盟友。每一次服務我們都力求為客戶的業務創新與增長注入動力,最大化數據資產的價值回報。 客戶成功計劃:充分發揮Dataphin的能力價值結果智能數據建設與治理好數據、數據智能數據能力客戶成功計劃先進的平臺完備的功能良好的性能持續的迭代穩定的系統及時的支持專業的指導個性的陪伴充分發揮我們的合作之旅始自綜合服務矩陣,這是一套解鎖數據潛力的全面工具集。無論是依托于阿里云的強大生態系統,還是融入其他云環境,Dataphin均能展現出其高度的靈活性與適配性,確保無縫對接。我們提供專業的部署服務,搭配詳實的部署指南及運維手冊,加速客戶技術團隊掌握關鍵技能。此外,定制化的遠程專家培訓課程與豐富的在線教育資源,將迅速助力客戶成為數據治理領域專家。 支付客戶成功計劃支付客戶成功計劃基礎服務(標準包、高級包)面向訂閱制且訂購高級技術支持服務客戶、部署的新客戶提供標準的軟使用產品的必要技術支持和服務。包括軟件升級更新、系統監控、在線基礎技術支持、在線幫助及答疑響應等。及更高階技術支持的服務,面向客戶提供高階的技術支持和運維,包括更高時效及更廣時間貼合需要的產品培訓及實訓、個性化專屬的需求管理及系統集成、系統護航等高階服務。構、數據架構、數據開發產品客戶成功計劃初始化服務是客戶成功之旅的起點。我們提供定制化的部署咨詢與實施服務,確保Dataphin能夠在客戶的操作指南和豐富的在線教育資源,我們助力客戶團隊快速掌握數據管理的核心技
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論