數據集成產品的技術演進與實際應用_第1頁
數據集成產品的技術演進與實際應用_第2頁
數據集成產品的技術演進與實際應用_第3頁
數據集成產品的技術演進與實際應用_第4頁
數據集成產品的技術演進與實際應用_第5頁
已閱讀5頁,還剩60頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

I導讀在數字化轉型的大潮中,企業面臨的數據環境日益復雜多變。滴普科技的FastDataDCT產品應運而生,專注于高效的數據集成和管理,以應對多樣化的數據挑戰。這款產品結合了流批一體和湖倉一體架構,提供了從數據集成、分析到價值實現的全鏈路服務,極大地提升了數據處理的時效性和靈活性。FastDataDCT憑借在異構數據源實時融合和數據倉庫遷移方面的強大優勢,有效提高了數據利用率和管理效率,減少了數據浪費。本次分享將深入探討FastDataDCT的架構演進和實際應用案例,展現其在推動各行業數字化轉型升級中的重要作用。下面的介紹分為六個部分:3.技術架構演進4.應用場景6.Q&A分享嘉賓|劉波滴普科技FastData產品線DataFacts產品負責人編輯整理|胡回2.DCT簡介產品概述自2019年起,高德納連續4年將數據編織(數據結構)列為年度數據和分析技術領域的十大趨勢之一。高德納認為“數據結構是數據管理的未來”。數據架構是一種數據架構思想,包含DataOps數據工程,其中通過AI、知識圖譜等智能技術,實現主動元數據治理。DCT(DataCollectionTransform,簡稱DCT)支持關系型數據庫、NoSQL、數據倉庫(OLAP)、數據湖(lceberg、Hudi)等數據源,可用于公有云之間、公有云與私有云之間的數據入湖入倉的結構遷移,存量數據同步和實時數據捕獲同步。為企業實現數據流通,提供簡單、安全和穩健的數據傳輸保障。Spark在內的多引擎資源調度配置,支持批流一體以及故障轉移等復雜的數據傳輸機制。在復雜的網絡環境和業務背景下,DCT提供了穩固的數據同步解決方目前,DCT已經發展到第四代。其第一代主要關注于參數配置;第二代引入了可視化界面,以簡化任務配置過程;第三代實現了對讀取與寫入功能的組件化;而最新一代則新增了流批一體的任務類型,以進一步優化數據處理效率和彈性。3.產品定位:PB級數據量下高效、穩定的數據傳輸高速公路在大數據領域,特別是在PB級別的海量數據處理中,核心任務是確保數據傳輸的高效率和穩定性。DCT的產品定位就是在PB級數據量下高效、穩定的數據傳輸高速公路。從源端到目標端,DCT構建了一條能夠靈活適應不同數據源的可組庫、大規模并行處理系統(MPP)及數據湖和數據倉庫等。系統的核心技術能力集中在任務配置、組件管理以及運維維護等關鍵環節。這些能力共同支持了離線數據采集、實時數據采集以及批處理與流處理一體化等多樣化的數據任務類型,確保了數據處理流程的靈活性和系統響應的及時性,滿足了復雜數據操作的需求。4.產品價值產品價值主要體現在三大方面:異構數據源的實時融合專注于實現不同數據源如Oracle、MySQL、Kafka和Iceberg等的實時數據融合。包括支持數據的增量捕獲和異構數據的語義映射,以便實現數據的即時入湖。整庫入湖入倉,出湖出倉支持MySQL、Oracle等數據源入湖入倉,出湖出倉。快速構建湖倉內數據,打通數據孤島,實現數據的統一管理和高效利用,為數據開發工程師和數據分析人員可以快速建立數據模型、構建應用提供數據來源。降本增效降本:多種架構簡化場景,簡化軟件架構設計,降低異構數據融合成本。通過拖拉拽實現同步鏈路的創建,低代碼,降低學習和維護成本。增效:無代碼任務構建,提升數據集成敏捷性。支持組件自定義,提升客戶業務創新效率。分布式引擎、組件級高可用保障,實時鏈路穩定高容錯。5.產品優勢高性能多源異構數據采集支持從關系型數據庫、NoSQL、OLAP、數據湖等多樣的數據源進行結構化遷移、離線同步以及實時同步。批流一體化數據采集采用統一的開發范式,同時實施大數據的流式和批量計算,確保數據處理的一致性,并簡化了批流采集任務的配置流程。高可靠性與時效性通過變更數據捕獲(CDC)機制,實現日志級別的數據監聽,確保數據的時效性。同時,支持斷點續傳和故障轉移,保障數據傳輸的高可靠性。組件化插拔式管理提供了組件插拔式管理,用戶可以自定義組件進行擴展,并支持拖拉拽的任務配置方式,降低了代碼編寫的需求,使系統易于學習和維護。低成本高效率運行系統設計為單進程任務,最低僅需1G內存即可運行,降低了成本。同時,支持并行度設置,有效提高了數據傳輸效率。云原生架構設計系統采用云原生架構,無需調整現有架構,具有強大的兼容性。基于日志的設計對源業務無侵入,保障原有業務庫的穩定運行。功能介紹1.產品功能架構圖在產品功能架構的設計上,專注于數據湖和數據倉的高效數據處理流程,包括數據的導入與導出操作。Delink、EMR、MRS等平臺能夠得到良好的支持,系統對于數據湖或湖倉一體化平臺有很好的兼容性。基礎服務層面提供了數據源管理、資源組件管理等核心功能。數據傳輸層面數據傳輸過程中,任務類型被細分為離線、實時和流批一體三種模式。數據采集模式涵蓋一對一、多對一和一對多三種類型。組件配置方面,將其劃分為讀取組件、轉換組件和寫入組件,數據映射時提供字段批量處理、整庫處理和大批量處理等映射規則。數據安全管理方面,實施了嚴格的分類分級、加解密措施,并對任務管理進行了優化,包括前置檢測、導入導出、斷點續傳和DDL變更等功能。監控告警層面系統支持故障轉移,如通過檢查頻率來實現超時任務的故障遷移。任務執行過程中,監控大屏能夠實時顯示任務狀態、數據同步量和資源消耗情況。為確保數據質量,系統支持與源端進行數據質量校驗,并結合告警規則對超時任務和狀態進行監控。此外,系統支持多種消息提醒方式,如短信、釘釘電話、Webhook等,從而快速為下游應用提供必要的數據支撐。2.產品核心功能資源管理支持界面配置多種計算、調度、存儲資源類型。數據源管理支持界面配置多種類型數據源,測試連通性。組件管理將ETL能力抽象為“組件”,支持界面管理讀取、轉換、寫入組件。任務配置支持按項目空間&目錄進行任務管理。離線數據采集:支持根據源表生成目標表建表SQL等,快速創建目標表,支持按時間周期自動調度全量/增量數據采集。DCTOnLocal實時數據采集:支持通過訂閱數據源Binlog等方式,無侵入實現實時增量數據采集。批流一體數據入湖:支持通過一個任務實現批流一體數據入lceberg等數據運維監控實例日志:支持根據日志層級,分類查看日志信息,快速定位問題。監控告警:支持釘釘、郵箱、短信、電話等多種告警方式。數據質量:支持界面查看抽取總數、寫入總數、運行時長等指標進行數據質量管理。3.多引擎調度這種調度方法基于我們自主研發的PSC調度引擎,利用本地資源進行資源調度,其資源消耗極低。DCTOnYarn這種調度方法通過隊列機制實現資源隔離,保證了調度的效率和安全性。SparkOnYarn這種調度方法采用Spark引擎。在這種情況下,任務實際上運行在Yarn集群中,確保了高效和穩定的運行環境。Delink力,可以應對大量的特征需求。4.擴展性-自定義組件DCT統一了數據格式標準和組件開發規范,支持根據需求進行自定義組件開發,導入到管理界面后即可使用。5.構建任務-組件化配置、零代碼開發任務構建的過程也非常簡便,采用了模塊化的配置方法。用戶只需通過直觀的拖拽操作,將讀取組件、轉換組件和寫入組件按需串聯起來,即可完成任務配置。這種設計大大簡化了任務構建流程,提高了操作的便捷性和效率。6.離線同步(全量&增量)全量同步:指源表中所有數據都傳輸。增量同步:全量同步過程中或同步完成之后,源庫產生的增量數據,支持通過自定義SQL引用變量獲取。7.實時同步采用基于日志的增量數據秒級獲取技術(CDC),為數據倉庫、大數據平臺提供實時、準確的數據變化,從而使得客戶可以根據最新的數據進行運營管理與決策制定。MySQL,通過Binlog方式獲取準確的數據,支持5.x及以上多版本,支持只讀庫權限的同步;支持斷點續傳。PostgreSQL,支持邏輯流復制,通過wal2json解析日志獲取準確的數據;支持斷點續傳。Oracle,支持LogMiner讀取數據庫日志獲取準確的數據;支持斷點續8.批流一體使用同一套開發范式來實現大數據的流計算和批計算,進而保證處理過程與結果的一致性。降低批流采集任務配置復雜度,一次配置,程序自動進行批和流的數據采集,便于任務管理;批流自動切換,可降低資源消耗。9.豐富的監控運維系統提供了全面的監控功能,包括對每個實例的輸入和輸出數據量進行實時監控。這不僅限于單個實例,還涵蓋了平臺級和項目級的任務。監控內容包括數據同步趨勢、資源消耗等關鍵指標,所有這些監控數據都通過一個可視化界面展現。這種可視化監控系統使監控過程更加直觀和全面,支持實例級的輸入、輸出通過這種直觀的方式呈現監控數據,監控人員能夠更清晰地理解和分析監控場景,及時發現和響應任何異常情況,從而保證系統的高效和穩定運行。10.智能調度新一代分布式任務調度平臺,提供定時、任務編排、分布式跑批等功能,具有高可靠、海量任務、秒級調度及可運維等能力。工作流調度方面,平臺支持可視化工作流進行任務編排,以及支持Cron表達式和API。資源調度方面,平臺能夠監控和分配CPU、內存和IO資源,同時設置任務的優先級,以智能方式分配任務資源。分布式跑批方面,主要應用于離線場景,通過數據分片和將任務分配到不同的工作節點運行,以提高數據任務傳輸的效率。任務監控方面,包括監控任務狀態、執行結果,并支持任務的重跑設置。通過這些功能,平臺確保了任務的高效、穩定執行,同時提升了數據處理的效率和可靠性。11.斷點續傳復,也可基于斷網的定期保存檢查點實現斷點續傳,保證數據傳輸的穩定性。當出現故障,數據傳輸中斷,可基于CKP快速恢復傳輸任務的數據,高效解決數據質量問題。當然這有一個前提就是需要數據源支持斷點續傳機制。技術架構演進1.DCT1.0技術架構DCT1.0的核心功能包括:支持離線和實時數據同步;讀寫組件插件化;命令行的方式,單進程運行;支持MySQL、Oracle、SQLServer、Kafka、Hive等數據源。2.DCT2.0技術架構DCT2.0架構在1.0的基礎之上,進行了如下提升:任務創建和配置支持界面化操作,以拖拉拽的方式進行任務開發;支持數據源管理、讀寫組件和轉換組件的上傳與下載;支持多任務并行運行。3.DCT3.0技術架構DCT3.0架構介紹Manger管理端控制創建任務以及啟動停止;可實時監控MasterNode是否在線。MasterNode主節點負責WorkNode注冊上線,監控,狀態維護;對提交的任務進行節點分配,任務下發,狀態監控。WorkNode工作節點負責MasterNode上報所在服務器節點的資源相關信息MasterNode下發的任務;負責PSC啟動,監控上報,結束、異常處理等整個完整生命周期。PSC可編程調度容器執行數據同步任務的最小管理單元,包含讀取、轉換、寫入組件,共同組成一個同步任務;由WorkNode負責管理整個任務的生命周期。DCT3.0架構先進性支持分布式部署,Manager節點和WorkNode節點實現了無狀態化,能夠獨立的橫向擴展,支持高可用和彈性擴縮容;實時查看CPU、內存、I/O等資源使用情況;設定任務優先級,智能分配資源;優化PSC,使得能快速地支持自定義組件擴展。4.DCT4.0技術架構DCT4.0架構更進一步:優化掉了調度單點瓶頸的MasterNode節點,降低系統復雜度,提升了系統的可靠性;自主研發基于Manager結合PSC作為資源調度引擎,實現任務分片調WorkNode節點與PSC任務支持故障轉移DCT支持多種資源調度模式,能和大數據集群共享調度資源,降低硬件成DCT-on-Local模式:Local模式支持以工作節點作為任務運行的資源,不需要依賴外部資源;DCT-on-Yarn模式:支持在Yarn集群運行;DCT-on-Spark模式:使用Spark引擎,以Yarn作為資源調度運行任DCT-on-DLink模式:使用DLink湖倉引擎,以Yarn或K8S作為資源調度運行任務。應用場景接下來將通過整庫入湖場景,來介紹DCT的應用。將業務庫MySQL中的數據入湖,快速構建湖倉一體。僅需簡單的四步,即可完成從基礎配置到實例運維的全流程閉環。1.配置數據源配置數據源這一步驟相對簡單,主要通過直觀的拖拽操作來完成。用戶需要填寫相關的數據源連接信息,如數據庫地址、端口、用戶名和密碼等。連接驗證和預檢測配置完數據源后,下一步是驗證連接信息。包括檢查提供的連接信息是否正確,以及驗證相應的權限。系統會進行一系列預檢測,確保數據源連接的有效性和安全性。2.配置資源選擇DLink資源作為采集的資源調度引擎。湖內Catalog信息獲取,作為目標端。運維文件上傳(CDCjar上傳)。3.新建入湖任務選擇讀取組件,MySQL作為采集源端,寫入組件Iceberg_DLink作為目標配置任務基礎信息,例如:Flink重啟策略配置、Checkpoint、并行度、日志存儲等。分別配置批資源、流資源,實例運行自動切換。可根據源表結構,自動生成目標表結構,支持預覽、編輯、批量創建。前置檢測通過后,啟動任務。4.實例運維支持查看實例狀態、同步數量、異常記錄等。通過查看實例配置,二次檢驗是否符合同步配置。成功案例1.某能源企業:集成滴普實時湖倉,油田數據服務時效性大幅提升客戶背景某能源公司是以油氣業務、工程技術服務、石油工程建設、石油裝備制造等為主營業務的綜合性國際能源公司,是中國主要的油氣生產商和供應商之一。勘探開發平臺是國內油氣行業首個智能云平臺,其依托數據湖和PaaS技術實現勘探開發生產管理、協同研究、經營管理及決策的一體化運營,支撐勘探開發業務的數字化、自動化、可視化、智能化轉型發展。客戶需求——由離線數倉升級為新一代實時湖倉提升油田勘探開發數據的服務時效性,原有數據需要T+1才能從數據源端到達數據服務端。全量油田數據入湖,油田邊緣計算設備的時序數據需要實時上傳入湖,原有離線數倉不支持數據快速去重能力,導致時序入湖性能達不到要求。滴普服務統一數據集成工具:滴普DCT提供統一的多源異構數據庫實時同步+離線同步工具,支持結構化數據、半結構化數據實時匯聚。實時湖倉架構升級:滴普DLink實時湖倉引擎集成到勘探開發云平臺,提供數據實時計算、聯邦查詢等高級特性。解決方案數據源分類:項目涵蓋了11大類油田數據源,這些數據源多樣化,涉及油氣行業的多個關鍵領域。數據同步和調度:所有這些數據源通過DCT進行統一調度和集成。DCT在這里起到了核心的數據同步和集成工具的作用,確保了不同數據源之間的有效對接。數據同步至開發云平臺:通過DCT工具,數據被同步到一個專門的開發云平臺。這個平臺作為數據處理和分析的核心,支持大規模數據集的處理和分數據量和應用場景:這個項目處理了大約5PB的數據量,這一規模體現了其處理大數據的強大能力。最終,這些數據用于支持8大油氣數據應用場景,提供實時的數據服務。(1)勘探開發云平臺:勘探開發云平臺新架構數據集成:從各種業務系統中提取數據,通過DCT實現數據的統一集成。數據入湖:采用批流一體的方式,具體是通過FlinkCDC機制將數據同步到Kafka集群,然后再利用Flink將數據實時寫入數據湖。同時,也支持使用聯邦查詢技術進行批處理數據的入湖。析,實現數據的深度處理。數據同步與調度:處理完成的數據通過調度策略,使用Trinor進行離線同步到ClickHouse(CK)。數據服務API:最終,通過API將同步到ClickHouse的數據提供給下游應用,供進一步的業務應用和數據分析使用。(2)成果:異構多模數據通過統一數據采集架構入湖,優化運維成本新架構相較于原架構,實現了數據同步流程的簡化和統一,并通過實時數據湖的引入,提升了數據處理的實時性和全面性,為更快速、更有效的數據分析提供了支持。原架構特點:在原有的數據架構中,實時數據同步和離線數據同步是分開的,使用不同的工具鏈進行處理。新架構優化:新架構通過DCT實現了數據采集的統一,將實時和離線數據同步集成在同一條數據鏈路中,優化了入湖過程。數據湖轉變:在原架構中,數據湖主要面向離線數據存儲,而新架構升級為實時數據湖,提供了更高的時效性和全鏈路數據處理的能力。時效性提升:新架構顯著提高了數據處理的時效性,使得實時數據分析成為可能,同時還支持在實時數據湖中進行全鏈路的數據處理。(3)成果:數據入湖、湖倉內模型處理速度大幅提升,時效升級為T+0原架構處理方式:原架構依賴于離線跑批處理數據,并將數據同步到數據集市(datamart)層,同樣采用離線跑批的方法。新架構的優化:新架構采用了流批一體的處理鏈路,從數據入湖到最終寫入數據集市,整個應用層都采用了流處理和批處理的結合方式。時效性提升:新架構將數據處理的時效性從原來的T+1(次日處理)提升到了T+0(實時處理),顯著提高了數據處理的即時性。資源消耗優化:新架構能夠在資源消耗上實現顯著節省,提高了整體的數據處理效率。性能提升:在數據同步性能上,從原來的每秒同步1100條數據提升到實時入湖監測到的每秒25000條數據,性能提高了超過20倍。2.某零售企業:構建圍繞“貨”“店”數據智能運營體系技術應用:該零售企業采用了FastData平臺,輔以數據集成工具,以優化其貨店數據智能運營體系。成本下降:通過這些技術的應用,企業的硬件成本降低了25%。數據量和性能提升:在數據鏈方面,企業管理著大約2.5到3PB的數據規模,每天數據新增量約為500GB。數據查詢性能提高了30%。構,時效性也隨之提升到了T+0級別,即數據可以實時處理和分析。(1)某零售企業:基于FastData湖倉一體架構優化成本,性能和效率數據源集成:我們將內部及外部的多樣化數據源通過DCT進行集成,整合到FastData平臺。數據處理與分析:在數據集成之后,在FastData的基礎設施上進行了必要的數據處理和分析。指標與模型:處理和分析的過程中涉及到指標標簽的構建和應用模型分析。業務閉環形成:通過這些步驟,實現了針對特定業務場景的閉環,從而支撐了數據驅動的決策過程。(2)某零售企業:數據中臺聯合共創,全面提升業務效率問題客戶擁有多個業務系統,并使用多種數據庫類型;底層需接入多個組件實現數據離線、實時同步,技術復雜度高,穩定性差,采購多套商業軟件,費用高,資源消耗大。價值統一數據入湖工具可以降低數據集成過程的復雜度,減少維護成本,資源使用大幅減少。該工具采用集群架構,高可用,支持故障轉移,能進一步提升容錯性和可靠性。同時數據入湖速度、湖倉內模型處理速度大幅提升,數據服務時效從T+1升級為T+0。運行情況:DCT任務2000+,并發任務500+,平日數據量約為1億+;峰值3萬條/秒;DCT生產環境運行2年,運行穩定,無數據丟失;潰,無數據丟失,數據延遲<2秒;DCT實時同步速率約80MB/s,日最高承受數據量達20TB。Q&AQ1:DCT數據集成是如何保證數據一致性的?checkpoint機制。這一機制能夠在任務因異常中斷時創建保存點,以便在網絡或系統恢復后,能夠從上一個已知的良好狀態重新開始數據同步。這樣做的好處是,即使在出現故障的情況下,也能確保數據不會丟失,并且可以根據業務時間或數據偏移量進行精確地重置和消費。此外,如果目標端存在主鍵,我們還可以利用數據的冪等性質來避免重復,確保數據的一致性。離線任務同步的一致性保證:在離線數據同步方面,特別是在處理大數據量場景下,我們同樣實施了故障轉移策略,并記錄了數據的偏移量。當任務發生異常時,可以從記錄的偏移量處開始重新同步。這種機制保證了即使在離線狀態下,數據同步也能夠在故障后繼續進行,而不會造成數據的不一致。綜上,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論