




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、證券行業投資者服務數據集市建設方案目 錄 TOC o 1-3 h z u HYPERLINK l _Toc524640077 1.背景介紹 PAGEREF _Toc524640077 h 3 HYPERLINK l _Toc524640078 2.項目需求 PAGEREF _Toc524640078 h 4 HYPERLINK l _Toc524640079 1.功能性需求 PAGEREF _Toc524640079 h 4 HYPERLINK l _Toc524640080 2.非功能性需求 PAGEREF _Toc524640080 h 5 HYPERLINK l _Toc52464008
2、1 3.安全性需求 PAGEREF _Toc524640081 h 5 HYPERLINK l _Toc524640082 3.技術架構 PAGEREF _Toc524640082 h 5 HYPERLINK l _Toc524640083 3.1.邏輯架構 PAGEREF _Toc524640083 h 5 HYPERLINK l _Toc524640084 1.數據采集途徑一:批量數據 ETL PAGEREF _Toc524640084 h 6 HYPERLINK l _Toc524640085 2.數據采集途徑二:準實時數據同步 PAGEREF _Toc524640085 h 6 HYP
3、ERLINK l _Toc524640086 3.數據存儲 PAGEREF _Toc524640086 h 7 HYPERLINK l _Toc524640087 4.數據服務 PAGEREF _Toc524640087 h 7 HYPERLINK l _Toc524640088 3.2.數據架構 PAGEREF _Toc524640088 h 7 HYPERLINK l _Toc524640089 3.3.物理架構 PAGEREF _Toc524640089 h 9 HYPERLINK l _Toc524640090 1.批量數據 ETL 服務器 PAGEREF _Toc524640090
4、h 10 HYPERLINK l _Toc524640091 2.數據緩存隊列服務器集群 PAGEREF _Toc524640091 h 11 HYPERLINK l _Toc524640092 3.集市數據庫及并行計算服務器集群 PAGEREF _Toc524640092 h 11 HYPERLINK l _Toc524640093 4.應用服務器集群 PAGEREF _Toc524640093 h 11 HYPERLINK l _Toc524640094 4.關鍵技術 PAGEREF _Toc524640094 h 12 HYPERLINK l _Toc524640095 4.1.NoSQ
5、L 數據庫:SequoiaDB PAGEREF _Toc524640095 h 12 HYPERLINK l _Toc524640096 4.2.批量數據加工:Spark SQL PAGEREF _Toc524640096 h 15 HYPERLINK l _Toc524640097 4.3.實時數據流處理:Kafka + Spark streaming PAGEREF _Toc524640097 h 16 HYPERLINK l _Toc524640098 5.總結和展望 PAGEREF _Toc524640098 h 17 HYPERLINK l _Toc524640099 5.1.項目成
6、果 PAGEREF _Toc524640099 h 17 HYPERLINK l _Toc524640100 5.2.未來規劃 PAGEREF _Toc524640100 h 18 HYPERLINK l _Toc524640101 1.批量數據 ETL 流程優化 PAGEREF _Toc524640101 h 18 HYPERLINK l _Toc524640102 2.數據生命周期管理 PAGEREF _Toc524640102 h 18 HYPERLINK l _Toc524640103 3.元數據管理 PAGEREF _Toc524640103 h 19背景介紹我國股市約有 1.2 億
7、散戶,直接關乎上億家庭、數億人切身利益,保護好投資者尤其是中小投資者的合法權益,是資本市場工作人民性的具體體現,也是服務實體經濟的應有之義。黨的十九大明確提出“必須堅持以人民為中心的發展思想”。中國證監會有關負責人表示,要認真貫徹落實十九大精神和黨中央、國務院關于資本市場建設的一系列決策部署,加快推動形成融資功能完備、基礎制度扎實、市場監管有效、投資者合法權益得到有效保護的多層次資本市場體系,切實做好投資者保護工作。證監會主席劉士余先后多次強調“投資者保護重如泰山”、“保護投資者合法權益是證監會職責和使命所在”、“保護中小投資者合法權益是天大的事”。目前,公司對投資者服務主要依賴人工柜臺,柜員
8、手工進行業務操作和數據查詢,受限于服務網點數量和人工辦理效率,不能很好滿足投資者服務需求。為更好地服務廣大中小投資者,保護其合法權益,根據公司戰略布局和技術規劃,決定建設多渠道的投資者綜合服務專區系統及相配套的面向投資者服務的數據集市,為其提供用戶體驗好、快速便捷、智能化的賬戶查詢和證券質押等服務。在數據集市建設之前,數據查詢主要依賴于數據倉庫。 HYPERLINK /item/%E6%95%B0%E6%8D%AE%E4%BB%93%E5%BA%93 數據倉庫是一個集成的、面向主題的數據集合,設計的目的是支持決策支持系統的功能。在數據倉庫里,每個數據單元都與特定的時間相關。數據倉庫包括原子級別
9、的數據和輕度匯總的數據,是面向主題的、集成的、不可更新的(穩定性)、隨時間不斷變化(不同時間)的數據集合,用以支持經營管理中的決策制定過程。數據倉庫是一個典型的 OLAP 系統,在高并發、快速響應的場景下具有很大的局限性,無法滿足海量投資者數據查詢服務需求。目前數據倉庫使用 TD 一體機設備,成本十分高昂。數據集市(Data Mart) HYPERLINK /item/%E6%95%B0%E6%8D%AE%E4%BB%93%E5%BA%93 ,也叫數據市場,是企業級數據倉庫的一個子集,是為滿足特定的部門或者用戶的需求,只面向某個特定的主題,按照多維的方式進行存儲,包括定義維度、需要計算的指標、
10、維度的層次等,生成面向決策分析需求的數據立方體。為了解決靈活性與性能之間的矛盾,數據集市就是數據倉庫體系結構中增加的一種小型的部門或工作組級別的數據倉庫。數據集市存儲為特定用戶預先計算好的數據,從而滿足用戶對性能的需求。數據集市可以在一定程度上緩解訪問數據倉庫的瓶頸。為了保證投資者服務系統在低延時和高并發查詢的情況下具備足夠的支撐能力,可以 724 對外提供數據服務,且不影響原有數據倉庫統計分析應用的正常運行,最終決定建設面向投資者服務的專業數據集市。項目需求投資者服務數據集市主要目標是以面向用戶體驗為基礎,具有業務敏捷、分布式服務、高伸縮、高可用、易管理維護等特點,為多渠道的投資者綜合服務專
11、區服務。先期開始建設的數據集市主要包括有新三板市場投資者服務數據集市、基金市場投資者投票服務數據集市、全市場在線業務查詢數據集市。其建設原則應包括:抓住主線功能需求;采用主流技術;滿足未來發展需求;充分驗證測試。基于上述目標和原則,我們總結了如下需求。功能性需求存儲現有數倉中滬深市場、新三板市場、基金市場等各類投資者數據;支持結構化和非結構化數據;數據庫和其他服務組件具備動態擴容能力,以支撐數據集市階段性發展的容量和計算能力需要;支持 T+1 批量數據的 ETL 功能,能夠從 TeraData 數據倉庫及其他數據庫采集數據;支持實時數據流處理能力,實現準實時數據同步;支持數據加工,主要是多表關
12、聯和聚合運算;數據庫支持 SQL 和 API 訪問接口,方便應用開發;支持數據備份恢復;具備完善的管理功能,例如監控、配置和任務調度等;非功能性需求海量數據存儲。初期至少支撐 100TB 存儲容量,遠期支撐 PB 級;高并發訪問。初期至少支撐 1 萬并發查詢,遠期支撐 10 萬并發查詢;低延時。在高并發情況下,查詢響應時間不超過 100 毫秒;7x24 持續穩定運行。在高可用集群技術支撐下能夠實現集群級別的不間斷持續穩定運行,并能夠在絕大部分場景下進行不停止集群的數據庫維護工作。安全性需求數據高可用。需要支持多副本冗余。在部分副本數據損毀情況下, 保障數據不丟失;用戶身份驗證和權限管理。用戶不
13、可越權訪問數據;完善的審計功能。能夠完全記錄所有數據訪問和數據操作。技術架構邏輯架構截止目前,三個數據集市的數據分別來源于數據倉庫和基金投票系統。所有數據需經過 ETL 處理后存儲到數據集市中,部分數據還需經過批量加工處理后, 供下游數據使用者查詢。數據集市的邏輯架構如圖一所示。圖一:邏輯架構如圖一所示,從上游數據源到下游使用者,中間提供服務的數據集市內部包含數據采集、數據傳輸、數據處理、數據存儲和平臺服務這五大功能模塊。其中,數據采集、數據傳輸、數據處理可以類比為傳統的 ETL 功能模塊。但是,這個數據集市的 ETL 功能模塊包含了兩種 ETL 方式:批量數據 ETL 和準實時數據同步。數據
14、采集途徑一:批量數據 ETL新三板市場和全市場在線業務數據集市要求數據每日更新。因此這兩個數據集市均采用傳統的 ETL 方式,即每日定時導出批量數據到文件(Extract),然后經過文件傳輸、數據轉換(Transform)和數據加載(Load),最終將數據放入數據集市的數據庫中存儲,以供下游使用者查詢。我們稱這個流程為批量數據ETL。主要包含以下步驟:1)定時抽取:每天夜間,數據倉庫里邊的數據加工處理完畢之后,數據集市的抽取任務定時啟動,將約定數據接口的新增數據或者全量數據抽取到數據文件中。2)文件緩存:抽取環節生成的數據文件需要存放到文件系統中,以備后續數據處理之用。另外,數據文件需要壓縮緩
15、存多天,作為數據備份使用。3)批量處理:兩個數據集市的大部分接口數據只需要數據轉換和加載入庫。少量接口數據需要在數據入庫之后進行加工處理。加工的主要需求是預關聯,即將兩表或者多表數據關聯形成更多字段的新表,以滿足兩個數據集市的數據查詢需求。數據采集途徑二:準實時數據同步基金市場投資者投票服務數據集市對數據時效要求較高,要求數據準實時同步,以數據準實時查詢。具體而言,即要求上游系統(基金市場投資者投票服務系統)的數據發生變化(包含增刪改)之后,數據集市內的數據也需在短時間之內(5 秒之內)實現相同的變化。我們稱這種 ETL 方式為數據準實時同步,也可稱為實時數據流處理。主要包含以下步驟:1)實時
16、采集:該步驟要求最短時間內發現源數據庫的數據變化,包含對應庫表的數據的增刪改,并且不對源數據庫產生明顯的性能影響。2)緩存隊列:為了增加穩定性和吞吐量,在實時采集和實時數據加工處理環節中間使用數據緩存。該緩存以隊列的方式,保障數據先進先出的順序關系。該緩存隊列要求具備優秀的響應性能、并發能力、高吞吐量、穩定性和高可用能力,以保障數據同步流程安全可用。3)實時處理:該環節包括數據加載和實時統計兩方面作業內容。每條投票數據順序進入緩存隊列之后,由實時處理程序順序的讀出并加載入庫,同時實時統計投票數等重要數據,用于基金投票狀態的實時展示。數據存儲數據經過 ETL 過程之后,被存入數據庫,主要包括賬戶
17、數據和交易明細數據。數據服務數據查詢是數據集市最核心的服務。新三板市場投資者服務數據集市和全市場在線業務數據集市這兩個數據集市主要提供賬戶數據、證券交易流水查詢服務。基金市場投資者投票服務數據集市主要提供投票詳情及實時統計結果查詢。歸結起來,這些主要是高并發的精準查詢。數據架構數據進入數據倉庫之后,將根據分析或者查詢的需求,加工和匯總成相應主題。因此,數據集市的數據也將按照查詢主題進行組織和管理。根據數據主題及數據處理加工流程,我們規劃設計了數據架構如圖二所示。圖二:數據架構圖目前已經實施了如下三個數據集市:新三板市場投資者服務數據集市;全市場在線業務查詢數據集市;基金市場投資者投票服務數據集
18、市。上述三個數據集市之間不共享數據、不需要關聯查詢、不存在交叉訪問權限, 是可以完全獨立運行的。但是,在數據庫中不是分庫管理的,而是通過權限控制形成邏輯層面的獨立數據集市,這樣可以共享軟硬件資源。新三板市場投資者服務數據集市和全市場在線業務查詢數據集市的數據來源均為數據倉庫。數據接口形式為 T+1 的批量數據文件,即每日證券市場收市清算交收批量處理產生的數據。兩個數據集市由不同的邏輯數據域存儲,管理隔離。同時,由于這兩個數據集市的數據查詢需求中存在表關聯情況,而頻繁的并發關聯查詢需要消耗大量磁盤 I/O、內存和 CPU 計算時間,所以要對多表關聯進行預加工處理,即將多表關聯到一張表中,以便于將
19、多表關聯查詢轉變為單表查詢,從而提升查詢效率。基金市場投資者投票服務數據集市的數據來源于上游交易系統數據庫的數據實時采集,即數據變化實時同步到數據集市中。同時,由于基金投票場景中存在實時顯示投票進展的需求,所以需要實時統計各投票選項的票數,對每條投票數據進行實時累加統計,并將結果更新入數據集市的統計表中。下游各業務系統通過查詢服務接口可以隨時查詢對應數據集市的數據。查詢服務提供身份驗證、權限管理和查詢接口,不允許修改數據。物理架構根據數據集市功能需求、邏輯架構和數據架構,我們規劃的物理架構可以用圖三來表述。圖三:物理架構圖包括以下四個部分:批量數據 ETL 服務器該服務器用于批量數據 ETL
20、流程。服務器中運轉 ETL 主控程序、數據轉碼程序和數據批量加載程序。這些應用均為 Java 語言開發。ETL 主控程序使用統一調度監控系統(外部系統)的定時作業調起,完成指定數據接口的指定 ETL 過程, 例如檢查數據文件到達情況,調用數據轉碼或者數據裝載等動作。數據轉碼使用Java 程序調用 Python 轉碼程序完成,能夠做到 GBK 編碼到 UTF-8 編碼的轉換, 并且吐出轉碼失敗的數據。數據批量加載程序主要是通過快速加載工具完成,并且檢查加載結果是否正確。所有程序均具備錯誤檢測及告警能力。另外,該服務器的文件系統作為數據文件緩存使用,并由一個清理程序自動維護。超過緩存期限的數據文件
21、將被自動清理,以保持文件系統剩余空間足夠使用。該服務器為 X86 Linux 虛擬服務器,配備 4TB 磁盤空間。數據緩存隊列服務器集群該服務器集群由三臺服務器組成,其中部署三副本的 Kafka 集群,并配合外部 Zookeeper 集群的一致性服務,從而實現高可用的消息隊列服務集群。Spark 集群中,在 Spark streaming 分布式數據流引擎中運行 Java 應用程序實現小批次的實時數據加載入庫和實時數據統計計算。使用 Spark SQL 作為批量數據加工引擎,主要實現多表關聯的預處理作業。這個集群中的服務器均為 X86 Linux 虛擬服務器,每臺服務器配備 1TB 磁盤空間。
22、集市數據庫及并行計算服務器集群該服務器集群中部署了兩個邏輯集群,分別是 NoSQL 數據庫集群和 Spark 集群。NoSQL 數據庫作為數據存儲層,Spark 作為計算層。這樣規劃的原因主要有兩點:1)兩者資源需求互補,即數據庫最耗 I/O,而 Spark 最耗 CPU 和內存, 能夠充分利用服務器硬件資源;2)NoSQL 數據庫和 Spark 均為分布式架構,Spark計算單元訪問本服務器的 NoSQL 數據庫節點可以具備最好的性能。NoSQL 數據庫集群部署為三副本高可用模式。其高可用機制由數據庫引擎自身提供,無需借助 Zookeeper。Spark 集群的高可用機制借助處于系統外部的
23、Zookeeper 實現。這個集群中的服務器均為 X86 Linux 物理服務器,每臺服務器配備 10 塊 4TB硬盤。應用服務器集群數據查詢服務及管理服務均部署于應用服務器中,并且集群化部署,以提供負載均衡和主備容災能力。這些應用服務通過 NoSQL 數據庫提供的訪問接口(SQL JDBC 和 Java API 兩種方式)的連接池方式連接 NoSQL 數據庫。應用服務同時需要提供管理功能,例如用戶管理、權限管理、配置管理、監控等功能。下游業務系統通過 F5 負載均衡服務器訪問應用服務。應用服務器集群的服務器均為 X86 Linux 虛擬服務器。關鍵技術依據數據集市的整體需求,設計上述系統架構
24、的過程中采用了抓住主線功能需求、采用主流技術、滿足未來發展需求、充分驗證測試的設計原則。通過大量的功能、性能、穩定性驗證測試,該平臺最終選擇了如下軟件以實現對應的需求:NoSQL 數據庫選擇國產 SequoiaDB,可支撐海量數據存儲和低延時高并發的數據查詢,并具有金融企業級數據訪問安全審計功能Spark SQL 支撐批量數據加工和統計Spark streaming 支撐實時數據流計算處理Kafka 支撐實時數據流的數據緩存下面具體介紹一下主要軟件技術特性。NoSQL 數據庫:SequoiaDB對比項SequoiaDBHbase技術支持國產原廠源代碼級別國產第三方架構復雜度簡單,無需 HDFS
25、復 雜 度 高 , HDFS+Hbase兩地三中心容災能力多副本,引擎內置機制支持難以實現多索引支持在多個字段上建立索引,也支持唯一索引只有 rowkey 索引,其他字段需要設計二級索引, 工作復雜多字段查詢高速(因為行存)低速(因為列存)適用場景交易+查詢+分析查詢+分析SQL 支持MySQL/Postgresql, HIVE/SparkSQLHIVE/SparkSQL我們也對 Hbase 和 SequoiaDB 進行了調研和測試,對比分析結果如表二所示,最終考慮到業務場景和技術支持服務情況,選擇了 SequoiaDB。連接方式JDBC/JSONAPIAPI/JDBC事務支持支持不支持高并發
26、隨機讀取性能高性能一般且波動嚴重表二:SequoiaDB 對比 HbaseSequoiaDB 作為典型的Share-Nothing 的分布式數據庫,同時具備如下特性:分布式、可擴展、高容量;高性能、高并發;高可用、高穩定性;支持 SQL;企業級管理功能。SequoiaDB 采用分片技術為系統提供了橫向擴展機制,其分片過程對于應用程序來說完全透明。該機制解決了單臺服務器硬件資源(如內存、CPU、磁盤 I/O) 受限的問題,而且并不會增加應用程序開發的復雜性。SequoiaDB 采用經典的分布式技術架構,如圖四所示。圖四:SequoiaDB 整體架構SequoiaDB 引擎主要由三種節點組成:協調
27、節點:負責調度、分配、匯總,是 SequoiaDB 的數據分發節點,本身不存儲任何數據,主要負責接收應用程序的訪問請求;編目節點:負責存儲整個數據庫的部署結構與節點狀態信息,并且記錄集合空間與集合的參數信息,同時記錄每個集合的數據切分狀況;數據節點:承載數據存儲、計算的進程,為用戶提供高性能的讀寫服務, 并且在多索引的支持下針對海量數據查詢性能優越。多個數據節點可以組成一個數據節點組,根據選舉算法自動選擇一個主數據節點,其余節點為備數據節點。數據集市部署 SequoiaDB 時采用三副本冗余高可用方式。各副本之間,由數據庫引擎實現自動的同步或者異步日志復制機制。保證了多副本之間的數據一致性。當
28、其中一副本(主節點)出現故障時候,其他兩副本能夠快速選舉新的主節點,并且繼續提供數據讀寫服務。該部署方式可以保證不出現單點故障。圖五:SequoiaDB 多副本高可用SequoiaDB 的分布式和多副本的部署方式,可以最大程度實現高效數據庫高并發訪問,并且保障平臺整體平穩運行。應用訪問 SequoiaDB 的接口方式主要有 Json API 方式和 SQL 方式。Java 應用通常采用 Java API 驅動或者 JDBC 驅動來連接 SequoiaDB。SequoiaDB 兼容標準 SQL 語法,也可采用 Java API 接口方式可以在簡單查詢的場景下獲得最高的性能。實際上,API 方式對
29、于互聯網應用開發者而言,才是更加熟悉和習慣的數據訪問方式。SequoiaDB 支持完整的企業級數據庫管理的各項功能:審計日志可以記錄完整的數據訪問和數據操作;備份和恢復;快照和列表(監控);支持實時同城災備、準實時異地災備;支持靈活的強一致性和最終一致性配置;集群擴容;可視化管理頁面;批量數據加工:Spark SQL新三板市場投資者服務數據集市和全市場在線業務數據集市這兩個數據集市的 ETL 流程完成之后,需要對部分數據接口進行預處理,主要是多表關聯。由于數據倉庫不提供某些需要聚合運算的接口,所以改由數據集市進行一些數據加工處理,主要是關聯和聚合處理。加工之后的數據供集市應用查詢。數據加工的模
30、式主要是 SQL 處理,類似于: INSERT INTO . SELECT . FROM A LEFT OUTERJOIN B ON (.) GROUP BY 。我們使用 Spark SQL 進行這樣的數據批量處理。Spark SQL 作為計算引擎,通過 SequoiaDB 提供的連接器可以無縫訪問SequoiaDB,并且盡量訪問本地節點。其架構示意圖如圖六所示。圖六:Spark 連接 SequoiaDB上述流程的核心技術基礎是 Spark SQL 可以無縫平滑的訪問 SequoiaDB,而且都是分布式并行計算和分布式并行存儲引擎。SequoiaDB 提供了Spark 連接器。該連接器可以充分
31、下壓查詢條件到數據存儲節點,并且能夠根據數據分布特征自動的盡量從本地節點讀取數據。這樣的連接器充分利用了分布式并行系統的并發I/O 和計算優勢。針對批量數據加工場景,我們對比了 Spark SQL 和 DB2 及 MySQL 做兩表關聯的性能。兩張表的數據量分別為 6000 萬條和 2000 萬條。 Spark SQL+SDB 耗時 10 秒之內,DB2 耗時 2 分鐘左右,而 MySQL 耗時過長沒有統計結果。SparkSQL+SDB 的架構可以滿足我們的需要。實時數據流處理:Kafka + Spark streaming實時數據流技術可以將傳統的批量數據 ETL 方式的數據延遲程度從 1
32、天(或者幾個小時)大幅度提升到 1 分鐘以內,可以將源系統數據變化及時同步到目標數據庫中,并且實時計算統計數據。實時數據入庫數據處理流程如圖七所示。圖七:實時數據入庫流程數據的源頭系統處,需要部署實時數據采集軟件或者應用。源數據庫是MySQL 數據庫,所以采用了能夠實時解析 binlog 的軟件愛可生的 DTS。基金投票應用將投票數據實時寫入 MySQL 數據庫投票明細表,由 DTS 服務集群實時將 MySQL 庫投票明細表的 BinLog 數據解析為 JSON 字符串格式的消息,插入 Kafka 集群的 topic 中。Spark Streaming 應用實時的從 kafka 的消息隊列即
33、topic 中讀取消息。實時數據處理應用拿到 Spark streaming 提供的數據流之后,根據統計規則做實時統計,將實時統計結果入 MySQL 庫,并將數據實時插入 SequoiaDB。庫中的投票數據再由 Spark SQL 應用每天定時統計,并將統計的結果插入 MySQL 數據庫中,供基金投票應用查詢每天的投票結果。基金投票實時數據讀取入庫應用基于 Spark streaming 流處理技術,應用程序不間斷的從 kafka topic 中獲取 JSON 字符串類型的數據,將獲取的一條條消息數據封裝為一個個 RDD,再將多個 RDD 封裝為一個 DStream(離散數據流)。SparkS
34、treaming 基于 Dstream 開始對數據進行第一步轉換,清洗,加工得到符合入庫條件的 DStream 流。最終使用 Spark Streaming 輸出流算子對數據進行輸出操作, 將數據通過 SequoiaDBJavaAPI 插入至 SequoiaDB。值得注意的是,Kafka 內部配置多個 topic,每個 topic 對應一張數據表。如果某張數據表的數據更新允許基于某個字段的分布式并發,則將該表對應的topic 設置為多個 partition 的,以通過并發機制提升數據吞吐量。否則,切不可配置為 partitioned,以免并發機制造成數據更新次序錯亂,從而造成數據集市的數據與數
35、據源不一致。我們在少量硬件資源情況下進行的性能壓測中得到的該實時數據流處理架構的基本性能是 1.8 萬 TPS,并且延時少于 5 秒,完全可以滿足基金大會投票的數據同步需要。總結和展望項目成果投資者服務數據集市已成功上線實施,很好的滿足了如下業務需求:擺脫人工受理和手工查詢的現狀,全市場和新三板投資者可以通過 APP等渠道自助在線查詢,例如證券持有情況查詢、歷史交易明細查詢等;將數據集市單獨建設,減輕了數據倉庫壓力,不影響數倉的主要功能, 即統計分析,實現數倉減負;幫助基金市場投資者投票系統實現大數據量存儲和實時在線查詢,及實時統計;高并發在線查詢情況下,依然提供快速響應的能力,提升用戶體驗;7x24 持續在線服務,不發生故障;數據庫高可用特性充分保障數據安全,不丟失數據;完善了用戶身份驗證及數據權限管理,避免越權訪問;數據訪問的完全審計記錄,實現所有操作可追溯;通過上線前的性能測試及上線試運行,已經體現了 NoSQL 數據庫+Spark 技術架構應用在數據集市的優異性能。主要的性能指標如下:批量數據加載性能:大于 50MB/S,大于 5 萬條/
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 金融客服考核試題及答案
- 注冊土木工程師考試全科試題及答案
- 營銷策略制定的試題及答案
- 注冊土木工程師考試有效應對策略試題及答案
- 買賣飛機合同范例
- 以股權還款合同標準文本
- 出租園林用地合同范例
- 加盟中藥美容合同范例
- 舉辦展覽合同范例
- 邏輯游戲幼兒園數學試題及答案
- 畢業論文-中小企業防火墻的應用
- 可穿戴式設備安全可靠性技術規范 腕戴式設備
- 內科學動脈粥樣硬化和冠狀動脈粥樣硬化性心臟病
- ×××章程修訂對比表
- 《運算的意義》(教學設計)-2023-2024學年六年級下冊數學北師大版
- 高效養中蜂關鍵技術
- 廣州小學六年級英語下冊知識點歸納和習題(全冊)
- (正式版)JTT 1482-2023 道路運輸安全監督檢查規范
- MH-T 5035-2017民用機場高填方工程技術規范
- MOOC 數據挖掘-國防科技大學 中國大學慕課答案
- 測溫儀及測振儀的原理及使用 課件
評論
0/150
提交評論