SequoiaDB巨杉数据库_SequoiaDB
SequoiaDB巨杉数据库_下载

金融近线历史数据管理

收藏(0)关注(0)

金融近线.jpg

新一代大数据架构在传统行业IT中的融合和演进成为重中之重。由于海量的结构化和非结构化的历史数据是目前传统企业已经拥有的最重要的大数据资产,如何唤醒企业拥有的海量历史数据、利用海量数据增强客户体验、强化风险分析、发现运营规律成为历史大数据建设的焦点。海量的历史数据通常包括历史交易数据、历史管理(流程)数据、历史影像数据、历史客户交互数据等等,其蕴含的巨大价值包括:

• 提升客户体验,手机App、线上直销和电商等导致线上客户的查询需求迅速增加,尤其对于海量历史数据的灵活查询和统计需求迅速上升。

• 客户标签与画像,通过客户的历史数据分析客户的各个时间段的偏好属性与其基本属性之间的关联。

• 大数据驱动的运营管控,需要保存更长期的历史管理数据和影像数据,并且更快的发现业务运营上的问题。

• 大数据辅助风险分析,风险分析需要更长时间的历史数据支持,尤其是原始数据,比如审计或司法部门要看到多年前某一时点(以天为单位)某业务系统某张表的原状(可称时点快照);

 

  传统的企业IT架构中ODS/DW系统是数据处理的重点,ODS/DW系统中通常会存储和处理2-3年历史结构化数据,包括数据的查询、统计、分析等,而非结构化的历史数据,以及超过3年以上的结构化数据往往由于数量太大,只能存到已光盘和磁带为主的归档系统而无法充分加以利用。但是ODS/DW系统并不适合用于处理海量历史数据,这是由于:

1. ODS/DW系统基于传统通用关系数据库技术构建,所处理的数据超过一定量以后性能急剧下降,需要成本高昂的专用一体机来处理,因此海量数据的处理成本往往限制了企业对于更大量数据处理的渴望。

2. ODS/DW系统基于关系型数据库技术,无法处理大量的非结构化数据

3. ODS/DW系统更专注于数据的集成和清洗,把生产数据变成企业管理角度所需要的主题数据,但是对于随时变化的客户查询统计类业务、审计和司法调查类业务、以及各种需要快速灵活变化的数据请求,往往不堪重负。

4. ODS/DW系统的基础是模型,而互联网业务的迅速发展,使很多数据的存储和分析都无法预先定义好完善的模型。


在上述业务需求的推动下,建设专门的历史海量数据管理系统已成为必然,它将重点解决以下几个技术问题

• 海量的结构化和非结构化历史归档数据原来都放在磁带光盘上没有利用,历史数据平台首先要解决多种类型的海量数据分布式存储问题,通过低成本的分布式集群为海量数据存储提供高效稳定的平台。

• 现有ODS/DW系统中已经累积多年数据,运行效率越来越低,而历史数据平台可以把大量历史数据迁移出去,提供相对廉价的数据存储和计算压力卸载。比如把大量和业务主题无关的、需求随机的数据分类查询、分析,多表关联查询,交互分析等业务拆分到历史数据平台中处理,从而使数据仓库和历史数据平台各司其职,相辅相成。

• 由于移动客户端的使用增加,用户从移动App上对更长期的历史数据查询与统计需求越来越强烈,造成生产系统的查询压力陡然增加。成熟而稳定的历史数据平台除了卸载历史数据查询和分析之外,也可以同时应对高并发的客户在线查询压力,从而成为多个高压力生产系统的读写分离技术平台。下图以某商业银行的历史数平台为例,说明读写分离的方式和各类不同应用同时访问海量的历史数据。


33.png 

以一个数十个业务系统的大中型企业为典型例子,每天产生数百GB的增量数据传向下游,而且需要定期提供全量数据查询和分析历史数据管理平台要将所有系统每天的增量与定期全量全部存储起来(这些增量是合成单位到天的全量快照的基础),并规划10年以上数据周期,其结构化数据量将达到近百亿条,而历年的非结构化的影像数据(比如图像、文档、视频等)可以达到300TB-500TB。历史数据平台首先保证这些数据的存储成本降低、可以在线访问、能快速直接查询,还要能够保留数据与元数据的所有变化痕迹,针对汇总数据进行交互式分析,实现所谓的数据全生命周期管理。

这就是新一代企业级历史数据管理的真正需求,它是银行新一代IT建设工程中必不可少的重要组成部分,是企业新一代数据架构规划的关键所在。

技术挑战

海量的历史数据是档案性质的数据,这些数据档案需要能够脱离计算节点进行有组织的、清晰的纯存储层面的自管理,即所谓离线存储,在线访问,存储层与计算层松耦合。也就是说,我们需要清晰地知道哪一年,哪一月,哪一天,哪一个系统,哪一张表的数据在哪个位置存储,这对企业级、长期的历史数据管理来讲至关重要。

如上述,ODS/DW系统所依赖的传统关系型的通用和MPP数据库都已经无法适应新一代的海量历史数据平台的技术挑战,而开源Hadoop技术平台也不是非常适合传统企业以格式化数据为主的历史数据处理要求。用Hadoop这样一个以在线海量计算为主要设计与发展目标,而在存储管理上以简单处理为策略的计算平台,来完成档案数据长期存储管理的需求,是平台选型上的先天不足”  Hadoop在存储管理上的简陋体现在:

• HDFS/HBase不支持多索引和事务,在线交互SQL的支持还不完善。

• HDFS是文件存储方式,不适合在线操作,比如其不支持直接修改数据,一般是删除再增加

• HDFS不适合存储海量的小文件,由于分布存储需要从不同节点读取数据,效率反而没有集中存储高;

• HBase没有外键关系,但它单行数据可以支持数百万列,所以HBase设计表时的一种方式就是将所有的关联信息都保存在同一行中: 

        – 对于类似历史数据的业务而言,这样无法体现数据之间的本质关系; 

        – 列定义太多时,对业务人员和数据治理而言也是噩梦。 

• HBase中扫描数据的效率严重依赖行主键的设计

        – HBase构建二级索引成为常态,要注意,添加二级索引并不是轻量的操作,每次你向主表写入数据时,就会更新所有的二级索引, 索引的成本很高。 

因此,在计算层和存储层分离的原则下,Hadoop技术适合作为历史数据在计算层的其中一种高并发处理手段,而不适合作为历史数据的主要存储。

SequoiaDB的独特优势

对于档案性质的海量历史数据而言,新一代分布式数据库在历史数据的灵活模型和分布存储上有着独特的优势。而SequoiaDB是国内唯一自主研发的NewSQL分布式数据库,为客户提供灵活的数据建模结构、强大的分布式SQL以及更丰富的企业级数据库管理功能:

灵活的JSON数据结构适应面更广 

     · 既可以描述关系型结构,最大限度保留现有的SQL应用资产;也可以描述非关系型结构,比如K/V和类宽表。 

     · 可以把非结构化的文件和结构化的描述项一起存储,而不是索引+文件存储 

     · 适当降低范式维度,减少复杂的JOIN操作

强大的分布式SQL引擎 

               · 完善的SQL支持, 包括高并发、低延时和批量计算SQL能力

               · 高效的随机读写和Update 

               · ACID和事务支持

更丰富的企业级数据库管理功能

· 原生的多索引支持 

· 强大的数据压缩能力 

· 支持异地集群的数据容灾 


基于SequoiaDB建设历史数据平台的的优势具体包括:

• 同一个业务应用在不同时期版本中的数据结构不同,历史数据平台要求在一个业务表中存储不同时期的数据Schema,并且可以通过SQL统一访问。SequoiaDB作为存储层很容易做到这点。

• 要求保留单位到天的时点快照原始数据,也需要统计汇总数据,这个转换过程和血缘关系也需要保存,SequoiaDB通过数据分区可以把在降低范式不同阶段的数据都保留下来。

• SequoiaDB独有的LOB大对象存储机制,能很好的同时处理海量的结构化和非结构化数据,尤其是大量的小文件处理能力。

• 提供方便的数据导入和同步工具,包括高速全量和增量导入工具,以及支持目前常见的数据同步工具,比如CDCGoldengate等。

• 支持完整SQL功能集,特别是提供高并发、低延时的SQL查询能力,以及支持高效多表关联的查询处理。

• 解决海量结构化数据的分布式存储问题,能做到数百节点的水平扩展、动态扩容。

企业级数据管理能力,架构和开发简单、运行稳定可靠、维护工作量小。



联系商务和技术支持产品下载
请先登录后再发表评论
最新评论
公司简介
广州巨杉软件专注新一代大数据技术研发,是国内新一代原厂金融级分布式数据库公司。
2017年巨杉数据库成为首批入选Gartner年度数据库报告的中国数据库产品。
巨杉坚持产品从零开始自主研发,为用户提供安全可靠、性能卓越的海量数据存储管理、高并发实时处理、分布式计算以及实时流处理等企业级数据处理解决方案。
目前在金融、政府、电信多个行业得到了广泛应用,并在超过30家大中型银行的核心生产系统应用。
粤ICP备16118040号     广州巨杉软件开发有限公司 版权所有