SequoiaDB巨杉数据库_SequoiaDB
SequoiaDB巨杉数据库_下载

大数据湖,挖掘企业全量数据价值

收藏(0)关注(0)

数据湖.jpg

数据湖背景

“数据湖”概念是2010年首次提出,他将数据湖比喻成未经处理和包装的原生状态水库,当不同源头的水体源源不断流入数据湖,并为企业带来各种分析、探索的可能性。数据湖的概念指出,数据无需加工整合,可直接堆积在大数据平台上,由最终使用者按照自己的需要进行数据处理。而传统的企业数据仓库则强调的是整合、面向主题、分层次等思路。可以说,数据湖建设思路从本质上颠覆了数据仓库建设方法论。

 

大数据湖的业务价值

众所周知,基于层次化数据架构设计的数据仓库可能产生诸多问题,如数据使用的复杂性、数据信息的可能丢失、数据架构难以快速调整等,而数据湖的思路,正是把上述问题留给了最终用户,由最终用户按照自己的要求自行解决。某种程度上,数据湖并不是一个技术概念,而是数据管理的另一种思路,对于IT技能较强、数据使用需求灵活、习惯于不走寻常路自行钻研业务问题的用户来讲,不失为一种可借鉴的方法。大数据湖实际是一种利用低成本技术来捕捉,提炼,储存和探索大规模的长期的原始数据的方法与技术实现。

 

大数据湖的几大特点主要有:

1) 不同的数据种类是构建大数据湖的主要驱动因素

企业大数据湖存储各种结构业务数据

· 海量的结构化数据

· 半结构化数据(日志、XML文件等)

· 非结构化数据(文件、图片、音频、视频等)

 

2) 存储全量历史数据及其所有属性

企业大数据湖需要存储业务数据

· 实时业务数据持久化

· 将在线业务系统数据线化存储

· 企业数据仓库、数据集市的历史数据卸载存储

· 将企业中离线存放在磁带库、光盘库的历史数据在线化

 

3) 数据设计模式的灵活性:

传统的企业数据仓库通常采用Schema On Write方式,即将数据写入预先定义好的E-R数据表结构中而大数据湖还会采用Schema On Read方式,即在数据访问时,由数据访问者来解析和确定数据的格式,写入者并不关心其是否有一致、统一的数据格式。这种方式具有以下优点:

· 降低数据保存的成本,无需开发即可保存。

· 降低数据产生和使用之间的延迟。

· 给予最终用户最大的灵活度来处理数据。

· 允许用户保存非结构化、半结构化的数据。

· 对于现在不需要处理或者无法处理的数据,保留原始数据供未来使用。

· 同一份原始数据上,不同的用户可能有不同的理解。

 

Schema On ReadSchema On Write两种方式有其不同的优缺点。在两种不同的数据架构设计策略下,在什么样的场景下使用哪种数据管理模式需要依据使用要求决定。整体来讲,针对原始数据,采用Schema On Read管理模式进行数据保存,针对稳定性较高,相对固定的应用,采用Schema On Write的方式将解析后的数据进行保存,两者方式相结合是比较可行的方式。

 

 

4) 提高数据的使用和共享:

提高数据的使用和共享,为多个下游系统提供数据源: 企业大数据湖会为企业数据仓库、数据集市、线联机查询、移动App应用等下系统提供丰富完整的全量业务数据

 

 

SequoiaDB 大数据湖解决方案(Data Lake

基于SequoiaDB分布式数据库,可以为企业提供一个分布式、支持批处理分析以及在线查询以及交易类的数据湖,满足企业对大数据平台日渐增长的期望与需求。如上图所示,数据湖从功能区上被分为线区与分析区,分别对应着OLTP等高并发、实时性要求高的操作类业务以及传统数仓类批处理业务。


1111.png 

大数据湖分析域与操作域


SequoiaDB分布式数据库Share-Nothing分布式MPP架构,灵活的数据类型定义,JSON存储及块存储的双引擎机制好地满足了企业构建数据湖的技术需求。


2222.png 

SequoiaDB大数据湖架构图

  

基于SequoiaDB分布式数据库企业大数据湖在灵活性、独立性、敏捷性、时效性方面,更加能够适应于企业的敏捷开发,数据分析应用的快速迭代。因此,当企业用户需要进行灵活、独立的数据使用要求时,则需要通过扁平化的、贴源的数据架构,以大数据湖的模式来建设企业级大数据湖。

构建基于巨杉数据库的企业大数据湖,采用层次化与扁平化数据架构相结合的设计模式,将使企业在大数据时代,让业务人员可以更加快速和灵便的使用数据,解决企业不同分析需求带来高的业务价值,实现投入/产出的最佳平衡。


 



联系商务和技术支持产品下载
请先登录后再发表评论
最新评论
公司简介
广州巨杉软件开发有限公司,专注新一代大数据基础架构研发,是国内领先的新一代分布式数据库厂商。公司获评硅谷最具影响力创新商业媒体《红鲱鱼》评选的“全球创新企业100强”,并连续两年入选美国知名科技媒体《快公司》评选的“中国50大创新公司”榜单。目前已拥有客户包括多家世界500强企业以及著名IT互联网公司。
粤ICP备13048785号     广州巨杉软件开发有限公司 版权所有