如今,越来越多的企业将非结构化数据治理纳入下一步IT规划体系。从传统的非结构化数据管理角度看,大部分数据按照对象的方式来存储;而对于报文类型数据大部分情况也很难做到在线检索和统计分析。因此,如何使用统一的平台来存储、查询、统计分析、甚至在非结构化数据中进行图片语音识别、打标签、自动分类,这些都是针对非结构化数据治理所提出的目标。
在传统IT架构中,大部分非结构化数据无法做到自动识别,而需要在数据录入的过程中通过元数据标记进行分类。而由于这些元数据基本都与业务系统紧密耦合,因此传统的非结构化数据管理系统几乎无法在业务部门之间进行数据共享。
基于SequoiaCM的非结构化数据管理平台一方面能够利用容器化与分布式技术,将企业中全量非结构化数据进行统一存储和管理,更能够通过AI、OCR、各种语音文字识别技术对数据进行智能识别与分类,还能够根据用户配置策略对非结构化数据进行生命周期管理,从而达到对企业非结构化数据进行统一一体化管理、存储、识别、分类、统计分析等目标。
非结构化数据管理平台及应用简单架构
金融行业在业务运营中会产生大量纸质凭证,在信息化处理和监管要求下,这些纸质的凭证都需要扫描成影像文件并长期保存。随着互联网金融、流程银行、直销银行、移动作业以及集中作业中心等理念的深入推广,银行、保险等金融机构普遍需要建设统一的影像管理平台。
影像系统主要有以下的特点:
总体数量大:不同银行的规模,业务种类和上线的时间不同,业务系统中存放的文件数量往往达到千万级甚至数亿级。
存储成本高:影像系统占用的存储空间以TB为计,最高甚至达到PB级别,要同时为支持影像文件大量存取,以及要支持多业务系统,因此系统对于存储设备的I/O要求较高,造成影像平台系统存储成本居高不下,逐年递增。
生命周期管理不易:影像文件的存取通常发生在3个月内,一年后的查询调阅机率低,通常要定期卸载历史数据,使用冷介质进行离线管理,但数据可用性没保障。
备份时间长:数据需要备份保护,但海量小文件的备份效率很低,耗时较长,全量备份往往会超过备份窗口所能提供的时间。
历史影像文件查询难:因存储成本较高,对历史影像会进行离线归档,使得历史影像文件的查询调阅需要耗费大量的人力成本来完成,无法保证“快速响应”。
数据量逐年增加:随着业务品种的拓展、网点数目的增加、移动作业的新需求等,数据量随时间呈显著上升的趋势。这导致生产系统容量需求不断增加,需要不断扩容。
基于SequoiaCM搭建的影像平台简要架构
针对这些挑战,基于SequoiaCM构建的金融行业新一代影像系统,全面解决了这些问题。包括柜面无纸化系统、会计影像系统等等。SequoiaCM搭建的影像平台能够提供给客户的价值包括:
影像数据弹性扩展:影像数据的存储和计算资源随业务需求动态调整,实现PB级别以上的存储,影像数据持续在线;
内容管理:丰富的内容管理功能,包括生命周期管理,内容数据存取,批次服务,版本控制以及检入检出服务等功能。
统一管理:影像文件数据和元数据统一存储,提升应用性能且简化运维;
自由检索:对于海量影像数据,做到多维度自由检索与实时查询,毫秒级别的查询效率;
数据安全:实现同城“双活”以及“异地容灾”需求,内容数据保证长效、安全、可用,数据安全保障大大增加,同时满足“两地三中心”等行业监管要求。
降低成本:采用低成本的通用硬件设备以及分布式架构,大幅度降低整体拥有成本(TCO)至原有ECM方案的1/3;