加入收藏 | 设为首页 | 会员中心 | 我要投稿 黔东南站长网 (https://www.0855zz.com.cn/)- 混合云存储、建站、网络、云计算、应用安全!
当前位置: 首页 > 大数据 > 正文

为什么云原生数据湖值得重视?

发布时间:2022-08-25 13:01:19 所属栏目:大数据 来源:互联网
导读:最近几年,数据湖正在被越来越多人提起,尽管各方对数据湖的定义并不统一,但这不妨碍企业纷纷下水实践,比如亚马逊、阿里、腾讯、华为等,都在探索建设数据湖。为何众多企业在数据湖是什么上还没有达成共识的情况下,就开始着手进军数据湖领域呢?一个可能
  最近几年,"数据湖"正在被越来越多人提起,尽管各方对数据湖的定义并不统一,但这不妨碍企业纷纷下水实践,比如亚马逊、阿里、腾讯、华为等,都在探索建设数据湖。为何众多企业在"数据湖是什么"上还没有达成共识的情况下,就开始着手进军数据湖领域呢?一个可能的原因是,数据湖将代表大数据和AI时代融合存储和计算的全新体系,特别是数据湖和云原生结合以后,这一趋势更加明显。要想理解这一点,还要从数据湖的发展说起。
 
  数据湖的崛起​
  2010年Pentaho公司的创始人兼首席技术官詹姆斯·狄克逊(James Dixon)首次提出数据湖的概念。詹姆斯·狄克逊把数据湖中的数据比作原生态的水——它是未经处理的,保留原始结构的。
 
  数据湖中的水从源头流入湖中,各种用户都可以来湖里获取、蒸馏提纯这些水(数据)。于是,早期业界和用户多把数据湖定义为一个集中式的储存原始格式数据的系统,可存储任意规模的结构化、半结构化、非结构化及二进制的数据。
 
  随着大数据技术的融合发展,数据湖的边界不断扩展,内涵不断变化,逐步演变成为集多源异构数据统一储存、多范式计算分析及统一管理调用的大数据综合解决方案。
 
  这就让数据湖与数据仓库有了很大的不同。
 
  数据仓库诞生于数据库时代,它的核心思路是把数据库众多数据进行一定格式转换后,定时地复制到另一个库里做列式存储,从而满足企业查询和数据分析的需求。
 
  在过去,很多企业的数据以ERP、CRM数据为主,数据规模往往是TB级,企业通常在本地采用数据仓库解决方案来存储和分析数据。但数据仓库这种方式模型范式固定,底层数据无法做到多样变化。
 
  随着互联网的发展,数据量暴增,非结构化数据越来越多,企业业务变化越来越快,数字化转型成为IT行业的热点,数据需要更深度的价值挖掘,因此需要确保数据中保留的原始信息不丢失,应对未来不断变化的需求。
 
  传统的数据仓库无法满足大数据时代企业对于实时、交互式分析等方面的需求,而数据湖择了"前松后紧"的设计思路,初始化阶段放弃严格的模式,后置schme,从而获得更强的灵活性,同时通过统一存储和计算优化来保证数据的一致性和性能,这就让数据湖开始在大数据领域逐渐受到关注。
 
  发展至今,数据湖已经不再局限于某个技术、某个软件产品,而是涵盖数据湖存储、数据湖计算、数据湖AI的多元化数据架构,满足企业级用户的生产管理需求。
 
  为何数据湖与云原生是最佳组合
  随着以Oracle为代表的数据库中间件越来越难以满足企业业务迅速变化带来的数据处理需求,IT业界不断地产生新的计算引擎,比如,企业开始纷纷自建开源Hadoop数据湖架构,原始数据统一存放在HDFS系统上,引擎以Hadoop和Spark开源生态为主,存储和计算一体。
 
  但这种架构的缺点是需要企业自己运维和管理整套集群,成本高且集群稳定性较差。在这种情况下,云上托管Hadoop数据湖架构(即EMR开源数据湖)应运而生。底层物理服务器和开源软件版本由云厂商提供和管理,数据仍统一存放在HDFS系统上,引擎以Hadoop和Spark开源生态为主。这个架构通过云上IaaS层提升了机器层面的弹性和稳定性,使企业的整体运维成本有所下降,但企业仍然需要对HDFS系统以及服务运行状态进行管理和治理,即应用层的运维工作。
 
  因为存储和计算耦合在一起,稳定性不是最优,两种资源无法独立扩展,使用成本也不是最优。同时,受到开源软件本身能力的限制,传统数据湖技术无法满足企业用户在数据规模、存储成本、查询性能以及弹性计算架构升级等方面的需求,也无法达到数据湖架构的理想目标。
 
  而云计算可以让数据湖发挥出最大的价值与作用。云计算拥有极为灵活、弹性和可扩展的计算存储资源,使得数据的存储、分析和应用变得无比容易;而数据湖最大的价值在于将企业内各种格式的数据统一汇聚,在一份数据之上进行多种分析,高性价比且高效地挖掘数据价值,特别是数据湖的设计思路与云计算天然契合,因此自2010年数据湖概念被提出以来,云服务商是数据湖概念走向落地的重要推手。
 
  随着云原生时代到来,当数据湖以云原生(当提到云原生时,很多人的第一反应是Serverless、容器化这些概念,其实近些年来,云原生的概念逐步泛化,涵盖了很多产品服务,从某种程度上讲,云原生是一种分布式系统的设计范式,这种范式具备弹性、安全、稳定等特征)的方式部署时,其强大的性能优势可以被最大化释放。
 
  一方面,数据湖上云后可以享受云本身带来的性能提升,如高可用(相较于自建IDC,云环境拥有更多的资源冗余,一节点发生故障可以无缝切换到其他节点,确保业务的连续性)、弹性(云计算具备动态扩充性与可负担性,可以解决海量业务带来的吞吐和IO性能瓶颈,满足大数据分析所需资源的庞大规模与突发性质的需求)、敏捷(云让企业从重复、复杂的底层IT工作中释放出来,同时其模块化、松耦合的敏捷架构有利于数据产品的快速迭代、部署、运维与创新)。
 
  另一方面,数据湖在云原生的环境中可以做更多性能优化的工作,如丰富的上下文带来的分析加速,流失处理和批式处理的融合带来的实时数据价值释放,一站式数据管理方案带来的安全和质量改善等。这就让企业得以有效利用公有云的基础设施,数据湖平台也有了更多的技术选择,比如云上纯托管的存储系统逐步取代HDFS,成为数据湖的存储基础设施,并且引擎丰富度也不断扩展。总之,云特有的"池化、弹性、敏捷"等特性,让数据层与应用层的很多设想得以实现,拥抱云原生成为数据湖乃至大数据的必然选择。

(编辑:黔东南站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读