什么是数据湖?可以应用在哪些方面
数据湖就是一个多样化的数据存储解决方案,可以帮助企业更好地管理和利用各种类型的数据。
从字面上理解,数据湖就像一个水库。水库里存的是水资源,而数据湖里存的是各种类型、各种格式的数据资源,包括了结构化数据(例如表单)、半结构化数据(例如日志)以及非结构化数据(例如图片和文档)。
水库里的水来自于降雨、河流和小溪,而数据湖里的数据也来自不同的源头,例如业务系统的数据库、机器设备的传感器。数据湖将不同源头、不同类型的数据整合到一起,统一存储,以便用户进行数据查询、数据分析以及数据应用。
所以数据湖就是大型的数据存储单元,不做处理直接存储。
数据湖是类似以前数据仓库的一个新概念 他是把数据聚集在一起 像一个超级大的湖泊一样
以往的数据仓库会还是使用关系型数据库的思路 像目前用的多的是redshift 就基本和Postgres数据库类似 当然功能更强大
数据湖是非结构化的分布式存储 比如presto 就是你可以把数据按照文件形式存储在文件系统上 然后使用Hadoop的生态结构就可以做查询 相比数据仓库的做法 这种非结构化的存储比较自由 给业务的数据分析提供了一些技术上的便利性
在应用方面 数据湖的角色和数据仓库一样是拉平业务数据库的数据 支持后续的数据建模的
数据湖、数据仓库、数据中台,有什么区别
数据湖、数据仓库、数据中台,有什么区别?元年科技认为数据湖、数据仓库和数据中台,他们并没有直接的关系,只是他们为业务产生价值的形式有不同的侧重。数据仓库算产品,数据中台的精髓在于其机制,数据中台不是一个产品,而是一套体系,是一种组织架构,数据中台的开发和建设既可以建立企业数据仓库基础上,也可以建立在企业大数据平台基础上,区别就在于企业的数据应用场景是否多元化。
数据湖:
作为一个集中的存储库,可以在其中存储任意规模的所有结构化和非结构化数据。在数据湖中,可以村村数据不需要对其进行结构化,就可以运行不同类型的分析。
数据仓库:
1.一个相对具体的功能概念,是存储和管理一个或多个主题数据的集合。数据仓库,也称为企业数据仓库,是一种数据存储系统,它将来自不同来源的架构或数据聚合起来,用于业务职能领域的比较和分析,数据仓库是包含多种数据的存储库,并且是高度建模的。
2.支持管理决策分析,主要应用于BI;
3.存储的数据大多是根据需求有针对性抽取的结构化历史数据,能够生成各类报表,但这些报表都无法实时产生,因此,尽管能提供部分业务价值,但不能直接影响业务。
数据中台:
元年科技认为:数据中台解决的是企业数据的“存”、“通”、“用”的难题,帮助企业实现连接数据孤岛,让一切业务数据化。数据中台是一个承接技术,引领业务,构建规范定义的,全域可连接萃取的、智慧的数据处理平台,建设目标是为了高效满足前台数据分析和应用的需求。
数据中台发展经历了四个阶段,分别是:数据库阶段、数据仓库阶段、数据平台阶段、数据中台阶段,从数据的角度来梳理这个过程分别是:
1、数据库阶段,主要是OLTP(联机事务处理)的需求;
2、数据仓库阶段,OLAP(联机分析处理)成为主要需求,主要解决BI和报表需求的技术问题
3、大数据平台阶段,大数据平台阶段,主要解决海量数据性能和多数据源,多异构数据的整合加工问题
4、数据中台阶段,数据中台阶段更强调数据复用和共享,多业务场景服务,同时强调企业组织管理架构的提升。
更多数据中台干货知识,请关注元年科技头条号