十年之后,再看数据湖

      最后更新:2020-05-13 11:09:29 手机定位技术交流文章

      如果有这样的解决方案,可以帮助企业实现从采集、存储、处理到分析的不同数据的全生命周期管理,同时支持批量历史数据和实时流数据的处理。

      据推测,这无疑是对渴望向数字化甚至智能化过渡并渴望从数据中提取价值的企业最具吸引力的“魔法”。

      今天,由于数据湖的出现,这种解决方案不再是如果,这种“魔法”真的可以被企业使用。

      新鲜和不新鲜的数据湖

      从1956年夏天,以迈克菲、明斯基、罗切斯特和神农为首的一批年轻科学家首次提出“人工智能”一词,到近两年来以人工智能为主导的第四次工业革命的来临,人工智能经历了几起几落,并在50多年里重新浮出水面。

      同样,数据湖也是如此。尽管“数据湖”的解决方案在过去的两年里一直非常热门,但这一说法并不是最近才提出的。

      早在10年前的2010年,宾得豪的创始人兼首席技术官詹姆斯·迪克森就在纽约的Hadoop世界大会上提出了这一概念。然而,在那个时候,Pentaho刚刚发布了Hadoop的第一个版本,这是一个开源框架,现在在大数据世界中被广泛使用。

      在接下来的几年里,数据湖一直处于不冷不热的状态,并被更多地应用于一些开源项目。直到2016年前后,数据湖才从最初的概念发展到第二阶段。在过去的两年里,随着大数据和云计算的成熟,以及物联网、异构计算等技术的兴起,数据湖已经真正从技术逐渐走向企业的实际应用。

      那么,什么是数据湖?一开始,詹姆斯·迪克森对数据湖的解释如下:把以前存储在磁带上的东西倒入数据湖,你就可以开始探索数据了。重要的是只将您需要的数据“注入”到Hadoop中。如果您想将数据湖中的信息与客户关系管理系统(CRM)中的信息结合起来,您可以在需要时将这两种数据结合起来。

      维基百科对数据湖的解释是,数据湖是一种在系统或存储库中以自然格式存储数据的方法,它可以以统一的方式存储企业中的所有数据,并将原始数据转换为转换后的数据,用于各种任务,如报告、可视化、分析和机器学习。

      其中,数据湖可以支持来自关系数据库的结构化数据、由CSV、XML和JSON日志表示的半结构化数据、电子邮件、文档和PDF等非结构化数据以及由图像、音频和视频表示的二进制数据。

      到目前为止,广泛接受的数据湖的概念是,数据湖是一个能够以集中的方式存储、处理和分析多种来源和类型的数据的平台,本质上是一个高级的企业数据架构。

      就体系结构而言,数据湖可分为四层:数据访问层、数据存储层、数据处理和计算层以及数据应用层。

      数据访问层提供对各种类型元数据的访问。数据存储层提供各种接口,支持各种类型数据的异构存储。数据处理和计算层提供数据清理、管理、权限管理和安全性等功能。数据应用层可用于商业智能报告、机器学习、交互式大数据SQL分析等。

      数据湖的重力是多少

      事实上,不难看出数据湖“天生”有吸引力。由于数据湖具有这些特征,这正是当前企业需要的,具体来说:

      收集数据很方便。由于数据湖支持各种类型的数据,如结构化、半结构化和非结构化数据,企业在通过数据湖收集数据时无需担心数据写入限制。特别是在未来几年,5G和物联网的发展将产生更多需要实时处理的流数据。

      打破数据孤岛。早期,企业内部的信息技术系统逐渐完善,使得每个应用程序都产生和存储了大量的数据,应用程序之间的数据互不相通。这是企业常用的烟囱式信息技术架构,这种构建模式也使企业产生了数据孤岛的问题。然而,由于数据湖可以在不同的应用程序之间收集数据,因此不需要担心孤立数据岛的问题是很自然的。

      实现数据挖掘和分析。如今,人工智能很流行,但是阻碍人工智能登陆的一个因素是数据的数量和质量。如果企业内不同系统之间的数据不能重用,培训难度自然会增加。

      因为数据湖存储各种类型的最原始数据,并且可以在不同部门和不同应用程序之间共享数据,所以企业可以在不增加太多难度的情况下训练这些数据,或者使用商业智能工具来分析数据和挖掘数据价值。

      灵活性和敏捷性。由于分布式架构的部署,这使得数据湖非常便于扩展,不同于传统的集中式存储类型,在扩展系统时,它“一根头发,移动整个身体”。同时,当添加新的单元或单个项目时,不需要对整个数据湖进行大规模的更改,这只能在几天或几周内实现,这也符合当前敏捷开发的概念。

      长期以来,企业在数据管理和应用方面存在许多困难。托马斯·约翰和潘卡·米斯拉在他们的著作《企业数据湖》中描述了这一点:长期以来,企业一直试图找到一个统一的模型来代表企业中的所有实体,但这一任务极具挑战性。

      例如,一个实体在一个企业中可能有多个表示,因此可能没有一个完整的模型来统一表示实体。不同的企业应用程序可能基于特定的业务目标来处理实体,这使得在处理实体时使用或影响某些企业过程;不同的应用程序可能对每个实体具有不同的访问模式和存储结构。这些问题也阻碍了业务处理、服务定义和术语命名的标准化。

      然而,数据湖尽可能从系统中获取与实体所有者相关的全部数据来代表实体。这使得企业隐式地实现了一个更好的统一数据模型,同时这个模型不会对业务和流程产生任何实质性的影响。这使企业能够在数据处理、管理和洞察力方面获得巨大帮助。

      数据湖、数据仓库、Hadoop和数据中心

      正如数据库是为了方便数据的读取而发明的一样,企业提出了基于数据库的数据仓库解决方案,以便借助数据进一步分析报告和业务决策。数据仓库的解决方案在一定程度上帮助企业解决了许多困难。

      因此,在数据湖概念的开始,甚至在目前,有人认为数据湖是一个数据仓库,只是“新瓶装旧酒”。

      事实上,对数据湖和数据仓库的真正理解将会揭示两者是完全不同的东西。从数据访问来看。与支持各种数据访问的数据湖不同,数据仓库中的数据大多来自关系数据,如事务系统和操作数据库,它支持的数据只是结构化的关系数据。

      从数据存储来看。数据湖尽可能保持数据的原始状态,同时数据仓库中的数据被清理和处理,这是可靠的和结构良好的数据。

      从数据处理的角度来看。数据仓库中的数据已经被预先定义,即所谓的写时模式,即写时模式。但是,数据湖中的数据都是原始数据,并且在使用时定义,即模式读取、读取模式。只有在使用模型时,数据湖定义模型的灵活性还使企业能够将其用于各种应用分析。

      从使用物体的角度来看。数据仓库用于业务分析师和企业决策者,主要用于报表批量处理、商业智能等。在数据仓库的基础上,数据湖的用户也可以面向开发人员和科学家,使用场景从批处理和商业智能扩展到机器学习和数据分析。

      从建筑本身来看。自1990年首次提出以来,数据仓库技术已经使用了30年。尽管数据仓库已经相当成熟,但在体系结构扩展和安全性方面并没有优势。然而,最近“诞生”的数据湖的分布式架构天生易于扩展且更安全。此外,目前通用的大数据框架更加开源,这使得数据湖在建设成本上具有优势。

      除了与数据仓库相比较之外,数据湖经常与Hadoop一起出现,并被认为是Hadoop集群。

      事实上,Hadoop长期以来一直是企业部署数据湖的理想选择,因为它具有开源、低价、支持各种类型的海量数据和快速传输的优势。但是单靠Hadoop并不能建立一个数据湖。

      最大的问题之一是,尽管Hadoop已经实现了数据存储和分布式计算,但它还没有实现海量数据的管理和分发,数据管理在数据湖中起着极其重要的作用。

      因此,Hadoop只是一种实现数据湖解决方案的技术。企业不一定需要Hadoop来部署数据湖。如果出现更好的技术,Hadoop在数据湖中的角色也将被取代。

      当然,还有一个数据中心。然而,台湾的数据离数据湖更远。首先,我们可以简单地理解中心站的概念,它是相对于数据前景和数据背景的概念。数据前台代表数据的应用,通常与用户交互,如应用、网站等。数据后台负责数据开发和支持。

      因此,数据媒体站的出现是为了解决数据后台开发跟不上前台业务需求变化、业务系统数据孤岛、数据复杂性、数据隔离等一系列问题,并在前台和后台之间搭建桥梁,实现前台效率的提高和后台灵活性的增加。

      本质上,数据中心不是像数据仓库或数据湖那样的特定软件产品或解决方案,而是企业级逻辑概念,一系列数据组件的集合。它通过聚合和管理跨域数据将数据抽象和封装到服务中,因此为服务提供服务的主要方式是数据API。

      云服务提供商主导的数据湖市场

      正是这些特点和优势使制造商坚信数据湖将是企业数据存储、处理和分析的未来。同时,不难看出,数据湖的部署需要高性能、可扩展性、稳定性、经济性等方面,这些正是云服务的优势。

      因此,目前数据湖的参与者主要集中在云服务提供商。包括AWS、Azure、阿里云和华为云都提供这项服务。具体来说,AWS充满了服务和最广为人知的。早在2018年的RE: INVENT会议上,AWS就宣布引入数据湖管理工具——AWS湖格式,并声称通过这种自动化方案,只需几天时间就能帮助企业构建一个安全的数据湖。

      今天的自动气象站数据湖服务除了自动气象站湖形成之外还有两个要素,一个是亚马逊S3/冰川,另一个是自动气象站胶水。亚马逊S3是AWS最早的存储服务,主要用于整个数据湖服务中的数据存储。AWS冰川主要用于存储数据湖中的冷数据,以降低企业的存储成本。

      AWS Glue是一个完全托管的数据提取、转换和加载(ETL)服务和元数据目录。借助AWS Glue,企业可以轻松地准备数据并将数据加载到数据库、数据仓库和数据湖中。同时,AWS Glue消除了ETL操作基础设施中的重复工作,从而可以找到数据湖中的数据集,用于查询和分析,最终缩短了分析项目中ETL和数据编目阶段的时间。

      再看看天蓝色,布局比较早,但是中国的音量比较小。Azure在2015年推出了Azure数据湖服务。现在最新的数据湖服务是2019年初发布的Azure数据湖存储第2代。

      Azure表示,数据湖存储第2代主要适用于大规模数据分析。它结合了Azure非结构化存储服务Blob Storage的可扩展性、安全模型和丰富功能,以及为分析而设计的高性能文件系统,与Hadoop分布式文件系统兼容。这使用户能够选择Azure云数据湖服务,而不必在成本和性能之间进行选择。

      阿里云的数据湖服务是一个数据分析引擎,于2018年年中推出,并于2019年初正式商业化。本质上,数据湖分析是一个基于无服务器云的交互式查询分析服务。

      这意味着企业可以直接查询和分析存储在不同数据源中的数据,如Ariyun OSS、TableStore、RDS、MongoDB等。通过数据湖分析在云上运行,采用标准的JDBC技术,无需ETL。阿里说,数据湖分析可以无缝集成各种业务分析工具,并提供方便的数据可视化。数据湖分析有三个主要亮点:

      首先,分析多源数据很容易:操作系统、表存储、关系数据库等。,以便可以分析来自不同存储源的数据。其次,可以对异构数据源进行关联分析。三是全无服务器结构,不需要长期持有成本,可以按需使用,更加灵活,资源扩展和收缩方便,没有升级的感觉。

      华为的数据湖服务分为两类。一个是华为云提供的数据湖洞察(DLI)服务。DLI与Apache Spark和Apache Flink生态兼容,可实现批量流集成无服务器大数据计算和分析服务,并支持多模式引擎。有了DLI,企业可以轻松完成批处理、流处理、内存计算、机器学习等。通过使用SQL或程序来挖掘和探索数据的价值。

      第二个是融合数据,这是华为智能数据和存储产品线的智能数据解决方案。FusionData从多样化的数据连接、智能数据处理和智能数据使能三个方面重新定义,旨在通过提供“挖掘-存储-计算-管理-使用”的全生命周期管理能力,使数据能够快速存储、流动、计算和使用。

      除了云服务提供商,在中国还可以看到两家存储供应商,即易和戴尔,提供数据湖解决方案。

      数据湖不是灵丹妙药。

      尽管数据湖有许多优点,但这并不意味着数据湖是解决企业数据问题的万能药,而且它本身并不短缺。

      例如,数据湖面临的一大挑战是数据沼泽。正如上面提到的Hadoop不具备数据治理能力,当越来越多的数据存储在Hadoop中时,如果数据湖没有得到有效的“分流”和管理,整个数据湖中的数据将很难应用,并最终成为数据沼泽。

      同时,数据湖和数据仓库也不是。就像两者的应用场景一样,数据仓库仍然是商业智能查询、报告分析等的更好选择。因此,数据湖和数据仓库都可以在企业内部协作应用。例如,企业可以将数据湖接收的结构化数据移动到数据仓库。

      本文由 在线网速测试 整理编辑,转载请注明出处,原文链接:https://www.wangsu123.cn/news/6497.html

          热门文章

          文章分类