最后更新:2020-04-03 11:39:29 手机定位技术交流文章
全文由2121个单词组成,预计持续8分钟。

来源:linkedin
什么是数据工程师?
过去,数据工程师只需要知道基本的数据仓库、数据提取、转换和加载(ETL)以及数据可视化。近年来,数据工程师的职能范围发生了很大变化,不再局限于数据库管理和商业智能。
数据工程师需要掌握分布式计算、DevOps、数据操作和实现机器学习模型。事实上,许多高级数据工程师主要在软件或数据科学领域工作,需要从头开始创建与应用程序接口、流数据服务等交互的系统和框架。
仅仅拼凑数据管道已经不能满足市场需求。
然而,与软件工程不同的是,大学里与数据工程相关的课程并不多,专业训练营也更少。通常只有在工作中,通过大量的技术实践才能学会掌握。

资料来源:unsplash
然而,数据工程师有更高的技术要求,这对刚毕业的学生或传统的数据工程师来说是一个很大的挑战。
如果你想学习数据工程,但不能开始,你可以阅读更多的文章和观看一系列视频开始。好,让我们从相关术语开始,它与数据仓库和数据管道的发展密切相关。
这里有一些数据工程师需要掌握的重要词汇。如果你刚到学校,你可能经常听到这些单词,但你不一定知道它们的意思。

数据仓库

资料来源:www.wisdomjobs.com
数据仓库是数据分析师和商业智能专家访问数据的中心位置。关于数据仓库、数据集市、Kimball和Inmon(两种数据仓库模式)及其各自的含义仍有争议。
归根结底,数据仓库通常是一组非标准化的数据,通常是从单个或多个应用程序数据库中提取的,可以在内部解决业务问题。
与应用程序数据库不同,数据仓库设计用于处理分析查询,而不是事务查询。
此外,数据仓库通常可以容纳多个应用程序数据库并集中多个系统的数据,这也是数据仓库的一个主要优势。数据仓库也很容易理解。一个好的数据仓库应该简单明了,这样分析师就可以把数据可视化工具连接到它上面。
此外,许多现代数据系统(如大查询、红移和雪花)专门用于管理数据仓库查询,即通过大量的分析、求和和聚合来进行分析查询而不是事务查询。
一般来说,数据仓库的最终目标是创建某种自助分析系统。这意味着数据模型不应该太复杂,应该有一套由工程师和业务团队支持的完美的业务逻辑。

数据管道和ETLs
您可能经常会听到数据工程师提到术语“数据管道”或ETL。两者略有不同,但大体相似。

资料来源:unsplash
ETL指的是提取、转换和加载(有时是ELT)。
ETL和数据管道都是自动化的工作流。它们将数据从A点传输到B点,并在此过程中转换数据,以提高数据分析的效率。
当从应用数据库中提取数据时,数据通常被转换成CSV或JSON格式,并且数据可以从应用数据库表、应用编程接口、日志和其他通道中提取。
提取时,数据通常限于当时数据库的快照或所有历史数据。由于许多细微的差异,比如是否允许修改、删除或复制数据,ETL的设计也会发生变化。以这种方式建立应用程序数据库可以保持站点的响应性,但也限制了分析师对数据的洞察。
当用户更新配置文件或编辑各种信息时,数据状态可能会慢慢改变。因此,ETL还可以跟踪数据随时间的变化。这种跟踪数据的变更管理形式被称为缓慢变更维度。
数据转换后,可以加载到数据仓库中。

熟练的技艺
DAG指的是非常复杂的有向无环图,ETL只是其中之一。转换数据时,需要按特定顺序执行步骤。但是如何通知系统呢?ETL如何知道运行哪个部分以及何时运行?
这是使用DAG的地方。
DAG在数据工程领域已经存在了很长时间,但是很长时间以来,它一直是通过CRON、一些定制的元数据库和Bash、Python和PowerShell脚本来管理的。这不仅混乱,而且费时费力。
今天,有许多现代工具和库来帮助管理ETL管道,例如气流、petl、Luigi和Dagster(针对初学者)。还有更多这样的工具。
我通常使用有大量用户的气流。然而,有许多库可以使用,并且在熟悉数据字段之后可以使用其他库。

资料来源:unsplash

情况说明书
ETL将数据加载到哪个表中?为什么这些表的前缀如此奇怪?
当进入数据仓库工作时,您将看到一个前缀为“fact_”或“f_”的表。该前缀指的是在该表中找到的数据类型。
事实数据通常指实际交易的数据,如电子商务网站上的订单、健康保险索赔总额等。事实表通常包含某种总价值,如购买的商品总数或总销售额,以及dim _ indexes,如store_id和product_type_id等。
事实表可以被视为中心表。
例如,在下图中,您可以看到事实表位于所有表的中心。因为概况介绍显示了正在分析和报告的核心内容,如交易、用户、打开电子邮件等。

资料来源:www.sqlshack.com

维度表
数据仓库中的表有很多种,但事实表和维度表是最常见的。
维度表中的数据更具描述性,可以进行描述和分组。当分析数据时,我们通常希望按标签分组,如商店、地区、网站、办公室经理等。因此,如果要计算公司每栋大楼的员工人数,大楼的描述信息在维度表中,而每栋大楼的员工数据在事实表中。
再看看上面的图片。事实表被维度表包围。

资料来源:unsplash
好吧,恭喜你已经学习了数据工程的基本知识,并坚持继续探索它~

评论、表扬和关注
让我们分享人工智能学习和发展的干货。
如果重印,请在后台留言并遵守重印规则。
本文由 在线网速测试 整理编辑,转载请注明出处。