攀登数据科学家和数据工程师之间的隔墙

      最后更新:2020-04-03 12:27:32 手机定位技术交流文章

      拜伦·艾伦

      翻译:陈丹

      校对:吴振东

      这篇文章大约有2400字,建议阅读10分钟。

      本文介绍了数据科学家和数据工程师之间的差距,并提供了一个解决方案——生产ML。

      标签:机器学习

      机器学习的教育和研究通常集中于数据科学过程的建模、训练、测试和优化。为了将这些模型投入使用,需要一套工程专业知识和组织结构,而它们的标准还不存在。有一种体系结构可以指导数据科学和工程团队之间的协作,以向最终用户部署机器学习模型。这篇文章可以让你对这方面有更多的了解。

      资料来源:克里斯·康萨斯。

      当今机器学习中最令人兴奋的事情之一不是深入学习或强化学习的前沿,至少我是这样认为的。相反,更有趣的事情是如何管理模型,以及数据科学家和数据工程师如何作为一个团队一起工作。朝着这些方向前进可以引导组织更有效和可持续地应用机器学习。

      可悲的是,“科学家”和“工程师”之间存在差距,可以说是一道墙。Databricks的联合创始人兼产品副总裁安迪·康温斯基(Andy Konwinski)和其他人在最近一篇关于MLFlow的博客文章中指出了一些关键障碍。“构建高效的机器学习应用程序具有挑战性,因为没有记录实验、确保可重复操作以及管理和部署模型的标准方法,”Databricks说。。

      当今机器学习应用中的许多主要挑战(无论是技术、商业还是社会)的原因是数据和机器学习组件的管理和利用之间的不平衡。一个模型可以表现得非常好,但是如果底层的数据漂移和组件没有被用来评估性能,你的模型将不能很好地总结或者正确地更新。这个问题属于与数据科学家和工程师都相关的灰色区域。

      资料来源:burak kostak

      换句话说,问题的关键在于机器学习中缺乏概念整合/光盘这一主题。如果您的环境发生了变化(例如输入数据),并且模型没有按照其构建目的进行定期评估,导致模型随着时间的推移失去相关性和价值,那么您是否能够创建一个真正好的“黑盒”模型并不重要。这是一个很难解决的问题,因为数据提供者-工程师和模型设计者-科学家还没有形成最令人愉快的组合。

      这一挑战有一些具体的例子。想想有多少机器学习白痴预测希拉里·克林顿会赢得选举。从无人驾驶汽车杀害无辜的行人到有偏见的人工智能系统,都有一些重大错误,我认为这些错误通常是由数据科学和工程之间的灰色地带造成的。

      资料来源:Kayla Velasquez

      也就是说,无论是消极的还是积极的,机器学习都会影响我们的社会。以一个更活跃、商业化程度更低的例子为例,电力地图使用机器学习来绘制电力对全球环境的影响。机器学习目前正在帮助我们在癌症研究中更早更准确地发现几种癌症类型。人工智能驱动的传感器为农业注入了活力,以满足不断飙升的全球粮食需求。

      两者之间的分隔

      考虑到这一点,为了获得机器学习的结果,更具体地说,模型管理至关重要。然而,为了回到业务,数据科学家和数据工程师并不总是相互理解。

      对于数据科学家来说,不理解他们的模型应该如何存在于一个不断吸收新数据、集成新代码、被最终用户调用、并且可能不时以各种方式(即在生产环境中)失败的系统中是很常见的。另一方面,许多数据工程师对机器学习的理解不足以让他们理解投入生产的内容以及对组织的影响。。

      尽管这两个角色占据相同的空,但它们在操作中往往没有充分考虑对方。“那不是我的工作”不是正确的方式。为了生产可靠、可持续和适应性强的产品,这两个角色必须更有效地合作。

      爬墙

      相互理解的第一步是建立一个共同的词汇——在某种程度上标准化语义,从而讨论什么是挑战或者相应的挑战是什么。当然,它充满了挑战——只要问几个不同的人什么是数据湖,如果你没有得到一个以上的答案,你将得到至少两个不同的答案。

      我已经开发了一个通用的参考点,叫做生产模型价值链和生产模型框架。

      我们将生产机器学习的过程分解成五个重叠的概念,这些概念通常被单独考虑。尽管引入这样一个整体框架似乎增加了复杂性和相互依赖性——事实上,这些已经存在——忽视它们只会把问题推向尽头。

      通过在生产机器学习管道的设计中考虑邻近的概念,你将开始引入难以捉摸的可靠性、可持续性和适应性。

      ProductionML框架

      ProductionML价值链是对运营数据科学和工程团队将模型部署到最终用户所需内容的高级描述。自然,将会有一个更技术性和更详细的理解——我称之为生产模型框架(有些人可能称之为连续智能)。

      ProductionML框架

      这个框架是经过几轮商业多级操作工具、开源选项和内部概念验证开发的实验后开发的。它旨在指导生产最大似然项目的未来发展,尤其是在需要数据科学家和工程师输入的领域。

      数据科学是橙色的,数据工程/DevOps是蓝色的。

      如果您不熟悉这些方面,请参考橙色标记的数据科学和蓝色标记的数据工程/开发。

      如您所见,“培训绩效跟踪”机制(例如,MLFlow)和管理机制位于体系结构的中心。这是因为每个组件,包括度量、参数和图形,都必须在培训和测试阶段存档。此外,所谓的模型管理基本上与使用这些组件的模型管理方法相关。

      管理机制将组件与业务规则相结合,提升和优化适当的模型(或者更准确地说,评估者)以适应生产,同时根据用例特定的规则标记其他模型。这也被称为模型版本控制,但是术语“管理”被用来避免与版本控制混淆,并且强调这个机制在监督模型管理中的中心作用。

      金枪?

      我们一起前进。我们都想爬上墙。有许多伟大的工具进入市场,但迄今为止,没有人有金枪。

      资料来源:Mr Gareth-golden gun-国际间谍博物馆。

      在我看来,MLFlow已经迈出了一大步,回答了一些关于模型管理和工件归档的问题。其他产品也能解决相对具体的问题——尽管它们的优势可能存在于产品价值链的其他地方。这些都可以在谷歌云毫升引擎和谷歌广告中看到。最近,GCP提供了一个测试版的AutoML Tables测试版,但是即使如此,尽管它确实更接近,它不能提供所有需要的现成的东西。

      考虑到这种持续的差异,在科学家和工程师之间建立一个共同的词汇和框架是至关重要的。

      这面墙太高了吗?根据我的经验,答案是否定的,但这并不意味着ProductionML不复杂。

      詹姆斯·邦德:

      如果我没听错的话,斯卡拉曼加逃走了——坐在一辆有翼的汽车里!

      问:哦,这完全有可能,先生。事实上,我们现在正在制作一个。

      也许你应该像这样爬过那堵墙...

      原始标题:

      攀登数据科学家和数据工程师之间的墙

      原始链接:

      http://www .kd掘金. com/2020/02/scaling-wall-scientist-engineer . html

      编者:于腾凯

      校对:洪

      译者简介

      复旦大学大三学生陈丹主修预防医学,辅修数据科学。我对数据分析非常感兴趣,但是当我第一次进入这个领域时,仍然有许多空的房间需要改进。我希望在未来,翻译团队能够扩大文学阅读量,学习更多前沿知识,在相关工作过程中认识更多有共同兴趣的小伙伴。

      -完毕-

      关注官方微信公众平台“艾数据派”和清华-青岛数据科学研究院姐妹号“数据派THU”,获取更多讲座收益和优质内容。

      本文由 在线网速测试 整理编辑,转载请注明出处,原文链接:https://www.wangsu123.cn/news/3575.html

          热门文章

          文章分类