数据科学家:21世纪最脏的工作

      最后更新:2020-03-24 13:25:38 手机定位技术交流文章

      的全文有2311个单词,预计需要7分钟才能学会

      来源:cfzyjsxy


      在大数据世界中,数据科学家受到人们的尊敬。他们使用人工智能或深入学习的方法提出有价值的商业见解,造福社会。


      《哈佛商业评论》曾将数据科学家描述为“从事21世纪最时尚工作的数据科学家”


      对我来说,虽然在过去的五年里我拥有“数据科学家”的头衔,但我仍然没有完全理解我的工作中哪一部分是时尚的。也许我的新烫发让我看起来像韩国的奥巴马


      的确,云的出现和企业向互联网的发展带来了数据爆炸这推动了一些部门对数据科学家的需求以及这一职位的短缺。


      但是数据科学家每天都做什么?


      可以通过分析LinkedIn上发布的职位信息找到这个问题的答案以下是一些常见工作要求的摘要:


      。了解业务和客户,验证假设理论

      。建立预测模型和机器学习管道,进行A/ B测试

      。概念化商业利益相关者

      。开发算法以支持业务决策

      。试验和研究新技术和方法,以提高技术能力


      这些听起来很时髦/引人注目,不是吗?


      这些工作描述只是数据科学家工作的一小部分,除非工作还包括处理Kaggle数据集。众包发布了低于


      的调查结果,总结了数据科学家的日常活动:


      数据科学家花费最多时间的事情

      21世纪高性能数据真空

      数据湖是一个集中式存储库,存储公司的所有数据该公司能够利用这些数据构建机器学习模型和仪表板。不幸的是,有些人只把数据湖用作数据转储站点或超大硬盘。


      当许多公司开始实施数据湖时,他们不知道如何处理收集到的数据。这些公司会说,“让我们收集所有的数据。”“尽管数据湖的重点是将公司的所有数据集中在一个地方,但它仍然需要根据特定的项目需求进行设计如果你不做任何计划,你就像创建一个新的“无标题文件夹”,然后复制并粘贴公司的所有数据。


      如果从历史角度来看,桌面被视为数据转储


      ,规划不当将导致元数据混乱,这使得任何人都难以搜索或找到所需的数据数据科学家经常需要联系不同的部门来获取数据。他们可能需要从不同的数据所有者那里获得有关数据的信息。存储数据而不分类是一个很大的错误。建立有效的数据湖的关键是确保元数据被很好地分类。


      由于数据治理问题或数据所有者太忙,他们通常是不同部门的利益相关者,可能需要几周时间才能获得重要数据在观察一段时间后,数据科学家可能最终会发现数据不相关或有严重的质量问题。


      当数据科学家最终收集数据时,他们需要花费大量时间来探索和熟悉数据,并且必须将这些混乱的数据块重新组织成满足项目要求的新表


      |


      来源:数据。lovedata


      每个数据处理专业人员都应该听说过“脏数据”这个词脏数据会影响数据集的完整性脏数据的特征是不完整、不准确、不一致和重复的。


      不完整数据是指当一些基本函数为空时,例如,假设任务是预测房价假设“房子的位置”对于做出一个好的预测是必要的,但是这个数据是不可用的。这可能会变得具有挑战性,并且模型不会很好地工作。


      不正确的数据和不一致的数据意味着该值在技术上是正确的,但在上下文中是错误的例如,一名员工更改了地址,但数据没有更新,或者当数据有许多副本,而数据科学家获得的版本已经过时


      数据重复也是一个常见问题在这里,我想分享一个发生在我在一家电子商务公司工作时的故事。根据设计,当访问者点击“收集优惠券”按钮时,网站将向服务器发送响应。这使我们能够测量收集优惠券的用户数量。


      网站运行良好,直到有一天发生了一些变化,我对此一无所知。当有人因为一些优惠券可能缺货而成功收集优惠券时,前端开发者添加了另一个响应。数据科学家希望跟踪点击这个按钮的访问者和已经收集优惠券的人。


      此时,两个响应被发送到同一个日志表看看我的报告工具,优惠券的数量似乎一夜之间翻了一番!前一天我部署模型时,我认为新模型非常成功。我记得为这个小模型欢呼和鼓掌,但后来我意识到这只是重复计算。


      此外,在过去的五年中,作为一名数据科学家,我收集了一些公司员工手动输入的数据在Excel电子表格中,许多数据不准确、不完整且不一致。


      数据整理广泛用于现实世界,无论是手动输入还是机器日志。数据科学家必须处理这些数据为了使监督学习有效,我们需要可靠的分类数据。除非正确标记数据,否则无法建立预测模型。但是没有人喜欢标记数据


      许多人将其描述为28条规则数据科学家只花了20%的时间构建模型,而另外80%的时间用于收集、分析、清理和重组数据。处理脏数据是数据科学家最耗时的日常工作。


      来源:Pexels


      需要注意的是,数据清理非常重要,混乱的数据不会带来好的结果,您可能听到过“垃圾入,垃圾出”这样的话


      数据科学家在浏览数据时确实会发现一些东西,但他们必须先成为数据管理员,然后才能开始培训任何模型。数据也需要清理和标记。


      因此,称数据科学家为大数据世界的清洁工应该是非常合适的...

      评论、表扬和关注

      我们分享由人工智能共同学习和开发的干货

      。如果转载,请在后台留言并遵守转载规范

      本文由 在线网速测试 整理编辑,转载请注明出处,原文链接:https://www.wangsu123.cn/news/2641.html

          热门文章

          文章分类