最后更新:2020-04-02 13:02:12 手机定位技术交流文章
简介:目前,网络安全领域的职位比合格的候选人多得多,所以好消息是网络安全仍然是一个合适的涉足领域。坏消息是跟上时代所需的技能正在迅速变化。总的来说,需求是发明的动力。
由于对熟练网络安全专业人员的需求远远超过了目前的水平,数据科学算法通过提供关于网络威胁的新见解和预测填补了这一空白。
这篇文章的作者分享了他成为专业安全数据科学家的职业道路。你将看到作为一名安全的数据科学家的日常生活是什么样的,你需要做什么才能成为一名高效的数据科学家。我们还分享了如何应对数据科学问题以及如何应对不可避免的挑战。
作者:约书亚·萨克斯
来源:华章科技

成为安全数据科学家的途径
因为安全数据科学是一个全新的领域,所以有许多方法可以成为安全数据科学家。许多人通过技术课程的正式培训成为了数据科学家,许多人自学成才。
举个例子,我在20世纪90年代长大,那时我学会了用C语言和汇编语言编程。后来,我获得了人文学科的学士学位和硕士学位,然后作为一名安全软件开发人员重新进入了技术领域。在这个过程中,我在业余时间自学了数据可视化和机器学习,并最终进入安全研究和开发公司Sophos,成为一名正式的安全数据科学家。
希拉里·桑德斯是《基于数据科学的恶意软件分析》一书的合著者和出版人,她在大学研究统计和经济学。她做过一段时间的数据科学家,然后在一家安全公司做数据科学家。正是在这份工作中,她学会了安全。
我们在索福思的团队非常多元化。我们的同事拥有不同学科的学位:心理学、数据科学、数学、生物化学、统计学和计算机科学。
尽管安全数据科学偏向于那些接受过科学量化方法正式培训的人,但来自不同背景的人也需要加入进来。虽然科学和定量培训有助于学习安全数据科学,但从我个人的经验来看,只要你愿意自学,你也可以以非传统背景进入我们的领域,取得优异的成绩。
精通安全数据科学取决于一个人不断学习新事物的意愿。这是因为在我们的领域,实践知识和理论知识同等重要。你应该通过实践而不是仅仅通过学校学习获得实用和有用的知识。
乐于学习新事物也很重要,因为机器学习、网络分析和数据可视化技术在不断变化,所以你在学校学到的东西很快就会过时。例如,深度学习在2012年左右开始成为一种趋势,此后发展迅速。因此,几乎所有在此之前毕业的数据科学专业学生都必须自己学习这些非常有用的想法。
这对那些希望进入安全数据科学专业的人来说是个好消息。因为那些已经在这个领域工作过的人也必须自己学习新的技能,你可以通过学习这些技能迈出第一步。
02安全数据科学家日
安全数据科学家的工作是将他们的技能应用于各种困难的安全问题。这些技能的应用,连同其他技能,将形成一个更大的工作流程,以促进真正的问题解决。基于我们的经验和其他公司或组织的同行的经验,图11可以描述安全数据科学家的典型工作流程。

▲图11安全数据科学工作流模型
如图11所示,安全数据科学工作流涉及五个工作区域之间的交互。第一个领域是识别问题,包括识别数据科学可以解决的安全问题。例如,我们可能假设可以根据数据科学地识别鱼叉式网络钓鱼消息,而识别混淆已知恶意软件的特定方法是一个需要研究的问题。
在这个阶段,任何关于数据科学可以解决问题的猜测都只是一个假设。当你有一把锤子(数据科学)时,每个问题看起来都像钉子(机器学习、数据可视化或网络分析问题)。
我们必须考虑这些问题是否真的最适合用数据科学的方法来解决。请记住,可以构建数据科学解决方案的原型。通过测试这个解决方案,我们可以更好地理解数据科学是否真的提供了最好的解决方案。
当你在一个组织或机构工作时,在确定一个好的问题的过程中,你经常需要与不是数据科学家的伙伴交流。
例如,在我们公司内部,我们经常与产品经理、经理、软件开发人员和销售人员打交道。他们认为数据科学就像一根可以解决任何问题的魔杖,或者数据科学类似于“人工智能”,并且有一些神奇的能力来实现不切实际的结果。
当与这些非专业的合作伙伴交流时,记住要诚实面对数据科学方法的能力和局限性,保持敏锐和谨慎的态度,这样你就不会去追求错误的问题。你应该放弃那些没有数据来驱动数据科学算法的问题,缺乏有效的评估方法的问题,以及那些显然可以通过手工方法更好地解决的问题。
例如,在其他人提出以下问题后,我们应该拒绝这些问题:
自动识别可能向竞争对手透露数据的员工。没有足够的数据来驱动机器学习算法来解决这个问题。然而,这个问题可以通过数据可视化或网络分析来解决。解密网络流量。机器学习的数学机制决定了它根本无法解密军用级加密数据。根据员工生活方式的详细背景知识,那些专门针对特定员工的钓鱼邮件会被自动识别。同样,这也是因为没有足够的数据来驱动机器学习算法,这个问题可以通过使用可视化技术分析时间序列或邮件数据来解决。一旦您成功识别了潜在的安全数据科学问题,您的下一个任务就是识别数据源,以便数据科学和技术可以用来解决该问题。
如图11中的步骤2所示。归根结底,如果你没有可以用来训练机器学习模型、提供可视化或驱动网络分析的数据源来解决你选择的安全问题,那么数据科学可能不会帮助你解决这个问题。
选择问题并确定足以构建一组科学数据解决方案的数据源后,您就可以开始构建您的解决方案了。在实际应用中,一个解决方案在图11所示的步骤3和4之间不断循环:构建一些东西,评估它,改进它,重新评估它,并相应地迭代。
最后,一旦您的系统准备好了,您就可以部署它,如图11中的步骤5所示。部署系统时,如果有新的数据源可用,您必须重复前面的步骤来集成新数据,尝试新的数据科学方法,并重新部署系统的新版本。

03高效安全数据科学家的特征
安全数据科学的成功很大程度上取决于你的态度。在这一部分,我们列出了一些心理因素,我们发现这些因素对安全数据科学工作的成功非常重要。
1.开放思想
这些数据充满了惊喜,破坏了我们对问题的理解。重要的是,你要对证明你先入为主的想法是错误的数据保持开放的心态。如果你不这样做,你最终会错过从数据中获得的重要知识,甚至会在随机噪音中读到太多的信息,从而使自己相信一个错误的理论。
幸运的是,你在安全数据科学领域做的工作越多,你就越愿意从数据中“学习”。你会逐渐正确地面对你所知道的有限事实,你会更善于从每一个新问题中学习更多的知识。随着时间的推移,你将开始享受并期待数据带给你惊喜。
2.无限的好奇心
数据科学项目需要研究数据以发现模式、异常和趋势,然后用它们来构建我们的系统,这与软件工程和信息技术项目非常不同。确定这些数据之间的关联和相互作用的机制并不容易:通常需要进行数百次实验或分析来了解数据的整体形状和其中隐藏的故事。
有些人有一种自然的、几乎令人上瘾的动机,去进行精心设计的实验和深入挖掘数据,而其他人则没有。
前者是那种倾向于在数据科学领域取得成功的人。出于这个原因,好奇心是这个领域的必要条件,因为好奇心区分了我们理解数据的程度。在数据建模和可视化分析的过程中,你越好奇,系统就越有用。
3.对结果的痴迷
一旦你定义了一个好的安全数据科学问题,并开始反复尝试解决和评估它,你对结果的痴迷将会支配你,这在机器学习程序中尤其明显。
例如,当我深入参与一个机器学习项目时,我会每周7天、每天24小时进行许多实验。这意味着我可能每天晚上醒来很多次来检查实验的进度,并且经常需要在凌晨3点修复错误并重新开始实验。我倾向于每天晚上睡觉前检查我的实验,并在整个周末检查几次。
这种24小时工作流程通常是构建顶级安全数据科学系统的必要条件。没有这种状态,人们将很容易满足于平庸的结果,并且将无法打破常规或克服由不正确的数据假设造成的障碍。
对结果的怀疑
人们很容易把自己误认为是安全数据科学项目的成功。例如,您的评估过程可能设置不正确,导致系统的准确性看起来比实际情况好得多。基于与训练数据太相似或与实际数据太远的数据来评估您的系统是一个常见的陷阱。
你也可能无意中从你对网络的视觉分析中选择了一些你认为有用的例子,但大多数用户并没有从中发现多少价值。
或者,也许你在方法上投入了太多的精力,以至于你说服自己这些统计数据是好的,但事实上它们不足以让你的系统在实践中发挥作用。
对实验结果保持合理的怀疑态度是非常重要的,这样就不会有一天发现自己处于尴尬的境地。

04未来工作
这篇文章只触及皮肤。如果您被说服以严格的方式从事安全数据科学,我们有两个建议:
首先,把你学到的工具应用到你关心的问题上。其次,阅读更多关于数据科学和安全数据科学的书籍。以下是一些你可以考虑应用新技能的实际问题的例子:
检测恶意域名检测恶意网址检测恶意电子邮件附件直观地分析网络流量以发现异常直观地分析电子邮件发件人/收件人模式以检测网络钓鱼电子邮件为了扩展您对数据科学方法的了解,我们建议您从维基百科的文章开始学习更多关于数据科学算法的知识。对于数据科学来说,维基百科是一个令人惊讶的、自由获取的和权威的知识资源。
对于那些想进一步学习机器学习的人,我们建议他们选择线性代数、概率论、统计学、图形分析和多变量微积分方面的书籍,或者参加免费的在线课程。学习这些基础知识会给你未来的数据科学生涯带来回报,因为这些内容是这个领域的基础。
除了关注这些基础知识,我们还建议您学习有关Python、Numpy、sklearn、Matplotlib、seaborn、Keras以及数据科学社区中广泛使用的其他工具的课程或阅读更多“实用”书籍。
关于作者:约书亚·萨克斯是一家专业安全企业Sophos的首席数据科学家。他负责领导Sophos的安全数据科学研究团队。他也是Sophos基于神经网络的恶意软件检测器的主要发明者,该检测器可以保护数千万Sophos客户免受恶意软件的侵害。在加入Sophos之前,他花了五年时间管理由美国国防高级研究计划署资助的美国政府安全数据研究项目。
本文摘自“基于数据科学的恶意软件分析”,经出版商授权发布。

“基于数据科学的恶意软件分析”的扩展阅读
推荐:这本书着重于数据科学在恶意软件中的应用,旨在更全面地展示如何应用数据科学和技术来解决主要的网络安全问题。通过了解恶意软件的数据科学,您将能够更好地将数据科学应用于网络安全的其他领域,如网络攻击、网络钓鱼电子邮件或可疑用户行为。
本文由 在线网速测试 整理编辑,转载请注明出处。