最后更新:2020-04-16 12:57:37 手机定位技术交流文章

在大数据时代,隐藏在海量数据中的价值是可以挖掘的,但这也给保护私有信息和关键敏感数据带来了困难。数据脱敏技术是解决这一问题的重要手段之一。传统脱敏方法具有人工干预大、配置成本高、对用户专业素质要求高的优点。
为了解决这个问题,如果数据安全脱敏技术与人工智能的自主学习和强大的数据分析能力相结合,那么就不需要过多的人工干预,这将大大提高数据脱敏系统的可靠性和易用性。在保证安全性的同时,实现了易学习、免配置、自动脱敏和自适应脱敏算法的功能。
相关概念和内涵
数据脱敏是指在保持原始特征的同时改变数据的价值,从而保护敏感数据免受未经授权的访问。同时,可以进行相关的数据处理。在保持数据的意义和有效性的同时,可以维护数据安全,并且可以遵循数据隐私标准。在数据脱敏的帮助下,信息仍然可以被使用并与业务相关联,而不会违反相关法规并避免数据泄漏的风险。
传统的数据脱敏工作流通常如图所示。

传统数据脱敏系统的工作流
传统数据脱敏系统中的敏感数据发现和相关性识别通常通过手动配置和正则表达式匹配来实现。

常规脱敏系统示意图
识别的准确性主要取决于正则表达式的规则设置是否准确合理。然而,性能和准确性不能结合:规则匹配规则越简单,系统性能越好,识别率相对较低。然而,在复杂的规则下识别率提高,但系统性能下降,这需要更高的人工配置经验和技术,普通业务人员难以胜任。
大数据时代的数据脱敏系统机制
大数据时代的数据脱敏系统的设计提供了各种预设的算法库,包括映射、随机化、哈希和加密,每种算法都包含若干算法。系统可以根据用户的业务需求灵活匹配,使敏感数据脱敏能够满足数据原始属性、可重复性、可逆性、相关性、可追溯性和准确性的要求。图中显示了通用原型工作流逻辑。

数据脱敏系统的工作逻辑流程图
系统实施步骤可分为:
(1)收集用户当前的业务系统需求,分析数据模型,建立系统原型和使用环境;
(2)对用户当前服务系统数据进行智能数据分析,通过机器自学习识别当前服务系统的敏感数据,并进行自动聚类,提出敏感数据的分类分级规则方案;
(3)智能分析发现的敏感数据的相关性和数据变形规律,同时对系统进行分析;
(4)根据步骤3的分析,配置用户权限、脱敏规则、脱敏数据表、脱敏功能、脱敏数据关联和脱敏过程,并导入系统原型;
(5)敏感数据的变形,包括脱敏函数库的定制、扩展和丰富;
(6)分发脱敏数据,包括将数据加载到其他库中,将数据加载到本地库中,以及在线脱敏数据;
(7)脱敏结果验证了系统原型支持技术。
大数据智能背景下的数据脱敏技术分析
本文从人工智能对敏感数据的自动分类和识别、机器学习对数据关联的识别和维护以及用户使用模型学习的智能自适应脱敏算法三个角度,对大数据背景下的数据脱敏进行了技术分析。
典型案例的实验分析
本文以典型运营商应用场景中的数据脱敏为例进行实验分析。本案例采用智能自适应脱敏算法,随机选取36万用户静态属性表、订阅数据表、10大应用使用数据表和31列月度交通语音使用数据表进行智能自适应脱敏。
讨论
文章指出,随着大数据和人工智能的快速发展,数据脱敏将面临诸多挑战:
如何将数据安全脱敏技术与人工智能的自主学习和强大的数据分析能力有机结合起来;
如何利用大数据智能分析和人工智能建模算法,从传统的静态脱敏模式转变为自适应动态脱敏模式,以有效满足日益增长的多模式数据交互流程和复杂多变的业务场景安全处理需求,如在电力、运营商等涉及国计民生的行业中的应用;
在大数据智能场景中,如何处理用户信息透明所带来的数据所有权和使用权的伦理问题,取决于能否仅依靠智能技术实现数据脱敏评估机制的可靠性、敏感数据准确识别方法的多样性以及数据治理系统的全面性。
结论
最后,文章从技术、需求、法治和管理机制等方面提出了数据脱敏的三点思考和建议:
对数据脱敏安全问题的辩证理解;多媒体数据的隐私保护和脱敏将成为未来数据脱敏的关键方向。数据脱敏还需要与法律、法规和管理机制联系起来。全文见“大数据智能下的数据脱敏思考”,论文发表在《科学技术导报》2020年第3期。
作者:
王宏凯,龚小刚,叶伟,,马,姚金强,
作者简介:
王洪凯,中国国家电网浙江电力有限公司信息通信分公司高级工程师,研究方向为网络与信息安全。
马(通信作者),浙江大学智能系统与控制研究所教授,重庆文理学院人工智能学院教授,研究大数据智能和信息安全。
刘墉(通信合著),浙江大学智能系统与控制研究所教授,研究方向为大数据、人工智能和信息安全。

本文由 在线网速测试 整理编辑,转载请注明出处。