找回密码
 立即注册
搜索
查看: 548|回复: 0

数据仓库建设中数据安全的重要性及如何划分数据安全层级

[复制链接]

2万

主题

0

回帖

6万

积分

管理员

积分
60318
发表于 2025-1-17 12:17:04 | 显示全部楼层 |阅读模式
背景和目标

在数据仓库建设过程中,数据安全起着重要的作用,因为隐私或敏感数据的泄露将对数据主体(客户、员工、公司)的财产、声誉、人身安全和合法利益造成严重损害。 。因此,我们需要严格控制对仓库中数据的访问,即什么样的人员或需求可以访问相关数据。这就需要根据数据本身的敏感性来划分安全级别。只有将数据划分安全级别,才能更好地管理数据访问控制,保护数据安全。

简单说明一下,比如我们仓库有一个关于注册用户的基本信息表User,有两个字段:手机号和昵称。我们在划分数据安全级别时,将用户的安全级别划分为L1,高于L2,并规定只有访问权限达到L2的操作部门才能访问字段。这样,当公司各个部门需要访问注册用户基本信息表User时,我们只需要检查访问者是否来自运营部门即可。如果是运营部门就可以访问。如果没有,它只能访问信息。这样有效防止了用户的手机号码被无关人员泄露,同时也不影响查询用户的需要。

但在实际生产过程中,应用场景往往更为复杂。仅靠这样的访问控制并不能满足生产的需要。需要结合其他方法。数据脱敏是满足日常需求的有效方式。满足生产需求,保护数据安全。

数据脱敏具体是指通过脱敏规则对某些敏感信息进行变形,实现敏感隐私数据的可靠保护。这使得数据本身的安全级别得以降级,使得脱敏后的真实数据集可以安全地用于开发、测试等非生产环境,以及外包或云计算环境。借助数据脱敏技术,对敏感信息进行脱敏处理,脱敏后的信息保留其原始数据格式和属性,保证应用程序在使用脱敏数据进行开发和测试时能够正常运行。

敏感数据排序

在进行数据脱敏之前,我们首先要确定哪些数据应该作为脱敏的目标。基于美团独特的业务场景和数据安全级别(绝密、高密、保密、公开四个级别),我们主要从“高密”级别的敏感数据入手。

这里我们将敏感数据分为四个维度来梳理:用户、商户、终端、公司。

从用户维度梳理可能包括以下敏感字段:手机号码、邮箱地址、账号、地址、固定电话号码等信息(此外,个人隐私数据还涉及:种族、政治观点、宗教信仰) 、基因等)从商户维度梳理:合同签订者、合同签订者电话号码等(不排除全局敏感数据:如商户团购品类等)从用户终端维度梳理:独有字段可以识别终端,例如设备 ID。从公司角度梳理:确定交易金额、凭证密码、充值码等脱敏处理方式。

梳理完敏感数据字段后,我们接下来的工作就是如何根据具体的应用场景,对敏感字段实现具体的脱敏方法。

常见的处理方法如下:

替换:例如,如果将女性用户名统一替换为F,这种方法更像是一种“欺骗方法”,对于内部人员来说可以完全保持信息的完整性,但很容易被破解。重新排列:序列号12345重新排列为54321,按一定顺序打乱,很像“替换”,在需要时可以轻松恢复信息,但也很容易被破解。加密:12345号加密为23456。安全程度取决于使用哪种加密算法,一般根据实际情况而定。截断:截断到138,丢弃必要的信息,保证数据的模糊性。是常用的脱敏方法,但往往对生产不太友好。 mask:->,保留部分信息,并保证信息长度不变,更容易被信息持有者识别,如火车票上的身份信息。日期偏移四舍五入:12:30:45 -> 12:00:00,舍弃精度,保证原始数据的安全。一般来说,这种方法可以保护数据的时间分布密度。

但无论采用哪种方法,都必须根据不同的应用场景,遵循以下两个原则:

1.为了逻辑(脱敏后的应用尽可能多,保留脱敏前有意义的信息) 2.避免(最大程度防止黑客破解)

以这个脱敏需求为例:



美团的大致业务场景是这样的。用户在网站支付团购订单后,我们会将团购密码发送至用户对应的手机号码。在这个过程中,从用户的角度来看,团购密码必须对用户保密,在用户消费之前不能泄露。其次,美团用户的手机号码也必须保密,因为泄露后可能会被泄露。推送一些垃圾信息,或者造成更严重的危害。从公司内部数据分析师的角度来看,有时虽然他们没有权限知道用户的团购密码,但他们想要分析公司发送的团购密码的数量。这是安全许可证;另外,虽然数据分析师没有权力知道用户的具体手机号码,但他们需要统计美团用户手机的区域分布,或者运营商分布的差异,为上级提供支持决策。

基于这样的需求,我们可以对团购密码进行加密,保证其唯一性,并保留其原始数据格式,在不影响数据分析需求的情况下保密。同样,我们保留用户手机号码的前7位、运营商和地区位置信息,并模糊后4位。这也满足了保护的要求,不影响统计。

因此,基于实际,我们遵循上述两个处理原则。第一阶段,我们在脱敏工具集中确定了以下4种基本类型的脱敏方案(对应4个UDF):

字段命名方案示例原则

电话号码()

面具

->

防止号码泄露,但保留运营商和地区信息(唯一性,通过前端绑定或注册进行绑定)

电子邮件

截断+加密

->

保留电子邮件域信息

团购密码(code)

加密

49219 ->

加密后仍保持一定精度的唯一性并与数据类型一致。

设备编号()

加密

->

加密后保持唯一性

确定实施范围和步骤



通过对上述字段的梳理以及脱敏方案的制定,我们对美团数据仓库中涉及敏感字段的表进行了脱敏。在数据仓库分层理论中,数据脱敏往往发生在上层,最直接的是对外开放的层面。在实际应用中,不仅要参考分层理论,还要从美团现有的数据仓库生产环境体系出发,主要在数据维度层(dim)和基础服务数据层(fact)上实现脱敏。这样我们就可以在下游相关数据报表和衍生数据层的开发过程中使用脱敏数据,从而避免数据安全问题。

在确认正在处理的表和字段后,我们还需要保证相关上下游流程的正常运行,以及未脱敏的敏感信息(通过更严格的安全审计访问)的正常输出和存储。

以用户信息表user为例,脱敏步骤如下:

1.首先,生成一份未屏蔽数据的副本,用于正常输出未屏蔽数据。 2.修改下游涉及的所有用户相关生产流程,确保脱敏后正常运行。这里的主要任务是确认数据格式和数据来源。 3、按照相应的脱敏方法对用户表中相应的字段进行脱敏。

总结

通过以上步骤的实施,我们完成了第一阶段的数据脱敏工作。在数据脱敏方案的设计和实施过程中,我们觉得更重要的是根据具体的应用场景进行整体设计,同时考虑到数据仓库建设的重要维度。数据脱敏的实施,为提升公司数据安全提供了有力支撑。当然,我们第一阶段脱敏的工具集还比较少,需要补充。脱敏的技术架构需要完善,更加自动化。

本文不对数据安全的控制和数据访问隔离进行过多的阐述。希望通过以后的生产实践继续向大家介绍。

参考

参考资料如下:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|【智道时空】 ( 京ICP备20013102号-16 )

GMT+8, 2025-5-7 03:28 , Processed in 0.062320 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表