大多数数据驱动型组织已经开始实施数据和分析现代化计划,谈谈以努力实现业务驱动效益,保护例如利用其数据资产获得更丰富、敏感主动的数据洞察并推动竞争优势的能力 。只有当组织能够解锁企业防火墙或外部源内的秀实大量多结构数据时,此类举措才有可能实现。谈谈组织已经变得越来越习惯以安全和受管控的保护方式公开内部数据,并且准备尝试更高级的敏感用例,例如数据共享和数据网格。数据 然而
,秀实有一个问题
。谈谈数据和分析行业主要关注通过数据湖
、云计算保护数据仓库和分析引擎访问数据,敏感而忽视了基本的数据数据治理规则,例如数据质量和保护。秀实随着新的、严格的隐私法规现在将重点转向保护个人数据,数据团队必须重新审视其实践和框架
,以确保安全性和合规性。 主要关注领域是历史数据治理平台,其中许多平台限制过于严格
。它们阻止访问整个数据段,从而大大降低了数据效用。另一方面,模板下载缺乏这样的平台往往导致数据访问过于宽松 。较新的产品提供了在行 、列和单元级别编写和自动化细粒度访问控制策略的能力,因此组织可以以安全且受监管的方式加速数据访问。这些政策确定谁有权查看敏感数据,包括个人身份信息 (PII)、受保护的健康信息 (PHI) 、非个人商业数据以及受合同保护的数据或第三方数据。 “细粒度”访问策略的示例包括 : 数据和分析行业正在采用“现代数据堆栈”一词来对包含最佳工具的架构进行分类,亿华云这些工具旨在从生产者处获取数据并为数据消费者做好准备
。由于定义本身是不确定的且应用不一致,因此数据访问和治理能力历来没有得到很好的定义。没有单一的、规定的方式来保护敏感数据 ,但数据安全和访问管理对于组织对云数据平台的投资至关重要。 本文档旨在分享最佳实践
,以实现对公司数据的可信访问。这些技巧根据组织现有数据管理实践的源码库成熟度而有所不同 ,特别是在数据治理和访问领域
。让我们首先为您的组织的数据保护成熟度建立基线
。 随着时间的推移,已经开发出了多种数据管理成熟度模型,以帮助组织评估其当前状态并找出差距。其中包括企业数据管理 (EDM) 委员会的数据管理能力评估模型 ( DCAM ) 和国际数据管理协会 (DAMA)的数据管理知识体系 ( DMBOK ) 等
。在本文档中,我们将重点关注数据管理的服务器租用一个子集:组织识别、保护和保护敏感或合同数据的能力。 成熟度模型有助于建立衡量当前流程有效性的指标并建立渐进式改进。为了成功实现云数据采用等现代化举措
,组织必须根据保护敏感数据的方法的成熟度来建模最佳实践 。这种分级方法可以带来持续改进 ,而不会压垮数据生产者 、推动者和消费者
。 成熟度模型的最佳实践分为三类:起步阶段、新兴阶段和成熟阶段。 处于起步阶段的组织没有适合现代数据堆栈的数据安全和治理计划
,因此通常没有记录敏感数据在其云数据架构中的位置。他们的访问管理流程通常是手动的并会产生瓶颈
。此阶段的组织还缺乏正式的数据保护策略
,包括跨云数据资产进行分类和标记的流程。 处于新兴阶段的组织有一些数据保护机制
。通常,这些都是定制开发和维护的,需要付出相当大的努力才能保持最新状态并遵守外部法规 。其他组织已经部署了一个或多个数据访问平台
。无论哪种情况,数据保护的范围都是部门级别的 ,并且不具有凝聚力。在这个阶段
,组织缺乏自动化的策略执行。 成熟阶段的组织拥有先进的数据保护策略和部署流程
,以及对业务需求和合规性要求的深刻理解
。然而 ,他们正在寻求扩展其现代分析架构以在云中进行创新
,并不断完善和现代化其数据访问策略 。 数据保护部署应该是全面的 ,以确保敏感数据没有后门访问
。然而,“完全统一的”方法很难执行,而且很少成功。这是因为,虽然保护敏感数据可能既耗时又昂贵
,但不应损害允许消耗的数据效用。 遵循经过验证的最佳实践可确保组织从其软件工具中获得尽可能高的价值来保护敏感数据,同时最大限度地减少治理开销。最佳实践还为希望成功部署数据访问平台的组织提供了结构化方法。 下面我们介绍每个成熟阶段的最佳实践 。然而,一个共同点是每个客户都必须首先定义他们的理想用例和成功标准 。用例的一个示例是支持对操作或分析应用程序中的敏感数据进行动态自助访问和授权。 用例必须是业务策略驱动的并以业务术语表述
。它们不应该是技术驱动的。最重要的数据访问用例是: 大多数组织正在采用云数据平台,或者正在扩展其生态系统。但是 ,重要的是 ,在确定敏感数据的位置及其使用方式之前,不要启动云迁移过程
。这甚至适用于直接迁移的 IaaS 工作负载 。与本地部署相比,云部署采用“共享安全模型”,该模型让用户承担更大的责任来确保数据保护
。在现代化举措之前掌握敏感数据可以降低违反治理工作或数据泄露的风险。 数据隐私是指用于控制和管理敏感数据(包括 PII 和 PHI)访问的方法
。这些方法包括差分隐私
、k-匿名化和假名化等技术,其中许多技术都是数据规则和法规所强制执行的 。除了确保数据隐私控制满足法律要求之外 ,在所有数据平台和消费方法中一致地执行这些控制也很重要
。例如 ,业务用户可能使用 Microsoft Excel 来访问数据,而分析师可能使用 SQL ,数据科学家可能使用笔记本中的 Python 代码 ,但每个用户都应该采用相同的数据隐私控制。 当今市场的互联性使得数据共享对于各种规模和所有行业的组织都至关重要 。无论是跨业务部门内部共享数据还是外部(例如与第三方)共享数据 ,确保安全交换数据的需求日益成为许多数据团队的首要任务 。数据共享还用于确保遵守数据许可条款和数据使用协议
,并最终使组织能够通过安全的数据交换平台将其数据产品货币化 。 任何敏感或私人数据都必须受到监管——这是不可协商的。实现遵守外部合规法律法规以及内部准则和标准,需要了解拥有什么类型的敏感数据、数据消费者在何处访问该数据以及适用于数据的具体要求,例如数据保留权或被遗忘的权利
。法律团队应与负责制定政策的业务团队以及负责实施数据政策的数据平台团队保持一致。 在快速发展的生态系统中控制谁可以访问哪些数据并不容易,但这是必要的 。与数据隐私一样,当考虑到涉及的一系列用户
、技术和法规,以及需要执行一致的策略来管理跨任何计算平台的访问请求的任意组合时,数据访问控制就会变得更加复杂。当组织的数据需求增长时,他们的访问控制必须按比例扩展——理想情况下,不会给负责策略实施和数据访问管理的数据团队带来额外的负担
。 数据安全旨在减轻未经授权的数据访问的威胁。随着数据驱动的组织采用日益分散和灵活的云数据架构(例如数据网格或数据湖屋),数据安全已成为更加重要的用例。为了减少来自内部和外部的数据泄露 、破坏或损失的威胁
,并充分发挥创新架构框架的优势,数据团队必须拥有维护数据安全的策略和资源。 了解用例并让它们提供最佳实践是开始数据访问和安全之旅的一个很好的起点
。这种实施方法提供了一个敏捷的路线图来展示渐进的成功。 起步成熟阶段的一个关键最佳实践是让用户熟悉数据访问平台的功能
,同时展示其有效性,例如满足 个人信息保护法、GDPR 或 HIPAA 等适用的合规性法规。随着组织的成熟
,他们可能会开发更复杂的用例,例如数据共享
。 刚接触数据访问控制和安全领域的用户应采用包含业务
、技术和流程的“系统思维”方法
。最佳实践能够以最具成本效益和敏捷的方式结构化实施第一个数据访问用例 。迭代和分阶段的过程允许组织从小规模开始并快速展现价值。 定义起始用例后,评估业务 、技术 、流程的当前状态,并开始制定与总体业务目标、要求和策略相一致的访问策略。访问策略和实施计划的基本原理是避免范围蔓延、让业务和 IT 利益相关者签署可交付成果,并协调共同的业务目标。此最佳实践可确定所选用例是否适合第一次数据保护迭代的良好业务和技术(例如数据源)
。 初创企业、中小型企业和大型企业的数据政策实施情况各不相同。初创公司的团队规模较小
,分担多项职责,而大公司则拥有专门的团队 ,并且通常以流程为导向
。因此,实施计划也有所不同。 起步成熟阶段的业务最佳实践包括 : 这一阶段的最佳实践侧重于构建、测试和调整数据访问策略以实现所述用例的目标。这些策略应该与用于执行它们的底层技术脱钩
。策略编写与策略执行的分离对于使策略可替换和可重用非常重要。 技术最佳实践从识别关键和高影响力的数据源开始,其中敏感数据必须在分析之前得到保护
。最佳实践因数据访问控制产品的部署模式而异 ,例如 SaaS、本地或多云。本地部署涉及较长的培训周期,而 SaaS 产品通常不需要这种培训周期
。 起步成熟阶段的技术最佳实践包括 : 虽然业务和技术团(策略定义和策略执行)协同工作,但许多其他团队也参与数据访问控制的整体运营 。 保护 、管理和保护对敏感数据的访问会影响当前的状态流程。用于启用数据访问控制的工具是变更代理。对敏感数据的不受限制的访问将受到限制 ,这在组织内部可能并不总是受欢迎的变化 。因此,用户应该了解流程的变化
。该领域的最佳实践是
: 当应用业务
、技术和流程这三个支柱的最佳实践时
,组织就会从起步阶段过渡到新兴成熟阶段 。 在这个成熟阶段,组织应该对关键数据源拥有基本的数据访问控制 。他们现在的目标是在端到端管道中一致地应用数据访问控制策略 。这需要正式化跨职能标准,应用跨团队的经验教训
,并确保数据访问控制流程可重复和可扩展
。 新兴成熟阶段的最佳实践的结果应该是统一应用数据消费者的访问策略和权限
,无论数据存储或处理在哪里。 企业最大的痛点之一是制定冗余的政策。这不仅降低了数据团队的生产力,而且还导致了可能缺乏系统逻辑的庞大而复杂的政策网络。大型或成长型企业可能比小型组织更严重地受到重复政策的影响,但最重要的是
,任何不必要的政策都会产生额外的复杂性
,无论规模大小,都应该避免这种情况。 传统访问控制框架 ,即基于角色的访问控制(RBAC)是策略冗余的主要驱动因素
。RBAC 本质上是静态的
,根据用户角色确定访问权限。这意味着随着新用户或数据源的添加以及政策需求的发展
,必须创建新的政策来吸收这些变化。结果,数据团队不得不管理大量的角色膨胀,这可能变得难以管理和不可扩展——数据可能被锁定和过度限制
,或者由于漏掉裂缝而暴露
。 动态访问控制是避免这种情况的一种关键方法,请参阅下面的最佳实践。在查询时根据有关用户、数据对象 、预期操作和数据环境的属性执行策略 ,无需预先确定和手动维护策略
。因此,数据团队可以将必须管理的策略数量减少 75 倍
,并扩展策略实施,而无需额外开销。 新兴成熟阶段的业务最佳实践包括
: 如果业务团队不愿意编写冗余策略,那么数据工程师也不愿意跨多个执行基础设施手动部署这些策略并保持它们同步。由于数据工程技能供不应求,最佳实践是安装通用策略执行引擎。 数据工程师还必须与治理、风险和合规性 (GRC) 利益相关者(例如数据监管者)合作,以确保范围内的所有平台和数据源都受到保护
。这包括现代产品和遗留系统
,因为大多数组织的数据源跨越混合多云位置 。 新兴成熟阶段的技术最佳实践包括: 对于新兴成熟阶段面向流程的最佳实践,将以部门为中心的数据访问流程整合为标准的企业范围流程,从而实现集中的策略管理和全面的审计日志记录
。跨团队简化和标准化这些流程是在不增加复杂性的情况下扩展安全自助数据使用的关键一步。 该领域的最佳实践包括 : 一旦实现这些目标
,组织就能够进入最终的成熟阶段。 成熟阶段的目标是将敏感数据保护扩展到内部部门和业务单位之外,并扩展到所有数据源,包括外部 、第三方数据源。 大多数组织利用多个来源的数据,并且需要遵守合同数据共享和数据使用协议。因此,成熟阶段的最佳实践旨在帮助保护对所有内部和外部数据源的访问。这包括将数据权利扩展到第三方数据源,例如 Bloomberg 和 FactSet 。成熟阶段的指导要点涉及部署端到端现代数据堆栈。 随着组织越来越多地使用数据结构和数据网格等技术来分散现代架构
,此阶段的最佳实践尤其重要
。这些新方法缓解了数据供应链中的各种瓶颈,例如有限的数据工程资源,并对数据质量问题提供了更多责任。然而 ,这种“分布式”方法增加了整体复杂性,增加了对更高级的数据使用和访问控制的需求 。 成熟组织中业务功能的主要关注点是将数据访问和安全策略扩展到所有内部和外部源
,以便实现一致的数据访问策略实施 。这些最佳实践将开放数据管道,并允许组织内部和外部的数据更有效地流动。 成熟阶段的业务最佳实践是: 当组织达到成熟阶段时
,除了任何相关的数据隐私用例之外,他们还应该能够确保策略符合数据使用协议。 随着全球地区和国家引入新的隐私立法 ,企业应该使用多个计算引擎跨分布式架构实现策略的可移植性和执行 。 有关敏感数据元素的元数据通常保存在元数据目录中
,因此数据工程团队应该实现元数据目录、数据编排和现代数据堆栈的其他组件之间的集成
。此阶段的另一个重点是确保数据访问平台的企业级可扩展性、性能、可用性和可靠性。 成熟阶段的技术最佳实践是: 数据访问控制不仅仅是数据安全和遵守数据隐私法规。在我们日益互联的数据环境中,共享数据的第一方和第三方之间的合同协议也必须得到充分维护 。由于这项任务需要多个组织的合作,标准化流程是减少人工工作量和提高资源利用率的最直接方法。 成熟阶段流程团队的最佳实践是
: 遵循这些最佳实践将确保即使是拥有成熟数据使用实践的组织也能够持续优化数据工作流程,从而提高其敏捷性和数据创新能力,而不会影响安全性
。 本文阐述了与数据安全和隐私成熟度的主要阶段相一致的最佳实践 。据了解,组织及其数据安全和访问控制需求并不是静态的。因此 ,方法随着内部流程、团队和技术的发展和改进而进步 。检查每个成熟度模型阶段的业务 、技术和流程支柱的最佳实践有助于培养稳健、动态和有弹性的数据访问控制策略
。
一、数据管理成熟度模型

二、保护敏感数据的最佳实践



三 、小结