视频: ä¸è¦å²ç¬æåçæ§ (十一月 2024)
我们已经写了很多关于数据在现代企业中的作用的文章。 从初创企业到中小型企业(SMB)到大型企业,各种规模的企业都比以往更容易获得数据见解和分析。 这部分是由于自助式商务智能(BI)和数据可视化工具的兴起。
但是,在可以使用BI工具或对数据集运行预测分析之前,有很多因素需要解决。 首先要简单地了解什么是大数据,什么不是大数据(提示:不是一个水晶球)以及如何在企业数据体系结构中管理数据存储,组织,权限和安全性。 这就是数据治理的用武之地。确保与您交谈的人不同,确保企业内治理的过程也有所不同。 但是,从根本上讲,数据治理是关于数据的信任和问责制,并结合了全面的数据安全最佳实践。
我与市场上最大的两个企业Hadoop供应商Hortonworks和MapR进行了交谈。 Hortonworks的首席技术官Scott Gnau和MapR的数据与应用程序高级副总裁Jack Norris分别解释了数据治理对他们的组织意味着什么。 他们讨论了如何解决确保大型企业的复杂数据体系结构和组织层次结构中的数据治理的复杂挑战。
到底是什么 数据治理以及我们为什么需要它?
治理意味着确保在数据库中对企业数据进行授权,组织和许可,并尽可能减少错误,同时保持隐私和安全性。 这并不是一个容易达成的平衡,尤其是当数据在何处以及如何存储和处理的现实不断变化时。 MapR的Norris解释了为什么企业需要从更高的层次看待数据治理,并着眼于更大的数据管道。
“当您开始扩展我们正在处理的大数据的多样性和速度时,就必须进行数据治理,但这是在更广阔的背景下进行的。您拥有什么数据,谁可以访问它,以及您如何在一段时间内管理这些数据的沿袭?” 诺里斯说。 “从数据治理的角度来看,您可以对系统中存在的不同阶段的数据进行快照,以便可以在管道中的任何时间点返回。这是关于在数据平台中建立可审核性和访问控制,以便无论您是查看财务数据集的业务经理还是处理原始上游数据的数据科学家,都可以确保数据发现和分析是透明的。”
资料来源:Rimes。 点击图片可查看全图。
Hortonworks的Gnau也提出了类似的要求。 无论您是要处理数据仓库还是数据湖体系结构,数据治理都是要平衡对立的力量。 它涉及不受约束的数据访问以推动创新并获得见解,以及精细的权限和隐私以同时端到端地保护该数据。
Gnau说:“在数据空间中比较和对比传统治理的旧世界;这要容易一些。” “数据过去通常是由工作角色或应用程序定义的。在新世界中,当数据科学家可以访问尽可能多的数据时,您将获得最大的价值,而找到快乐的媒体非常重要。
Gnau补充说:“这正在推动您如何进行治理的全新范式。” “在这个新世界中,我认为治理和安全性主题需要同时涵盖。许多公司仍在努力解决这一问题,以使他们的数据科学家能够有效地找到这些新的用例,同时,了解如何处理安全性,隐私权和治理-从底线角度和公司声誉角度来看,所有重要的事情。”
企业数据治理计划应如何涵盖并满足所有这些对立的力量? 通过有条理地解决每个需求,一次只需要一个步骤。
如何建立数据治理计划
Hortonworks,MapR和Cloudera是Hadoop领域中三个最大的独立参与者。 在数据治理方面,公司具有自己的影响力范围。 MapR已发布了有关该主题的许多白皮书,并在其融合数据平台中构建了数据治理,而Hortonworks拥有自己的数据安全和治理解决方案,并于2015年与他人共同创立了数据治理倡议(DGI)。源代码的Apache Atlas项目为Hadoop提供了一个开放的数据治理框架。
但是当谈到每个供应商如何制定全面的数据治理和安全策略时,Gnau和Norris都遵循类似的思路。 以下是Hortonworks和MapR建议企业在构建数据治理计划时要牢记的综合步骤。
最大的一个: 粒度数据访问和授权
两家公司都同意,没有精细的控制就无法进行有效的数据治理。 MapR主要通过访问控制表达式(ACE)来完成此任务。 正如Norris解释的那样,ACE使用基于角色的权限和可见性设置,使用分组和布尔逻辑来控制灵活的数据访问和授权。
他说想像一个Gartner模型。 在较低端的Y轴上是严格的治理和较低的敏捷性,在较高端的X轴上是较高的敏捷性和较少的治理。
诺里斯说:“在底层,您可以通过混淆来保护敏感数据。在顶层,您已经为数据科学家和BI分析师获得了机密合同。” “我们倾向于使用屏蔽功能和不同的视图来做到这一点,在这些视图中,您尽可能地在底部锁定原始数据,并逐渐提供更多访问权限,直到在高端为管理员提供更广泛的可见性为止。但是如何提供接触合适的人?
“如果您今天查看访问控制列表,它会说'工程中的每个人都可以访问',” Norris补充说。 “但是,如果您想让IT部门中的几个精选董事具有访问权限,或者除人员以外的所有人都必须具有访问权限,那么您必须创建一个特殊的小组。这是一种过于复杂且复杂的访问方式。”
根据Norris的说法,这就是向不同级别和组授予访问权限的地方。 “我们将ACE与通过文件,表,流等访问数据的各种方式结合在一起,并实现了没有单独数据副本的视图。因此,我们在相同的原始数据和视图上提供了视图可以具有不同的访问级别。这为您提供了更直接的集成安全性。”
Hortonworks以类似的方式处理粒度访问。 通过集成Apache Atlas进行治理和Apache Ranger,Gnau表示,该公司通过一个单一的窗格即可在企业级处理授权。 他说,关键是能够通过使用基于标签的策略来根据上下文授予对数据库和特定元数据标签的访问权限。
格诺说:“一旦有人进入数据库,就可以指导他们浏览他们应该具有相关访问权限的数据。” “ Ranger在对象级别,细粒度以及介于两者之间的任何地方的安全策略都可以处理这一问题。将安全性纳入治理是真正令人感兴趣的地方。
Gnau补充说:“要在大型组织中扩展,您需要将这些角色与治理和元数据标记集成在一起。” “如果我是从新加坡登录的,则可能有基于本地隐私法或公司策略的不同规则。一旦公司从整体到上而下的定义,设置和理解了这些规则,您就可以根据以下内容来划分访问权限:在执行核心平台中的所有内容时使用特定的规则集。”
资料来源:IBM大数据与分析中心。 点击图片可查看全图。
2.外围安全性,数据保护和集成身份验证
没有端点安全,治理就不会发生。 Gnau说,重要的是在与现有身份验证系统和标准集成的数据周围建立良好的边界和防火墙。 诺里斯(Norris)同意,在身份验证方面,企业与久经考验的系统进行同步非常重要。
Norris说:“在身份验证下,这是关于如何与LDAP,Active Directory和第三方目录服务集成的。 “我们还支持Kerberos用户名和密码。重要的不是创建一个完整的独立基础架构,而是与现有结构集成并利用Kerberos等系统的方式。”
3.数据加密和令牌化
在确保边界安全并且对您授予的所有细粒度数据访问进行身份验证之后,下一步:确保文件和个人身份信息(PII)已通过数据管道从头到尾进行了加密和标记。 Gnau讨论了Hortonworks如何保护PII数据。
“一旦您越过边界并可以访问系统,保护PII数据就非常重要,” Gnau说。 “您需要对数据进行加密和标记化,因此,无论谁有权访问它,他们都可以运行所需的分析,而不必沿线暴露任何PII数据。”
至于您如何安全地访问动态数据和静态数据,MapR的Norris解释说,牢记备份和灾难恢复(DR)等用例也很重要。 他讨论了MapR称为逻辑卷的概念,该概念可以将管理策略应用于不断增长的文件和目录群集。
“在最低级别上,MapR为灾难恢复设计了WAN复制,并为所有数据提供了时间一致的快照,这些快照可以按目录或卷以不同的频率进行设置,” Norris说。 “它不仅限于数据治理。您可以拥有一个包含目录的物理集群,然后逻辑卷概念是一个非常有趣的管理单元,可以在控制数据保护和频率的同时对事物进行分组。这是IT管理员数据中的另一个箭头治理颤抖。”
4.持续审核和分析
纵观更广泛的治理状况,Hortonworks和MapR均表示,未经审计,该策略将无法实施。 在流程的每个步骤中都具有这种可比性和问责制,这使得IT部门可以实际“管理”数据,而不是简单地设置策略和访问控制并希望获得最佳结果。 这也是企业如何在每天如何看待数据以及用于管理和分析数据的技术不断变化的环境中保持其策略最新性的方法。
Gnau说:“现代治理策略的最后一部分是日志记录和跟踪。” “我们正处于大数据和物联网的起步阶段,能够跟踪访问并识别数据中的模式至关重要,这样,当需要更新策略时,我们就处于领先地位。”
诺里斯(Norris)说,审核和分析就像跟踪JavaScript对象符号(JSON)文件一样简单。 并非每个数据都值得跟踪和分析,但是您的企业永远不会知道-直到您确定改变游戏规则的洞察力或发生危机并需要进行审计追踪。
“每个JSON日志文件都会打开进行分析,我们有Apache Drill可以使用模式查询JSON文件,因此设置元数据分析不是手动的IT步骤,” Norris说。 “当包含所有数据访问事件和每个管理操作时,将可能进行广泛的分析。”
5.统一数据架构
最终,负责监督企业数据治理策略的技术官员或IT管理员应考虑细化访问,身份验证,安全性,加密和审核的细节。 但是技术官员或IT管理员不应就此止步。 相反,该人还应该考虑这些组件中的每个组件如何馈入其较大的数据体系结构。 他(她)还应该考虑从基础数据的收集和存储到BI,分析和第三方服务的基础架构如何可扩展和安全。 Gnau表示,数据治理与技术本身一样,不仅是在重新考虑战略和执行。
格诺说: “这不仅是一pane玻璃,也不是一系列安全规则。” “这是一个单一的体系结构,您可以在其中创建这些角色,并且它们可以在整个平台和所带入的所有工具之间同步。受安全管理的基础架构的美在于创建新方法的敏捷性。在每个平台级别,甚至在在混合云环境中,您只有一个参考点即可了解如何执行规则。所有数据都通过安全性和治理这一层。”