视频: Chapeuzinho Vermelho[Habbinfo] (十一月 2024)
每个企业都希望收集大量的商业智能(BI),而高管,市场营销人员以及组织中每个其他部门都可以获取尽可能多的数据。 但是一旦获得了这些数据,困难就不仅在于分析庞大的数据湖以找到您正在寻找的关键见解(而不会被庞大的信息量所淹没),而且还要保护所有这些数据。
因此,当您的企业IT部门和数据科学家在运行预测分析算法,数据可视化并在您收集的大数据上采用其他数据分析技术库时,您的企业需要确保没有泄漏或薄弱环节在水库里。
为此,云安全联盟(CSA)最近发布了《大数据安全和隐私手册:大数据安全和隐私的100个最佳实践》。 一长串的最佳实践遍布10个类别,因此我们将最佳实践缩减为10个技巧,以帮助您的IT部门锁定关键业务数据。 这些技巧采用了大量的数据存储,加密,治理,监视和安全技术。
1.保障分布式编程框架
分布式编程框架(例如Hadoop)构成了现代大数据发行版的重要组成部分,但它们存在严重的数据泄漏风险。 它们还带有所谓的“不受信任的映射器”或来自多个源的数据,这些数据可能会产生错误缠结的汇总结果。
CSA建议组织首先使用Kerberos身份验证之类的方法建立信任,同时确保符合预定义的安全策略。 然后,通过从数据中分离所有个人身份信息(PII)来“消除身份”数据,以确保不损害个人隐私。 在这里,您可以使用预定义的安全策略授权对文件的访问,然后使用强制性访问控制(MAC)(例如Apache HBase中的Sentry工具)确保不受信任的代码不会通过系统资源泄漏信息。 之后,最困难的部分结束了,剩下的要做的就是通过定期维护来防止数据泄漏。 IT部门应检查您的云或虚拟环境中的工作节点和映射器,并注意虚假节点和更改的数据重复项。
2.保护您的非关系数据
非关系数据库(例如NoSQL)很常见,但是它们容易受到NoSQL注入等攻击的攻击。 CSA列出了一系列针对此问题的对策。 首先对密码进行加密或哈希处理,并确保通过使用高级加密标准(AES),RSA和安全哈希算法2(SHA-256)等算法对静态数据进行加密来确保端到端加密。 传输层安全性(TLS)和安全套接字层(SSL)加密也很有用。
除了这些核心措施之外,再加上诸如数据标记和对象级安全性之类的层,您还可以使用所谓的可插入身份验证模块(PAM)保护非关系数据。 这是一种用于验证用户身份的灵活方法,同时确保使用NIST日志之类的工具记录事务。 最后,有一种所谓的模糊测试方法,该方法通过在协议,数据节点和分布的应用程序级别使用自动数据输入来揭示NoSQL和HTTP协议之间的跨站点脚本编写和注入漏洞。
3.安全的数据存储和事务日志
存储管理是大数据安全方程式的关键部分。 CSA建议使用签名的消息摘要为每个数字文件或文档提供一个数字标识符,并使用一种称为安全不可信数据存储库(SUNDR)的技术来检测恶意服务器代理对未授权文件的修改。
该手册还列出了许多其他技术,包括惰性撤销和密钥轮换,基于广播和基于策略的加密方案以及数字版权管理(DRM)。 但是,除了在现有基础架构之上构建自己的安全云存储外,别无选择。
4.端点过滤和验证
端点安全至关重要,您的组织可以使用移动设备管理(MDM)解决方案(位于防病毒和恶意软件保护软件之上),通过使用受信任的证书,进行资源测试以及仅将受信任的设备连接到网络来开始工作。 从那里,您可以使用统计相似性检测技术和异常检测技术来过滤恶意输入,同时防范Sybil攻击(即,一个伪装成多个身份的实体)和ID欺骗攻击。
5.实时合规性和安全监控
法规遵从始终是企业的头疼问题,当您要处理大量数据时,更是如此。 最好通过堆栈的每个级别的实时分析和安全性直接解决它。 CSA建议组织通过使用诸如Kerberos,安全外壳(SSH)和Internet协议安全性(IPsec)之类的工具来应用大数据分析,以处理实时数据。
完成此操作后,您可以挖掘日志事件,部署前端安全系统(例如路由器和应用程序级防火墙),并开始在云,群集和应用程序级别的整个堆栈中实施安全控制。 CSA还警告企业要警惕企图绕过大数据基础架构的规避攻击以及所谓的“数据中毒”攻击(即,伪造的数据会欺骗您的监视系统)。
6.保留数据隐私
在不断增长的数据集中维护数据隐私确实非常困难。 CSA表示,关键是通过实施诸如差异保密性(最大化查询准确性,同时将记录标识最小化)和同态加密(在存储和处理云中存储的加密信息)等技术中实现“可扩展和可组合”。 除此之外,不要紧随其后:CSA建议结合针对当前隐私法规的员工意识培训,并确保通过使用授权机制来维护软件基础结构。 最后,最佳实践鼓励实现所谓的“保留隐私的数据组合”,该功能通过检查和监视将数据库链接在一起的基础结构来控制多个数据库的数据泄漏。
7.大数据密码学
数学密码学并没有过时。 实际上,它已经变得更加先进。 通过构建搜索和过滤加密数据的系统(例如可搜索对称加密(SSE)协议),企业实际上可以对加密数据运行布尔查询。 安装之后,CSA建议使用多种加密技术。
关系加密使您可以比较加密的数据,而无需通过匹配标识符和属性值来共享加密密钥。 基于身份的加密(IBE)通过允许为给定的身份对明文进行加密,使公钥系统中的密钥管理更加容易。 基于属性的加密(ABE)可以将访问控制集成到加密方案中。 最后,还有融合加密,它使用加密密钥来帮助云提供商识别重复数据。
8.粒度访问控制
根据CSA,访问控制大约涉及两件事:限制用户访问和授予用户访问权限。 诀窍是建立和实施一种在任何给定方案中选择正确策略的策略。 为了设置精细的访问控制,CSA提供了许多快速提示:
规范化可变元素和规范化不可变元素,
跟踪保密要求并确保正确实施,
维护访问标签,
跟踪管理员数据,
使用单点登录(SSO),并
使用标签方案来维护正确的数据联合。
9.审核,审核,审核
在大数据安全中,特别是在系统受到攻击之后,必须进行粒度审核。 CSA建议组织在发生任何攻击后创建一个统一的审核视图,并确保提供完整的审核记录,同时确保可以轻松访问该数据以减少事件响应时间。
审计信息的完整性和机密性也至关重要。 审核信息应单独存储,并应通过精细的用户访问控制和定期监视加以保护。 确保将大数据和审核数据分开,并在设置审核时启用所有必需的日志记录(以便收集和处理最详细的信息)。 开源审计层或查询协调器工具(例如ElasticSearch)可以使所有这些操作变得更加容易。
10.数据来源
数据来源取决于您要求的人,可能意味着许多不同的事情。 但是CSA指的是大数据应用程序生成的出处元数据。 这是另一类需要大量保护的数据。 CSA建议首先开发一种控制访问的基础结构身份验证协议,同时设置定期状态更新并使用校验和之类的机制不断验证数据完整性。
最重要的是,其余CSA数据来源的最佳做法与我们的其他清单相呼应:实施动态和可扩展的粒度访问控制并实施加密方法。 确保整个组织以及基础架构和应用程序堆栈的每个级别的大数据安全性,没有任何秘密诀窍。 在处理如此庞大的数据批量时,只有详尽全面的IT安全方案和企业范围的用户认可才能为您的组织提供最佳的机会来确保最后的0和1保持安全。