商业 数据湖,解释

数据湖,解释

视频: Диакритические знаки во французском. Accent aigu, accent grave, accent circonflexe. Видеоурок 1. (十一月 2024)

视频: Диакритические знаки во французском. Accent aigu, accent grave, accent circonflexe. Видеоурок 1. (十一月 2024)
Anonim

大数据革命重新定义了企业的工作方式。 数据是一切的基础。 不仅Apache Hadoop和Spark等开源工具使大量数据更易于实时收集,处理和存储,而且商业智能(BI)和数据可视化工具已开始帮助我们从头开始分析。并转换该数据以指导核心业务决策。

尽管尽管大数据和BI技术已经发展了很多,但我们仍在处理如此大量的不断复合的数据,以至于找到合适的点进行分析仍然感觉像是在永无休止的大海捞针中跳水。 解决方案? 重新设计干草堆。

Enter数据湖,这是一种新型的基于云的企业架构,它以更具可扩展性的方式构造数据,使实验变得更加容易。 使它更易于探索和操作,而不是局限于僵化的模式和孤岛。 Forrester Research的企业架构研究员Nasry Angel解释了为什么企业采用数据湖架构。

Angel说:“这听起来有些陈词滥调,但是当您考虑一个有效的现代数据环境时,它就更具实验性。” “您需要能够快速学习和快速失败。过去,管理数据(尤其是在仓库中)完全是质量,一直到小数点以下;确保所有内容都是完全准确和真实的。这称为追踪单个数据版本,然后生成像素完美的报告,并将其爆炸给5, 000个用户。

“如今,这是一个更加科学的过程。您进入有关要测试的数据的假设,并且希望能够处理这些数据,进行混合和匹配,然后再尝试进行不同的尝试并生产出一些产品。 ”

数据湖中有什么?

数据湖是一个存储库。 但是,与数据仓库或“数据集市”不同,Angel解释说,数据湖分布在多个节点上,而不是在依赖于模式的数据仓库的固定,结构化环境中分布(请参见下面的信息图)。

“数据湖允许您在写入数据时应用模式,而数据仓库则要求您在读取时执行模式。因此,从本质上讲,数据仓库要求您在理解数据上下文之前先对数据进行建模,这并不能“真的没有道理,”安吉尔说。

来源: JustOne Database,Inc. (单击上面的图形以查看完整视图。)

他补充说:“通常,在仓库中,IT专业人员提出了他们认为是最佳数据模型的东西,而他们并不是数据的最终用户。您可以快速了解这如何影响生产力和业务价值。” 。 “最终,您和业务用户需要成为决策数据结构的人,并且,在数据湖中,您可以首先探索并找出其中的内容,然后找出可以对其进行最佳组织的方案。”

数据湖通常建立在Hadoop之上,Hortonworks和MapR等企业Hadoop发行版提供数据湖架构。 企业还可以使用包括Amazon Web Services(AWS)和Microsoft Azure的基础设施即服务(IaaS)云来构建数据湖。 亚马逊的弹性计算云(EC2)支持数据湖,而微软拥有专用的Azure数据湖平台来存储和分析实时数据。 Angel说,数据湖已经成熟到大数据空间中的地步,企业可以开始以合理的信心对其进行投资。

Angel说:“几年前,Hadoop风靡一时。现在,Hadoop已经商品化。” “问题不是不是Hadoop,而是何时,要使用什么。一旦将数据放到数据湖之类的普通地方,您将在Hadoop之上构建哪些类型的应用程序?在这一点上,它是关于使用数据来开发应用程序以满足您的特定业务需求。”

在数据存储库之上构建

大数据最令人兴奋的部分是它解锁的所有可能性。 一旦建立了一个数据湖,可以在其中玩耍并尝试不同的数据组合和业务成果,就可以开始将创新的分析技术放在顶层。

机器学习(ML)算法已经成为云基础架构的一部分,研究人员正在不断改进深度学习技术和神经网络,以训练机器和数据系统以识别复杂的模式。 预测分析也被应用到越来越多的数据工具和企业平台中,用于从客户关系管理(CRM)的预测评分和自动细分到识别金融市场趋势并抢先发现机械故障的一切。

所有这些都发生在您的企业根据其需求提供和扩展的任何数据存储之上。 Angel谈到了一些实际的用例,在这些用例中,他看到了数据湖改变了组织运作的方式。

“我曾与一家出版公司合作,出版公司的杂志种类繁多,分别有律师,出版物,会计师,顾问等。每个出版物都有自己的数据仓库。实际上,每个出版物都有自己的数据仓库。筒仓。”天使解释道。

“因此,我们从仓库中提取了所有数据,并将其放入一个数据湖中,然后该数据湖使他们能够看到各个孤岛。他们能够探索数据并进行数据发现,并意识到在所有这些不同的出版物中,每本杂志的客户都对网络安全感兴趣。在所有这些不同角色中,网络安全的读者都很广泛。他们做了什么?他们将网络安全作为年度会议的主题。”

Angel谈到的另一个例子是电子商务。 另一个客户,一家在线艺术品零售商,正在将大量信息倾销到数据湖中,不仅将其用作存储库,而且还用作将业务见解汇总在一起的画布。 零售商将交易数据(订单,发票,付款等),点击流数据(每个网站访问者的点击和页面继承)以及来自零售商数据仓库的数据全部带入湖中,并协同使用以打击购物车放弃和conversion依。

Angel表示:“您希望在数据湖的基础上构建并使用它来表达复杂的业务见解。” “艺术品零售商能够查看客户的点击流数据并将点击次数与客户资料进行匹配,然后使用交易数据来查看客户过去购买了什么,并利用这些见解来开展非常具体的电子邮件活动。因此,如果客户放弃了零售商会在两个小时后跟着他们的购物车跟进,说:“我们看到您正在检查这本毕加索;如果您想再次查看它,请点击这里。”

数据湖普遍适用于各种业务用例。 但是,对于考虑迁移到该架构的首席技术官(CTO)或首席信息安全官(CISO),Angel强调,数据仓库尚未过时,也没有任何延误。 对于大多数企业组织而言,无论您使用的是云提供商还是自定义的Hadoop发行版,企业都同时需要两者。

数据湖通过消除将数据与特定模式一致的限制,使您能够获得无与伦比的见解,并且由于使用了廉价,灵活的云存储(例如AWS)来进行扩展和缩减,因此总拥有成本要低得多支付您实际使用的处理能力。 运行数据仓库的成本更高,因此使IT专业人员对输入和输出哪些数据更具选择性。 但是对于企业最关键的数据而言,这并不是一件坏事。

Angel表示:“数据仓库在安全性方面具有优势,并且是控制数据治理的非常简单的工具。” “因此,您仍然希望将最敏感的信息(关键任务材料)保存在仓库中。但是,当涉及到新的业务机会并发现隐藏的见解时,您希望利用数据湖。”

数据湖,解释