视频: å®è縣å¿å·¥å¤§æ人æé¶ç¬æ¨åé½å¥(çä»å¾å¿) (十一月 2024)
对于基础架构的运行效率或堆叠的所有大数据的存储量,企业没有任何意义。 重要的是数据产生的分析和情报的质量。
在过去的几年中,Hadoop成为了摄取,处理和转换数据的最同义词。 这个用于分布式数据存储和处理的开源框架催生了自己的企业空间,并将其方式集成到所有主要的云平台中。 Hadoop并不是唯一值得一提的大数据技术,但它已成为构建许多其他技术的基础。
对于企业而言,问题是Hadoop空间中充满了分发和工具选项,而且正如Gartner研究总监Nick Heudecker所解释的那样,其中许多看起来都是相同的。 Heudecker的研究涵盖了包括大数据和NoSQL空间在内的信息管理,他说,如果您正在寻找通用的数据处理选项,那么许多供应商都提供非常相似的功能。
打破市场
有3个主要的纯Hadoop初创企业-Cloudera,Hortonworks和MapR-它们在2015年都稳定增长。根据Gartner的说法,每个公司都有大约700个客户,付出或付出10%,使全球市场介于全球有2, 100-2, 400个Hadoop客户。 这三者均提供其Hadoop发行版的免费层和企业层,并且各自在Apache Software Foundation(ASF)旗帜下为项目做出了重大的开源贡献。
Heudecker表示:“我们的数据表明,目前有44%的Hadoop使用未付费。” “有一个明确的领导者吗?我不这么认为。他们都在抢占市场份额,因为这是一个非常新的领域。”
在过去的几个月中,这三者之间的竞争主要归结为数据分析功能和集成Apache Spark的创新方法的竞争,Apache Spark是一个开源大数据处理引擎,具有从实时数据流到机器学习的用例。 。 MapR最近宣布MapR Streams作为“融合数据平台”的一部分,该平台集成了Hadoop,基于Spark的流处理和分析。 Hortonworks通过内存Spark分析推出了Hortonworks Data Platform(HDP)更新,Cloudera通过其One Platform Initiative提供了多种开源Spark集成,并提供了Spark培训课程。
Heudecker解释说:“信息管理和信息基础架构领域发生了很多事情,而且并非全部是Hadoop。” “ Spark的速度和以内存为中心的数据处理模型背后蕴藏着巨大的动力,尽管Spark的开发仍处于初期阶段。Spark将成为数据处理的另一种通用语言,就像今天的SQL一样,并且肯定显示出它有一定优势随着越来越多的公司对此进行投资。”
Heudecker还强调了云播放器在大数据中的重要性。 将Hadoop和其他大数据技术集成到其现有基础架构即服务(IaaS)产品中的技术巨头。
Amazon Web Services(AWS)将其Amazon Elastic MapReduce(EMR)服务用于基于云的Hadoop编排。 微软在其Azure云平台内提供了大量的大数据服务,并与Hortonworks合作提供了HDInsight服务,用于管理Apache Hadoop,Spark,HBase和Storm,以及基于SQL的Azure Data Lake和Azure Data Analytics。 IBM既有针对Hadoop的本地IBM开放平台产品,又有IBM BigInsights(可在其之上运行的分析包),以及Bluemix云中的托管Hadoop和Apache Spark-as-a-service。 该列表继续存在,企业在云中找到了更适用的用例。
Heudecker表示:“我们估计仅AWS就有5, 000个客户,因此是纯业务总和的客户群的两倍以上。” “迁移到云中的优势之一是您拥有了一个生态系统。您可以在任何IaaS产品上获得纯正的Hadoop发行版。MapR在您可以想到的所有云中都可以使用,除了IBM的云;对于Cloudera和Hortonworks,我们还没有看到在一个供应商和另一个供应商之间进行选择时,云可用性不会成为太大的因素。”
选择企业数据策略
对于中小型企业(SMB)和成长中的企业业务,在投资于数据处理和分析解决方案时,Heudecker表示,决定因素是哪个平台可以提供最高水平的服务。 根据Gartner的说法,企业面临的最大挑战是技能差距-确定在平台安装和部署后将由谁来管理平台。
“如果公司正在寻找数据平台合作伙伴,谁将帮助他们进行数据提取?谁将帮助他们构建分析应用程序?至于三个纯粹的Hadoop-er,评估标准往往围绕着管理工具和控制台,数据治理工具和性能的成熟度。”
选择Hadoop平台的另一个有趣的方面是缺乏忠诚度。 公司会每6-12个月重新评估其Hadoop平台一次,以查看数据处理组件是否仍然合适,因为空间变化的速度如何,大型企业差异化的程度也很小。 Heudecker表示,与他交谈的公司中有20%的公司在其数据中心或云中运行着多个Hadoop发行版,要么让不同的团队选择他们选择的平台,要么有意进行多元化发展,以避免陷入仅一个Hadoop发行版的困境。
Gartner研究副总裁兼专注于数字策略的杰出分析师Frank Buytendijk称这种类型的多元化平台产品为“信息是一种资产”。 就像没有资本,劳动力,材料以及物理或虚拟设施就无法开展业务一样,Buytendijk说,没有信息就无法开展业务。
“过去我们通常以三种流程来考察业务:主要流程是商品,次要流程是金钱,第三级流程是确保商品和金钱保持一致的信息。现在,在大多数企业中,情况正好相反主要流程是信息,从标识和配置到内容营销等,无论您是否称其为大数据都没有关系。”
“大数据”已过时
Buytendjik说,他并不将大数据视为企业的独立技术,而是将其视为整体数字战略中的一个主题或思维定势。
Buytendjik说:“我不相信拥有大数据战略。” “几乎没有没有数字组件的业务战略,因此我相信要有一种数字战略,其中各种技术都可以提供关键功能。这包括移动,社交,云,物联网,智能机器和大数据。”
Heudecker认为我们将开始越来越少地谈论“大数据”,因为现在仅仅是数据。 这是业务开展的方式。 海量数据和高速数据不再是令人生畏的。
Heudecker说:“大数据再次被信息和分析所包含。” “坦率地说,大数据类别没有区别。我们总是被问到大数据市场的规模,但这甚至意味着什么?大数据并不是真正的市场,而是一个概念。对于企业而言,将大数据视为与您之前所做的工作截然不同的独特和特殊之处是一个错误。此时,数据才是正常的。”