目录:
视频: ä¸è¦å²ç¬æåçæ§ (十一月 2024)
数据和商业智能(BI)是同一事物的两个方面。 存储,处理和分析方面的进步已使数据民主化,以至于您无需成为数据库专家或数据科学家即可使用海量数据集并获得见解。 仍然存在学习曲线,但是自助式BI和数据可视化工具正在重新定义企业利用其收集的所有数据进行可行分析的方式。 但是,BI或数据库公司使用高级分析方法与专门为训练机器学习(ML)和深度学习模型而构建的人工智能(AI)数据库之间存在差异。
机器学习算法已融入当今许多软件的结构中。 消费者体验通过虚拟助手与AI融合在一起,在商业软件中,有诸如Salesforce Einstein之类的示例充当了公司整个客户关系管理(CRM)产品组合之下的智能层。 包括Google和Microsoft在内的技术巨头正在进一步推动我们的智能未来,这不仅是通过研究,而且是通过重新编写其技术如何通过AI来实现的。
训练机器和深度学习模型的挑战之一是训练神经网络所需的庞大数据量和处理能力,例如,在图像分类或自然语言处理(NLP)等领域的复杂模式识别方面。 因此,人工智能数据库开始在市场上弹出,作为优化企业AI学习和培训过程的一种方式。 我们与GPU加速的关系数据库提供商Kinetica进行了交谈,后者建立了自己的AI数据库,并与PCMag的常驻BI和数据库专家Pam Baker进行了比较,以揭开AI数据库与传统数据库相比的神秘性。 更重要的是,我们要求他们提供帮助,以理清炒作并进行市场推广,以确定这种新兴技术是否具有真正的商业价值。
什么是AI数据库?
AI空间的快速变化的性质可能使建立术语变得困难。 实际上,您经常听到诸如ML,深度学习和AI之类的术语互换使用,而实际上它们仍是在更大的AI框架下仍在发展的技术。 因此,贝克说,关于AI数据库的定义取决于您与谁交谈,有两种截然不同的定义:一种是实用的,另一种是空中的。
“业内存在一种松散的共识,那就是AI数据库将完全依靠自然语言查询工作。用户界面将使您不必依赖搜索词和关键短语来查找您需要的信息,使用户可以使用NLP调用数据集。”贝克说。 “您可能会提出一个非常有限的论据,即IBM Watson可以对系统进行自然语言查询,但是您必须已经连接到数据并自己选择数据。因此,现在,这个定义很繁琐。”
更实际的定义以及该解释器的主题实质上是使用专用数据库来加速ML模型训练。 随着供应商推出更多需要大量计算能力的基于AI的功能,许多技术公司已经在开发专用的AI芯片以减轻新硬件产品中的沉重处理负担。 在数据方面,使用AI数据库可以帮助您更好地应对与训练ML和深度学习模型相关的容量,速度以及复杂的数据治理和管理难题,从而节省时间并优化资源。
图片提供:Futurism.com的Todd Jaquith。 单击以展开完整的信息图
贝克解释说:“目前,人们已经通过多种不同的策略来加快机器学习的训练速度。” “一种方法是将基础结构与进行编码的AI研究人员分开,以便自动化功能处理基础结构并训练ML模型。因此,您可能要花30天或30分钟的时间,而不是花三个月的时间。 ”
Kinetica将该想法分解为针对ML和深度学习建模进行了优化的集成数据库平台。 AI数据库在内存数据库中结合了数据仓库,高级分析和可视化功能。 Kinetica高级技术小组副总裁兼首席软件工程师Mate Radalj解释说,一个AI数据库应该能够在几毫秒内同时摄取,探索,分析和可视化快速移动的复杂数据。 目标是降低成本,产生新收入并集成ML模型,以便企业可以制定更有效的,数据驱动的决策。
“ AI数据库是通用数据库的子集,” Radalj说。 “目前,人工智能数据库非常流行。但是许多解决方案使用分布式组件。Spark,MapReduce和HDFS总是来回旋转而不是在内存中旋转。它们没有像我们的数据库这样的因素的融合。它是在一个平台上完全集成了紧密集成的CPU和GPU的基础上构建的,对我们而言,高层次的好处是配置速度更快,基于模型的培训所需的硬件资源更少,并且在同一平台上集成了快速周转和分析功能。 ”
AI数据库的工作方式
在实践中有许多AI数据库的示例。 Microsoft Batch AI提供了基于云的基础结构,用于训练在Microsoft Azure GPU上运行的深度学习和ML模型。 该公司还拥有Azure Data Lake产品,使企业和数据科学家可以更轻松地处理和分析分布式体系结构中的数据。
另一个示例是Google的AutoML方法,该方法从根本上重新设计了ML模型的训练方式。 Google AutoML使ML模型设计自动化,从而根据特定的数据集生成新的神经网络架构,然后对那数千次进行测试和迭代以编写更好的系统。 实际上,Google的AI现在可以创建比人类研究人员更好的模型。
贝克说:“看看Google AutoML:用ML编写ML代码,这样您就不需要人了。” “这使您了解了供应商正在做的事情有什么极端差异。有些人试图将高级分析作为ML传递出去,而事实并非如此。另一些人则以超出大多数人的高级水平进行ML。企业现在可以理解。”
然后是Kinetica。 这家位于旧金山的初创公司已经筹集了6300万美元的风险投资(VC)资金,提供了针对快速数据提取和分析而优化的高性能SQL数据库。 Radinej将Kinetica称为大规模并行处理(MPP)分布式数据库和计算平台,其中每个节点都具有共同定位的内存数据,CPU和GPU。
Radalj解释说,使AI数据库与传统数据库不同的原因归结为三个核心要素:
- 加快数据提取,
- 内存中数据的共处(跨数据库节点的并行处理),以及
- 数据科学家,软件工程师和数据库管理员的通用平台,可以更快地迭代和测试模型,并将结果直接应用于分析。
对于所有阅读此书的非数据库和AI模型培训专家,Radalj分解了这三个核心要素中的每一个,并解释了AI数据库如何与有形业务价值联系在一起。 他说,数据可用性和数据摄取是关键,因为处理实时流数据的能力使企业能够对AI驱动的见解采取快速行动。
Radalj说:“我们有一个零售客户希望每隔五分钟就按商店跟踪销售价格。” “我们希望使用AI根据历史数据的最后几个小时来预测它们是否应该补充库存并优化该流程。但是要进行机器驱动的库存补充,则需要每秒支持600-1200个查询。我们“这是一个SQL数据库和一个AI数据库,因此我们可以按这样的速度提取数据。我们实现了这一业务使命,因此产生了可带来更大投资回报率的应用程序。”
Baker同意ML需要大量数据,因此对于AI数据库而言,快速摄取它非常重要。 第二个因素,即“内存数据的共存性”的概念需要更多解释。 内存数据库将数据存储在主内存中,而不是在单独的磁盘存储中。 这样可以更快地处理查询,尤其是在分析和BI数据库中。 通过共同定位,Radalj解释说Kinetica不会将CPU和GPU计算节点与存储节点分开。
结果,AI数据库支持并行处理(模仿人脑处理多种刺激的能力),同时还保持分布在可伸缩数据库基础结构中。 这可以防止由于Radalj所谓的“数据传送”或在不同数据库组件之间来回发送数据而导致的较大硬件占用空间。
Radalj说:“某些解决方案使用IBM Symphony之类的协调器来调度各个组件之间的工作,而Kinetica则强调针对同一位置资源的功能交付,并进行高级优化以最大程度地减少数据交付。 “这种局域性使其具有出色的性能和吞吐量,尤其是对于大型数据集的高度并发的繁重查询。”
在实际的数据库硬件方面,Kinetica与Nvidia合作,后者拥有不断扩大的AI GPU阵容,并正在与Intel合作探索机遇。 Radalj还表示,该公司将密切关注新兴的AI硬件和基于云的基础架构,例如Google的Tensor处理单元(TPU)。
最后,有一个统一的模型训练过程的想法。 仅当更快的摄取和处理带来的好处为公司的ML和深度学习工作满足更大的,面向业务的目标时,AI数据库才有效。 Radalj将Kinetica的AI数据库称为执行数据科学驱动的模型托管的“模型管道平台”。
所有这些都有助于更快的测试和迭代,以开发更准确的ML模型。 关于这一点,贝克表示,以统一的方式进行协作可以帮助所有致力于训练ML或深度学习模型的工程师和研究人员通过结合有效的方法来更快地迭代,而不是在训练过程中不断重复所有步骤。 Radalj说,目标是创建一个工作流,在该工作流中,更快的批处理摄取,流传输和查询生成可立即应用于BI的模型结果。
Radalj说:“数据科学家,软件工程师和数据库管理员拥有一个平台,可以清晰地描述数据科学本身,软件程序编写以及SQL数据模型和查询的工作。” “当它是一个通用平台时,人们可以在各个领域中更加紧密地合作。与运行ML和深度学习相比,目标更多的是,您希望将其结果(系数和变量)与分析结合使用,并将输出用于评分或预测有用的事情。”
炒作还是现实?
至少按照Kinetica定义的方式,AI数据库的底线价值在于优化计算和数据库资源。 反过来,这又使您可以创建更好的ML和深度学习模型,更快,更有效地进行训练,并保持一条通向AI如何应用于您的业务的路线。
Radalj举例说明了车队管理或货运公司。 在这种情况下,一个AI数据库可以处理来自车队的大量实时信息流。 然后,通过对地理空间数据进行建模并将其与分析相结合,数据库可以动态地对卡车进行重新布置路线并优化路线。
“更容易快速地进行配置,原型和测试。在人工智能中抛出了“建模”这个词,但这全都在于循环使用不同的方法(数据越多越好),一次又一次地运行它们,测试,比较和提出最好的模型。” Radalj说。 “神经网络之所以能够生存,是因为它拥有比以往任何时候都更多的数据。我们正在学习能够通过它进行计算。”
最终,Kinetica的位于同一地点的数据库和模型管道平台只是一个空间中的一种方法,根据您的要求,这可能意味着很多不同的事情。 贝克说,在一个仍在不断发展和试验性的市场中,买方面临的挑战是准确确定AI数据库供应商正在推销的产品。
贝克说:“作为一个业务概念,深度学习,机器学习以及所有这些都是牢固的概念。我们正在解决的技术问题是可以解决的,即使我们还没有解决它们。” “这并不是说这是一个成熟的空间,因为它绝对不是。我要说的是'买家当心',因为可能会或可能不会出现像ML这样的东西。它可能只是各种花园的高级分析。”
关于AI数据库现在是否大肆宣传,或者它们是否代表业务发展的重要趋势,Baker说,两者兼而有之。 她说,作为营销术语,大数据现在已不再受欢迎。 贝克说,高级的,数据驱动的分析与真正的机器学习和深度学习算法之间存在一些市场混淆。 无论您是在谈论用于ML建模的数据库,还是在谈论流行文化所构想的具有自我意识的AI,它都是以数据开头和结尾的。
贝克说:“数据将一直用于业务,直到时间结束;这才是开展业务的核心。” “当您谈论科幻小说时,人工智能是一种自我实现的智能。那就是当您开始谈论奇异性和机器人掌控整个世界时。无论那是否发生,我都不知道。我会离开斯蒂芬·霍金。”