目录:
视频: Roberto Murolo - 'A Tazza 'e Caffè (十一月 2024)
谷歌现在已经在其Google BigQuery中增加了机器学习(ML)功能,这是该公司PB级(PB)规模的云数据库产品。 现在被称为BigQuery ML,新版本使您可以使用简单的结构化查询语言(SQL)语句来构建和部署用于预测分析的ML模型。
对于使用Google的数据科学家来说,这不仅是个好消息。 对于有兴趣提高其数据分析功能的业务运营商来说,这也很有好处,因为它为能够通过云实现这种复杂程度的少数供应商增加了一个更有效的竞争对手。 另外两个最知名的名称是Amazon的Relational Database Service和Microsoft的Azure SQL,您可以在我们最近的云数据库服务摘要中找到更多名称。
所有数据产品供应商和购买者的祸根始终是技能差距。 对于那些对ML和预测分析感兴趣的人尤其如此,因为这些学科通常需要新技术和查询语言的知识。
Google Cloud产品管理总监Sudhir Hasbe对PCMag表示:“每位数据科学家中,都有数百名处理数据的分析师,并且大多数人使用SQL。” 如果要使一支数据分析员队伍的力量摆脱太少和太劳累的数据科学家所造成的瓶颈,就必须有所作为。
Google对这个难题的解决之道简直是惊人的。 尽管ML是一个热门趋势,并且在世界各地的各种产品中都有出现,但它仍然是数据科学家的坚定领域。 许多供应商已经在简化技术方面取得了进展,但丑陋的事实是,您可以对其进行大量简化,而且对于99%以上的人口来说,仍然很难使用。 但是,我们需要能够使用它,因为ML可以做的更多,而且比一群超级聪明的人可以做得更快。
Google正在Google BigQuery内植入ML,以便它更靠近数据。 该应用程序将带来比传统ML模型更快的ML功能,部分原因是可以在源头执行数据分析。 BigQuery ML现在处于测试阶段,使分析人员(和数据科学家)可以运行预测性分析,例如预测销售并直接在存储数据的顶部创建客户群。 仅此一项就值得尊敬且值得关注。
但是,Google通过添加一项功能使数据分析人员走得更远,该功能使数据分析师能够使用简单的SQL语句来构建和部署ML模型。 目前,选项是用于预测分析的线性回归和逻辑回归模型,因为这是最常用的两个模型。
以下是Google提供的一个示例,以演示数据分析师将如何使用此功能:
Hasbe说,随着时间的推移,Google计划为此功能添加更多的ML选项。 他说:“我们需要听取客户的意见,要求他们添加哪些型号,以便我们首先提供最有用的型号。”
其他Google BigQuery升级
在ML之后的大量升级中,最重要的是集群功能,BigQuery地理信息系统(BigQuery GIS),新的Google Sheets数据连接器和新的Google Sheets数据连接器。
聚类也处于beta中,可在数据优化移动中创建聚簇表,该移动将具有相似聚类键的行聚集在一起。 这可以降低成本,因为它可以提高性能,并使Google BigQuery可以仅向用户收取扫描数据的费用,而不是整个表或分区的费用。
BigQuery GIS当前处于Alpha状态,用于地理空间数据分析。 在Google Cloud团队与Google Earth Engine合作构建BigQuery GIS的同时,您必须将自己的地理空间数据带到表中。 在包括互联汽车系统,物联网(IoT),制造,零售,智能城市和远程信息处理在内的多个行业中,这并不是一个问题。 当然,更不用说政府机构了,从环境保护局(EPA)和国家地理空间情报局到国家海洋与大气管理局(NOAA)以及所有军事部门。
BigQuery GIS使用S2库,该库现在通过各种产品(例如Google Earth Engine和Google Maps)拥有超过十亿用户。 如果您需要更多的地理空间数据,则联邦政府会在GeoPlatform上共享大量的地理空间数据。
一个新的Google表格数据连接器很可能会使许多数据分析师满意,这仅仅是因为它对于日常使用是如此实用。 您可以从Google表格(电子表格程序)访问Google BigQuery,并使用Google表格工具(例如Explorer),该工具是协作,数据可视化和自然语言查询工具的组合。
Google BigQuery现在在Beta中也有一个新的用户界面(UI)。 更有趣的元素之一是Google Data Studio支持的一键式可视化功能。 总而言之,这是对本来已经很优雅的服务的一大轮升级。 在解决了这些错误之后,这些升级将在下一轮PCMag的数据库即服务(DBaaS)解决方案审查中进行测试,并且这些产品已经超越了各自的alpha和beta状态。
PCMag EIC Dan Costa讨论数据的未来: