家商业机器学习成功的7个技巧

机器学习成功的7个技巧

2024

视频: Обзор Xiaomi Mi 10 — недорого! (十一月 2024)

我们的《机器学习业务指南》（ML）的第一部分介绍了ML的总体概念在业务环境中的细微差别。最有效的策略从实用的角度看待ML，同时采用复杂的深度学习和强度较低的“廉价学习”技术来优化企业流程并获得切实的商业智能（BI）见解。

在业务应用程序中部署ML的目标是提高利润或提高公司的竞争优势。但是，在组织规模较大的方案中，充分利用您在此过程中投入的时间和资源远远超出了算法。您企业中的IT决策者需要确保将影响ML实现的所有因素（从数据和物流到您与用户的互动方式）紧密结合在一起，以最大化效率。

Ted Dunning博士是MapR（一家提供各种大数据分发和数据管理工具的企业软件公司）的首席应用程序架构师。邓宁还与他人合着了两本关于他所谓的“实用机器学习”的书，并为许多公司开发了机器学习技术，包括ID Analytics欺诈检测系统（由LifeLock购买）和Musicmatch Jukebox软件，后来成为Yahoo Music。他目前还担任Apache Software Foundation的孵化副总裁。

Dunning观察了ML空间数十年来的发展，并了解了在实际业务环境中有效的方法和无效的方法。下面，Dunning提出了七项最佳实践，以开发基于ML的业务解决方案。

1.不要忘记物流

成功的ML不仅仅是选择正确的工具或算法。邓宁说，您还需要弄清楚哪种方法合适，并针对您要解决的特定情况进行设计。例如，邓宁（Dunning）在在线营销活动中谈到了机器学习（ML），而不是诸如引导自动驾驶汽车的算法之类的更为复杂的场景。花费资源进行算法的增量改进对于汽车来说是值得的，但是在市场营销场景中，优化周围的所有物流将带来更好的回报。

“对企业而言，赋予您价值的通常是物流，而不是学习，这是您应该花费时间和资源的一部分，”邓宁说。 “调整算法会给您带来一点改进。但是调整数据，GUI以及您如何聆听和与用户互动，可以轻松地使您获得100％的改善。花时间调整算法的价值不菲，因为对企业而言，就像在聆听您的用户一样。”

为了说明这一点，Dunning解释了他曾经如何在公司的客户数据库中建立一个模型来识别应用程序欺诈（使用身份被盗开设假账户）。他建立的模型取得了不错的效果，但Dunning注意到它对申请者的性别影响很大。

原来，后勤工作已经结束。申请程序的工作方式是，申请人只有在已经成为客户并且通过了许多筛选步骤以筛选出欺诈者之后才填写性别。因此，通过使用性别字段，机器学习模型欺骗了整个欺诈过程的后勤工作。这与算法无关，而与公司最初获取数据的方式有关。

2.注意您的数据

催款充斥着引人入胜的智慧。他说，从“物流而不是学习”开始，另一半是“数据而不是算法”。确保您的机器学习算法提供有价值的见解的很大一部分是确保您向他们提供正确的数据。邓宁说，如果您没有得到想要的结果，那么更多的时候往往是因为您没有使用正确的数据。

Dunning表示：“人们开始陷入束手无策的境地，并自我束缚于特定的算法，但是如今，由于有了这些工具，每个人及其母亲都可以并且正在提出各种新算法。” “数据要重要得多，比无休止地调整算法要多得多。如果您正在研究语音识别或计算机视觉这样的难题，那是一回事。但这是一个数据驱动的领域。在大多数情况下，调整所要获取的数据并更改问题将使您受益匪浅。”

这就是Dunning在2000年代中期为一家名为Veoh Networks的公司构建视频推荐引擎时所做的事情。该小组正在努力确定用户点击产生的用户生成的视频对是否超出预期，但该算法无法正常工作。他们在音乐方面进行思考，用户可以通过名称了解自己喜欢的艺术家和歌曲。因此，他们通过调整用户界面而不接触算法本身来改变了问题。

Dunning说：“在用户生成的视频中，没有人知道艺术家，而且很多视频的标题都是垃圾邮件，这样才能获得更多观看次数。循环进行算法调整永远不会给我们带来很好的效果。” “我们所做的是更改了用户界面，每隔10秒钟发出一个信标信号。我们发现，如果使用信标而不是单击获取推荐者的原始数据，我们将获得令人赞叹的结果。这一变化的提升是几倍由于建议而使参与度提高了100％，没有算法上的改变。”

3.算法不是魔术子弹

机器学习的实现因不断的尝试和失败而蓬勃发展。无论您的算法有多好，如果您的系统与人进行交互，那么都需要随着时间的推移进行调整。 Dunning强调，企业应不断衡量其实施的总体有效性，并确定使它变得更好和更糟的更改和变量。这听起来似乎很陈词滥调，但是邓宁说，尽管听起来很明显，但很少有人做得很好。

Dunning表示：“很多人都希望部署系统或采取某些措施，并且希望自己的算法永远完美运行。” “没有算法将成为万灵药。没有用户界面设计将永远存在。没有数据收集方法将永远不会被取代。所有这些都会并且将会发生，并且企业需要保持警惕，对其进行评估，评估和重新评估。系统有效。”

4.使用多样化的工具集

有许多ML工具可用，您可以免费使用其中的许多工具。您已经在许多Apache Software Foundation（ASF）项目（包括Mahout，Singa和Spark）中获得了流行的开源框架库，例如Caffe，H20，Shogun，TensorFlow和Torch，以及ML库。然后是基于订阅的选项，包括Amazon Machine Learning，BigML和Microsoft Azure Machine Learning Studio。微软也有一个免费的认知工具包。

有无数可用资源。 Dunning与众多企业，数据科学家和ML实践者进行了交谈，并始终询问他们使用了多少种不同的框架和工具。邓宁说，大多数人平均而言说，他们至少使用5-7个工具，并且经常使用更多工具。

Dunning表示：“您不能被一种工具所束缚。您将不得不使用多种工具，因此，最好以一种不可知的方式来构建系统。” “任何试图说服您该工具是您唯一需要的工具的人都会向您出售商品清单。

Dunning继续说：“下周可能会发生某些事情，这会破坏苹果的购物车，而按照我们所看到的创新速度，这种情况至少还会持续五到十年。” “看一个廉价的学习示例，其中您可能正在重新使用现有的图像分类器来分析目录中的图片。这是通过计算机视觉进行的深度学习。但是有一些工具将它们打包在一起。您需要在不同工具之间进行测量，评估和调整，您的基础架构需要对此表示欢迎。”

5.尝试混合学习

邓宁说，您还可以将廉价的深度学习与混合在一起。例如，如果您采用现有的计算机视觉模型并重新构建决策的最顶层，则可以为全新的用例选择现有的框架。 Dunning指出了Kaggle比赛，参赛者正是这样做的。他们获取了一个数据集，并在上面编写了新算法，以帮助计算机将猫与狗区分开。

“对于ML算法而言，区分猫和狗是非常微妙的事情。考虑一下逻辑：猫耳朵尖，德国牧羊犬也是如此。狗没有斑点，除了达尔马提亚犬等，这很难识别。本身。”邓宁说。 “赢得比赛的人开发了一种能够以99％的精度完成此任务的系统。但是，第三名的人给我留下了深刻的印象。他不是从头开始构建，而是从另一个任务中采用了现有的图像识别程序，他给了它一些例子，很快，在区分猫和狗方面，准确率达到了98％。整个过程花了三个小时。

6.便宜并不意味着坏

尽管存在明显的含义，但邓宁表示廉价学习并不意味着学习不好。您在ML实施上花费的时间并不与其业务价值直接相关。他说，更重要的质量是确保过程可重复和可靠。如果企业能够在不投入过多资源的情况下实现这一目标，那就更好了。

邓宁说：“便宜并不意味着坏。如果它起作用，那么它就会起作用。如果它便宜且它能起作用，那就太好了。但是，您在构建它时所做的努力并没有定义价值。这是一笔总成本的谬论，” 。 “价值的定义是它如何改善业务。如果增加利润或降低成本或改善您的竞争状况，那是结果，而不是努力。”

7.不要称其为AI

邓宁强调，在谈论这些技术时，企业应使用精确的术语：机器学习，计算机视觉或深度学习。所有这些都倾向于归类为“人工智能”的统称，但对邓宁而言，人工智能的定义只是“尚不可用的东西”。

Dunning表示：“我所听到的关于AI的最好定义是，这是我们尚无法解释的东西。我们还没有弄清楚的东西。” “每当我们得到工作时，人们都会说'哦，那不是AI，而是软件。它只是一个规则引擎。这实际上只是物流的退化。” 在我们弄清楚某个东西之前，我们将其称为AI，然后，我们总是将其称为其他东西。在许多方面，AI最好被用作下一个边界的词，而在AI中，总会有一个下一个边界。我们要去的地方，而不是我们已经到达的地方。”