机器学习很重要

原文： https://machinelearningmastery.com/machine-learning-that-matters/

阅读引导机器学习，路易斯提到了一篇我不得不去阅读的论文。该论文的标题是来自 JPL 的 Kiri Wagstaff 的机器学习（PDF），并于 2012 年出版。

机器学习很重要

Kiri 的论点是机器学习研究社区已经迷失了方向。她建议大部分机器学习都是为了机器学习而做的。她指出了三个关键问题：

过度关注基准数据：关注 UCI 存储库中的数据集，但很少有人在正在解决的域中产生影响。她指出缺乏实验可重复性的标准，这使得标准数据集的使用无效以及回归和分类问题的偏差。她评论说使用 UCI 存储库比使用合成 daa 更糟糕，因为我们甚至无法控制数据的创建方式。
过度关注抽象度量标准：强烈关注算法竞争或烘焙以及使用 RMSE 和 F-measure 等通用指标，这些指标在域中没有直接意义。
缺乏跟进：在 Weka 中下载数据集和运行算法非常简单。很难解释结果并将它们与域相关联，但这是产生影响所需要的。

问题的关键在于她将机器学习描述为三类活动，而“机器学习贡献”则侧重于算法选择和忽略问题定义和结果解释的实验。

心态的变化

Kiri 建议研究界需要改变其制定，攻击和评估机器学习研究项目的方式。她评论了三个要解决的问题：

有意义的评估方法：测量机器学习系统在域中的直接影响。例如，节省了美元，保留了生命，节省了时间或减少了工作量。选择直接影响测量将对实验设计和数据选择产生影响。
外部世界的参与：让域专家参与定义问题和数据，更重要的是使用它们来解释域中结果的重要性。这是为了停止解决意义不大的问题（虹膜植物分类），并开发出足够可靠和有用的系统，以便在实践中采用。
关注奖项：选择研究问题的影响。考虑问题域中的现状，并将结果描述为高于该现状的改进水平。吸引社区并激励采用。

Kiri 抛出了挑战并提出了 6 个问题作为研究项目的例子，其中机器学习可以产生影响：

她特意留下问题，以避免提出单一的问题或技术能力。真正的挑战很难。这些示例旨在激发而不是详尽无遗的优先级问题清单。

最后，Kiri 最后评论了可能阻碍有效解决重要研究问题的障碍。

我认为这是一篇很好的论文，可以激励年轻的研究从竞赛算法转向更有影响力的工作。它让我想起 O'reilly 对武器的呼唤“对重要事项的工作”。我会喜欢一些更具体的例子，可能不那么理想化，更像商业，如 IBM 的 Watson ， Siri 和大规模图像分类。

我也不禁感到有一些问题，初学者可以取得进步并获得直接的个人利益。就像分类他们自己的照片，组织他们的文件或在股票市场交易。