原文: https://machinelearningmastery.com/machine-learning-that-matters/
阅读引导机器学习,路易斯提到了一篇我不得不去阅读的论文。该论文的标题是来自 JPL 的 Kiri Wagstaff 的机器学习(PDF),并于 2012 年出版。
机器学习很重要
Kiri 的论点是机器学习研究社区已经迷失了方向。她建议大部分机器学习都是为了机器学习而做的。她指出了三个关键问题:
- 过度关注基准数据:关注 UCI 存储库中的数据集,但很少有人在正在解决的域中产生影响。她指出缺乏实验可重复性的标准,这使得标准数据集的使用无效以及回归和分类问题的偏差。她评论说使用 UCI 存储库比使用合成 daa 更糟糕,因为我们甚至无法控制数据的创建方式。
- 过度关注抽象度量标准:强烈关注算法竞争或烘焙以及使用 RMSE 和 F-measure 等通用指标,这些指标在域中没有直接意义。
- 缺乏跟进:在 Weka 中下载数据集和运行算法非常简单。很难解释结果并将它们与域相关联,但这是产生影响所需要的。
问题的关键在于她将机器学习描述为三类活动,而“机器学习贡献”则侧重于算法选择和忽略问题定义和结果解释的实验。
Kiri 建议研究界需要改变其制定,攻击和评估机器学习研究项目的方式。她评论了三个要解决的问题:
- 有意义的评估方法:测量机器学习系统在域中的直接影响。例如,节省了美元,保留了生命,节省了时间或减少了工作量。选择直接影响测量将对实验设计和数据选择产生影响。
- 外部世界的参与:让域专家参与定义问题和数据,更重要的是使用它们来解释域中结果的重要性。这是为了停止解决意义不大的问题(虹膜植物分类),并开发出足够可靠和有用的系统,以便在实践中采用。
- 关注奖项:选择研究问题的影响。考虑问题域中的现状,并将结果描述为高于该现状的改进水平。吸引社区并激励采用。
Kiri 抛出了挑战并提出了 6 个问题作为研究项目的例子,其中机器学习可以产生影响:
- 法律通过或法律决定依赖于 ML 分析的结果。
- 通过改进 ML 系统提供的决策,节省了 1 亿美元。
- 国家之间的冲突通过 ML 系统提供的高质量翻译得以避免。
- 通过 ML 防御将网络安全入侵率降低 50%。
- 通过 ML 系统推荐的诊断或干预节省人的生命。
- 一个国家的人类发展指数(HDI)增加 10%,归因于 ML 系统。
她特意留下问题,以避免提出单一的问题或技术能力。真正的挑战很难。这些示例旨在激发而不是详尽无遗的优先级问题清单。
最后,Kiri 最后评论了可能阻碍有效解决重要研究问题的障碍。
- 术语:过度使用机器学习术语,这是该领域的一个有用的速记,但基本上是不可穿透的领域。针对更广泛的受众时,需要更通用的语言。
- 风险:当机器学习系统做出后果决定时,谁在犯错误时犯罪?谁维护系统前进? (我不禁觉得土木工程和安全关键制造业已经解决了类似的问题)
- 复杂性:机器学习方法仍然不是一成不变的,而博士仍然需要理解和使用这些方法。我们需要更好的工具。 (我认为商品化的机器学习正在快速发展)。
我认为这是一篇很好的论文,可以激励年轻的研究从竞赛算法转向更有影响力的工作。它让我想起 O'reilly 对武器的呼唤“对重要事项的工作”。我会喜欢一些更具体的例子,可能不那么理想化,更像商业,如 IBM 的 Watson , Siri 和大规模图像分类。
我也不禁感到有一些问题,初学者可以取得进步并获得直接的个人利益。就像分类他们自己的照片,组织他们的文件或在股票市场交易。