Skip to content

Latest commit

 

History

History
224 lines (126 loc) · 9.7 KB

think-machine-learning.md

File metadata and controls

224 lines (126 loc) · 9.7 KB

如何思考机器学习

原文: https://machinelearningmastery.com/think-machine-learning/

机器学习是一个庞大的跨学科研究领域。

通过机器学习,您可以获得令人印象深刻的结果,并找到解决非常具有挑但这只是更广泛的机器学习领域的一个小角落,通常称为预测性建模或预测分析。

在这篇文章中,您将了解如何改变您对机器学习的看法,以便最好地为您作为机器学习从业者。

阅读这篇文章后,你会知道:

  • 机器学习是什么以及它与人工智能和统计量的关系。
  • 你应该关注的机器学习的角落。
  • 如何考虑您的问题和机器学习解决方案的问题。

让我们开始吧。

How to Think About Machine Learning

如何看待机器学习 摄影: Rajarshi MITRA ,保留一些权利。

概观

这篇文章分为 3 部分;他们是:

  1. 你很困惑
  2. 什么是机器学习?
  3. 你的机器学习

你很困惑

你有一个机器学习问题要解决,但你对机器学习究竟是什么感到困惑。

有充分的理由感到困惑。这对初学者来说很困惑。

机器学习是一个很大的研究领域,如果你专注于解决问题,并不是所有这些都与你有关。

在这篇文章中,我希望能为你解决问题。

我们将从最广泛的术语描述机器学习开始,以及它与统计和人工智能等其他研究领域的关系。

之后,我们将放大您真正需要了解的实际工程和解决问题的机器学习方面。

什么是机器学习?

机器学习是计算机科学领域,涉及学习的程序。

机器学习领域涉及如何构建自动改进经验的计算机程序的问题。

这是超级广泛的。

有许多类型的学习,许多类型的反馈可供学习,以及许多可以学习的东西。

这可以涵盖不同类型的学习,例如:

  • 开发代码以研究生物种群在进化时间如何“学习”以适应其环境。
  • 开发代码以研究大脑中的一个神经元如何“学习”以响应来自其他神经元的刺激。
  • 开发代码来研究蚂蚁如何“学习”从家到食物源的最佳路径。

我故意提供这些深奥的例子,以帮助你真正确定机器学习是一个广泛而深远的研究计划。

您可能更熟悉的另一个案例是:

  • 开发代码以研究如何“学习”历史数据中的模式。

这不那么迷人,但它是机器学习的一个小角落的基础,我们作为从业者非常感兴趣。

这个角落与其他例子没有区别;在学习方法,基本任务,评估学习方法等方面可能存在很多重叠。

人工智能怎么样?

机器学习是人工智能的一个子领域。

它与机器学习重叠。

人工智能也是计算机科学的一个领域,但它关注的是开发智能或可以做智能事物的程序。

智力涉及学习,例如机器学习,但可能涉及其他问题,如推理,计划,记忆等等。

这可以涵盖各种类型的学习,例如:

  • 开发代码以研究如何优化物流计划。
  • 开发代码以研究如何推理一段文本。
  • 开发代码以研究如何感知照片的内容。

人工智能通常在环境中的代理环境中构建,旨在解决某些问题,但事实并非如此。

机器学习可以很容易地被命名为人工学习,以与人工智能保持一致并帮助初学者。

线条模糊。机器学习问题也是人工智能问题。

统计怎么样?

统计量或计算机应用统计量是数学的一个子领域,涉及描述和理解数据中的关系。

This could encompass diverse types of learning such as:

  • 开发模型以总结变量的分布。
  • 开发模型以最好地表征两个变量之间的关系。
  • 开发模型以测试两组观察结果之间的相似性。

它还与对学习数据模式感兴趣的机器学习的角落重叠。

用于理解统计中的数据的许多方法可以用于机器学习以学习数据中的模式。这些任务可称为机器学习或应用统计。

你的机器学习

机器学习是一个很大的研究领域,它可以帮助您解决具体问题。

但是你不需要知道所有这些。

  • 你不是一个学术研究机器学习中深奥的学习类型。
  • 你不是要像人工智能一样创造智能代理。
  • 您不想了解更多关于变量在数据中如何与统计量相关的原因。

实际上,在学习数据关系方面:

  • 您没有调查算法的功能。
  • 你没有开发出全新的理论或算法。
  • 您没有将现有的机器学习算法扩展到新案例。

这些可能是我们可能感兴趣的机器学习的角落里的活动,但是学术界的活动,而不是像你这样的从业者。

那么你需要关注机器学习的哪些部分?

我认为有两种方法可以考虑机器学习:

  1. 就你要解决的问题而言。
  2. 就您需要的解决方案而言。

你的机器学习问题

您的问题最好描述如下:

找到一个模型或程序,充分利用由输入和输出组成的历史数据,以便在将来给出新的和看不见的输入时巧妙地预测输出。

这是超级具体的。

首先,它抛弃机器学习的整个子领域,例如无监督学习,专注于一种称为监督学习的学习以及适合该斗的所有算法。

这并不意味着您无法利用无监督的方法;它只是意味着你不要把注意力集中在那里,至少不要开始。

其次,它为您提供了一个明确的目标,支配所有其他目标:这是模型技能而牺牲了其他问题,如模型复杂性,模型可解释性等。

同样,这并不意味着这些并不重要,只是在模型技能之后或与模型技能相结合时考虑它们。

第三,以这种方式构建问题非常适合另一个称为预测性建模的研究领域。这是一个研究领域,它借鉴了机器学习的方法,目的是开发出能够进行技巧预测的模型。

在某些业务领域,该领域也可称为预测分析,并且不仅包括建模组件,还包括收集和准备数据以及部署和维护模型的相关活动。

最近,这项活动也可称为数据科学,尽管该短语除了将其用于解决方案外,还具有发明或发现问题的内涵。

我认为你称之为活动并不重要。但我认为重要的是要深刻理解您对机器学习的兴趣和使用是非常具体的,并且与学术界的其他用途不同。

它允许您过滤您阅读的材料和您选择的工具,以便专注于您尝试解决的问题。

您的机器学习解决方案

您需要的解决方案最好描述如下:

一种模型或程序,可自动创建历史数据中输入和相关输出之间未知基础关系的最可能近似值。

同样,这是超级具体的。

您需要一个自动方法来生成可用于做出预测的程序或模型。

你不能坐下来编写代码来解决你的问题。它完全是针对特定数据的,并且您拥有大量数据。

实际上,这种类型的问题抵制了自上而下的手工编码解决方案。如果你可以坐下来写一些 if 语句来解决你的问题,你就不需要机器学习解决方案了。这将是一个编程问题。

您需要的机器学习方法类型将学习历史数据中输入和输出之间的关系。

这种框架允许您考虑真实的基础但未知的映射函数可能是什么样的,以及历史数据的噪声,损坏和采样如何影响不同建模方法对此映射的近似。

没有这个框架,你会想到这样的事情:

  • 为什么不只有一个超级算法或一组参数。
  • 为什么专家不能只告诉你使用什么算法。
  • 为什么您无法通过模型中的预测实现零错误率。

它可以帮助您查看您尝试解决的预测性建模问题的不明确性质,并设定合理的期望。

下一步

既然您已经知道如何考虑机器学习,那么下一步就是改变您对机器学习解决方案解决问题的过程的思考方式。

有关提示,请参阅帖子:

进一步阅读

如果您希望深入了解,本节将提供有关该主题的更多资源。

帖子

用品

摘要

在这篇文章中,您发现了如何改变您对机器学习的看法,以便最好地为您提供机器学习从业者。

具体来说,你学到了:

  • 机器学习是什么以及它与人工智能和统计量的关系。
  • 你应该关注的机器学习的角落。
  • 如何考虑您的问题和机器学习解决方案的问题。

你有任何问题吗? 在下面的评论中提出您的问题,我会尽力回答。