原文: https://machinelearningmastery.com/gentle-introduction-to-predictive-modeling/
当你是一个绝对的初学者时,它会非常混乱。令人沮丧的是。
当您第一次遇到它们时,即使是回想起来如此简单的想法也是陌生的。有一种全新的语言需要学习。
我最近收到了这个问题:
因此,如果我从花园采摘一朵花,那么使用虹膜练习作为一个例子我将如何使用该算法来预测它是什么?
这是一个很好的问题。
在这篇文章中,我想对预测性建模进行温和的介绍。
预测性建模基础知识 Steve Jurvetson 的照片,保留一些权利。
数据是有关您正在处理的问题的信息。
想象一下,我们想要从花的尺寸来识别花的种类。
数据由以厘米为单位的四个花测量值组成,这些是数据列。
每行数据都是已经测量过的花的一个例子,它是已知的物种。
我们要解决的问题是从样本数据中创建一个模型,该模型可以告诉我们花朵属于哪个物种。
虹膜花数据样本
上述问题称为监督学习。
监督学习算法的目标是获取具有已知关系的一些数据(实际花卉测量和花的种类)并创建这些关系的模型。
在这种情况下,输出是一个类别(花种),我们称这种类型的问题是分类问题。如果输出是一个数值,我们称之为回归问题。
该算法进行学习。该模型包含学习的关系。
模型本身可能是少数数字以及使用这些数字将输入(以厘米为单位的花测量)与输出(花的种类)相关联的方式。
在我们从样本数据中学习之后,我们希望保留模型。
根据训练数据和算法创建预测模型。
我们不需要热衷于训练数据,因为模型已经总结了其中包含的关系。
我们保持从数据中学习模型的原因是因为我们想用它来做出预测。
在这个例子中,我们通过测量不知道物种的特定花来使用该模型。
我们的模型将读取输入(新测量),用它的内部数字执行某种计算,并预测它恰好是哪种花。
预测可能并不完美,但如果您拥有良好的样本数据和从该数据中学习的稳健模型,那么它将非常准确。
使用该模型对新数据做出预测。
在这篇文章中,我们对预测性建模进行了非常温和的介绍。
我们研究的预测性建模的三个方面是:
- 样本数据:我们收集的数据描述了输入和输出之间已知关系的问题。
- 学习模型:我们在样本数据上使用的算法,用于创建我们以后可以反复使用的模型。
- 制作预测:将我们学习的模型用于我们不知道输出的新数据。
我们使用基于花卉测量来分类植物物种的实例。
这实际上是机器学习中着名的例子,因为它是一个很好的干净数据集,问题很容易理解。
花一点时间,真正了解这些概念。
它们是您在机器学习中可能做的任何思考或工作的基础。
您的行动步骤是考虑三个方面(数据,模型,预测)并将它们与您想要处理的问题联系起来。
如有任何问题,请在评论中提问。我在这里帮忙。