原文: https://machinelearningmastery.com/statistical-methods-in-an-applied-machine-learning-project/
统计和机器学习是两个非常密切相关的领域。
事实上,两者之间的界限有时可能非常模糊。然而,有些方法明显属于统计领域,这些方法不仅有用,而且在开展机器学习项目时非常宝贵。
可以公平地说,需要统计方法来有效地完成机器学习预测性建模项目。
在这篇文章中,您将发现在预测性建模问题的关键步骤中有用且必需的统计方法的具体示例。
完成这篇文章后,你会知道:
- 探索性数据分析,数据汇总和数据可视化可用于帮助构建预测性建模问题并更好地理解数据。
- 这些统计方法可用于清理和准备准备建模的数据。
- 统计假设检验和估计统计可以帮助进行模型选择,并提供最终模型的技能和预测。
让我们开始吧。
10 应用机器学习项目中使用统计方法的示例 chenutis 的照片,保留一些权利。
在这篇文章中,我们将看一下在应用机器学习项目中使用统计方法的 10 个例子。
这将证明统计学的工作知识对于成功完成预测性建模问题至关重要。
- 问题框架
- 数据理解
- 数据清理
- 数据选择
- 数据准备
- 模型评估
- 型号配置
- 型号选择
- 模特演示
- 模型预测
也许预测模型问题中最大的杠杆点是问题的框架。
这是问题类型的选择,例如回归或分类,也许还有问题的输入和输出的结构和类型。
问题的框架并不总是显而易见的。对于域的新手,可能需要对域中的观察进行重要的探索。
对于可能无法从传统角度看待问题的领域专家,他们也可以从多角度考虑数据中受益。
在框架问题期间有助于探索数据的统计方法包括:
- 探索性数据分析。摘要和可视化,以便探索数据的临时视图。
- 数据挖掘。自动发现数据中的结构化关系和模式。
数据理解意味着密切掌握变量的分布和变量之间的关系。
其中一些知识可能来自领域专业知识,或需要领域专业知识才能解释。尽管如此,研究领域的专家和新手都将从实际处理领域的实际观察中受益。
统计方法的两个大分支用于帮助理解数据;他们是:
- 摘要统计。用于使用统计量总结变量之间的分布和关系的方法。
- 数据可视化。用于使用可视化(如图表,图表和图形)汇总变量之间的分布和关系的方法。
来自域的观察通常不是原始的。
虽然数据是数字的,但它可能会受到可能损害数据保真度的过程,以及使用数据的任何下游过程或模型。
一些例子包括:
- 数据损坏。
- 数据错误。
- 数据丢失。
识别和修复数据问题的过程称为数据清理
统计方法用于数据清理;例如:
- 异常值检测。用于识别远离分布中的预期值的观察的方法。
- 估算。修复或填写观察中腐败或缺失值的方法。
在建模时,并非所有观察结果或所有变量都可能相关。
将数据范围缩小到对预测最有用的元素的过程称为数据选择。
用于数据选择的两种统计方法包括:
- 数据样本。从较大数据集系统地创建较小代表性样本的方法。
- 特征选择。自动识别与结果变量最相关的变量的方法。
数据通常不能直接用于建模。
为了改变数据的形状或结构,使其更适合于选择的问题框架或学习算法,通常需要进行一些转换。
使用统计方法进行数据准备。一些常见的例子包括:
- 缩放。标准化和规范化等方法。
- 编码。整数编码和单热编码等方法。
- 转换。诸如 Box-Cox 方法之类的功率变换等方法。
预测性建模问题的关键部分是评估学习方法。
这通常需要在对模型训练期间未见的数据做出预测时估计模型的技能。
通常,这种训练和评估预测模型的过程的规划称为实验设计。这是统计方法的整个子领域。
- 实验设计。设计系统实验以比较自变量对结果的影响的方法,例如机器学习算法对预测准确率的选择。
作为实现实验设计的一部分,使用方法对数据集进行重采样,以便经济地使用可用数据,以便估计模型的技能。这两个代表了统计方法的一个子领域。
- 重采样方法。用于系统地将数据集拆分成子集以用于训练和评估预测模型的方法。
给定的机器学习算法通常具有一套超参数,其允许针对特定问题定制学习方法。
超参数的配置本质上通常是经验性的,而不是分析性的,需要大量实验来评估不同超参数值对模型技能的影响。
不同超参数配置之间的结果的解释和比较是使用两个统计子域之一进行的,即:
- 统计假设检验。在假设或期望结果的情况下量化观察结果的可能性的方法(使用临界值和 p 值表示)。
- 估算统计。使用置信区间量化结果不确定性的方法。
许多机器学习算法中的一个可能适合于给定的预测性建模问题。
选择一种方法作为解决方案的过程称为模型选择。
这可能涉及项目中的利益相关者的一套标准,以及对针对该问题评估的方法的估计技能的仔细解释。
与模型配置一样,可以使用两类统计方法来解释不同模型的估计技能,以用于模型选择。他们是:
- 统计假设检验。在假设或期望结果的情况下量化观察结果的可能性的方法(使用临界值和 p 值表示)。 估算统计。使用置信区间量化结果不确定性的方法。
一旦最终模型经过训练,就可以在使用或部署之前将其呈现给利益相关者,以对实际数据进行实际预测。
呈现最终模型的一部分涉及呈现模型的估计技能。
来自估计统计领域的方法可用于通过使用容差区间和置信区间来量化机器学习模型的估计技能的不确定性。
- 估算统计。通过置信区间量化模型技能不确定性的方法。
最后,现在是时候开始使用最终模型来预测我们不知道真实结果的新数据。
作为预测的一部分,量化预测的置信度非常重要。
就像模型呈现过程一样,我们可以使用估计统计领域的方法来量化这种不确定性,例如置信区间和预测区间。
- 估算统计。通过预测间隔量化预测的不确定性的方法。
在本教程中,您发现了统计方法在整个预测性建模项目过程中的重要性。
具体来说,你学到了:
- 探索性数据分析,数据汇总和数据可视化可用于帮助构建预测性建模问题并更好地理解数据。
- 这些统计方法可用于清理和准备准备建模的数据。
- 统计假设检验和估计统计可以帮助进行模型选择,并提供最终模型的技能和预测。
你有任何问题吗? 在下面的评论中提出您的问题,我会尽力回答。