Skip to content

Latest commit

 

History

History
93 lines (48 loc) · 5.54 KB

crash-course-statistics-machine-learning.md

File metadata and controls

93 lines (48 loc) · 5.54 KB

机器学习中的统计学速成课

原文: https://machinelearningmastery.com/crash-course-statistics-machine-learning/

在开始学习和应用机器学习之前,您不需要了解统计量。你可以从今天开始。

然而,了解一些统计量对于理解机器学习中使用的语言非常有帮助。当您想要开始对结果做出强烈主张时,最终需要了解一些统计量。

在这篇文章中,您将从统计量中发现一些关键概念,这些概念将为您提供入门和在机器学习方面取得进步所需的信心。

crash course in statistics

机器学习统计学中的速成课 摄影: Rob Ireton ,保留一些权利。

统计推断

我们希望了解现实世界中的流程。

例如,点击添加或购买产品等人类行为。

他们并不容易理解。有复杂性和不确定性。该过程具有随机性的元素(它是随机的)。

我们通过观察和收集数据来理解这些过程。数据不是流程,它是流程的代理,它为我们提供了一些工作来理解流程。

我们用于观察和收集或采样数据的方法也会给数据带来不确定性。结合现实世界过程中固有的随机性,我们现在在数据中有两个随机源。

根据我们收集的数据,我们将其清理干净,创建模型并尝试说明现实世界中的过程。

例如,我们可以预测或描述过程中元素之间的关系。

这称为统计推断。我们从一个真实世界的随机过程开始,收集数据中的过程并对其进行建模,然后回到世界上的过程并对其进行说明。

统计人口

数据属于人口(N)。数据总体是可以进行的所有可能的观察。人口是抽象的,理想的。

当您进行观察或使用数据时,您正在使用总体样本(n)。

如果您正在处理预测问题,那么您正在寻求最好地利用 n 来表征 N,以便最大限度地减少您从其他系统遇到的预测中的错误。

您在选择和处理样品时必须小心。数据的大小和质量将影响您有效表征问题,做出预测或描述数据的能力。必须考虑甚至操纵,管理或纠正在收集期间引入的随机性(偏差)。

大数据

大数据的承诺是您不再需要担心采样数据,您可以使用所有数据。

你正在使用 N 而不是 n。这是虚假而危险的思维。

您仍在使用样本。你可以看到这是怎么回事。例如,如果您在 SaaS 业务中建模客户数据,那么您正在使用在建模之前找到并注册该服务的人口样本。这些警告会偏向您正在使用的数据。

您必须小心不要过分概括您的发现,对您观察到的数据之外的声明要谨慎。例如,twitter 的所有用户的趋势并不代表所有人的趋势。

在另一个方向,大数据允许您使用迄今为止在该实体上收集的所有数据为每个单独的实体(例如一个客户(n = 1))建模。这是一个强大,令人兴奋,计算要求苛刻的前沿。

统计模型

世界很复杂,我们需要用假设来简化它,以便理解它。

模型是现实世界中过程的简化。它总是错的,但它可能是有用的

统计模型描述了数据属性之间的关系,例如具有自变量的因变量。

您可以事先考虑您的数据,并提出一个描述数据之间关系的模型。

您还可以运行机器学习算法,假设某种特定形式的模型将描述关系并找到使模型适合数据的参数。这就是拟合,过拟合和欠拟合的概念来自于模型过于具体或不够具体而无法概括超出观察数据的能力。

与更复杂的模型相比,更简单的模型更易于理解和使用。因此,最好从问题的最简单模型开始,并根据需要增加复杂性。例如,在考虑非线性之前为模型假设线性形式,或者在非参数模型之前假设参数。

摘要

在这篇文章中,您在开始进行机器学习时需要了解统计中关键概念的简要速成课程。

具体而言,统计推断的概念,统计人口,大数据的想法如何适应,以及统计模型。

慢慢来,统计是一个很大的领域,你不需要知道这一切。

不要急于购买本科生的统计学教科书,至少目前还没有。这太快了,太快了。

如果您正在寻找更多信息,我建议您首先阅读机器学习书籍中有关统计量的介绍部分,例如:做数据科学的第 2 章:从前线直接谈话,来自哪篇文章受到了启发。

有关更多信息,请考虑查看一些链接的维基百科文章。

更进一步,可汗学院在统计和概率方面有一些伟大的模块