二项试验(binomial experiment):满足以下条件的试验:
- (a)一次试验只有两种可能的结果(“成功”和“失败”);
- (b)试验可以在同样的条件下重复进行;
- (c)可以用计数来表示成功或失败的次数;
- (d)各次试验中成功的概率
$$p$$ 相同,失败的概率$$q$$ 也相同,且$$p+q=1$$ - (e)各次试验的结果相互独立。
二项分布(binomial distribution):重复进行
概率密度函数(probability density function):如果函数
- 正态分布(normal distribution):如果随机变量
$$X$$ 的概率密度函数为$$f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$$ ,则称$$X$$ 服从正态分布。记作:$$X\sim N(\mu, \sigma^2)$$ - 标准正态分布(standard normal distribution):如果随机变量X的概率密度函数为
$$\varphi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}$$ ,则称$$X$$ 服从标准正态分布。记作:$$X\sim N(0, 1^2)$$ - 标准分数(standard score,Z-score):服从正态分布的
$$X$$ 变量用$$Z=\frac{X-\mu}{\sigma}$$ 或$$Z=\frac{X-\overline{X}}{S}$$ 进行 转换得到的 Z 值。 - T分数(T-score):将 Z 分数进行线性转换所获得的分数,转换公式为
$$T=KZ+C$$ 。
补充
深藍色區域是距平均值小於一個標準差之內的數值範圍。在正态分布中,此範圍所佔比率為全部數值之68%,根據正态分布,兩個標準差之內的比率合起來為95%;三個標準差之內的比率合起來為99%。
在實際應用上,常考慮一組數據具有近似於正态分布的概率分布。若其假設正確,則約68.3%數值分布在距離平均值有 1 個標準差之內的範圍,約95.4%數值分布在距離平均值有 2 個標準差之內的範圍,以及約99.7%數值分布在距離平均值有3個標準差之內的範圍。稱為「68-95-99.7法則」或「經驗法則」。$$^{[3]}$$
標準差值 | 機率 | 包含之外比例 | |
---|---|---|---|
百分比 | 百分比 | 比例 | |
0.318639σ | 25% | 75% | 3 / 4 |
0.674490σ | 50% | 50% | 1 / 2 |
0.994458σ | 68% | 32% | 1 / 3.125 |
1σ | 68.2689492% | 31.7310508% | 1 / 3.1514872 |
1.281552σ | 80% | 20% | 1 / 5 |
1.644854σ | 90% | 10% | 1 / 10 |
1.959964σ | 95% | 5% | 1 / 20 |
2σ | 95.4499736% | 4.5500264% | 1 / 21.977895 |
2.575829σ | 99% | 1% | 1 / 100 |
3σ | 99.7300204% | 0.2699796% | 1 / 370.398 |
3.290527σ | 99.9% | 0.1% | 1 / 1000 |
3.890592σ | 99.99% | 0.01% | 1 / 10000 |
4σ | 99.993666% | 0.006334% | 1 / 15787 |
4.417173σ | 99.999% | 0.001% | 1 / 100000 |
4.5σ | 99.9993204653751% | 0.0006795346249% | 1 / 147159.5358 3.4 / 1000000 (每一邊) |
4.891638σ | 99.9999% | 0.0001% | 1 / 1000000 |
5σ | 99.9999426697% | 0.0000573303% | 1 / 1744278 |
5.326724σ | 99.99999% | 0.00001% | 1 / 10000000 |
5.730729σ | 99.999999% | 0.000001% | 1 / 100000000 |
6σ | 99.9999998027% | 0.0000001973% | 1 / 506797346 |
6.109410σ | 99.9999999% | 0.0000001% | 1 / 1000000000 |
6.466951σ | 99.99999999% | 0.00000001% | 1 / 10000000000 |
6.806502σ | 99.999999999% | 0.000000001% | 1 / 100000000000 |
7σ | 99.9999999997440% | 0.000000000256% | 1 / 390682215445 |
- t 分布(t-distribution):又称“学生 t 分布”,如果随机变量 t 的概率密度函数为
$$f(t)=\frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{n\pi}\Gamma\left(\frac{n}{2}\right)}\left(1+\frac{t^2}{n}\right)^{-\frac{n+1}{2}}$$ ,则称 t 服从 t 分布。 - 自由度(degree of freedom):总体参数估计量中变量值独立自由变化的个数。
- 泊松分布(Poisson distribution):若随机变量
$$X$$ 的概率分布为$$P{X=x}=\frac{\lambda ^x}{x!}e^{-\lambda}$$ 其中,$$x=0,1,2,\cdots; \lambda>0$$ ,则称随机变量$$X$$ 服从参数为$$\lambda$$ 的泊松分布。 - 指数分布(exponential distribution):若随机变量
$$t$$ 的概率密度函数为 $$f(t) = \begin{cases}\lambda e^{-\lambda t} \quad &(t \gt 0,\lambda>0)\0 &(t \le 0)\end{cases} $$,则称$$t$$ 服从参数为$$\lambda$$ 的指数分布。
[1]. 邵志芳,心理统计学,轻工业出版社
[2]. 齐伟,机器学习数学基础,北京:电子工业出版社
[3]. 维基百科:正态分布