Skip to content

Latest commit

 

History

History
27 lines (17 loc) · 1.99 KB

chapter11.md

File metadata and controls

27 lines (17 loc) · 1.99 KB

回归分析

  • 回归分析(regression analysis):利用一个变量或一组变量的变化来估计或预测另一个变量或另一组变量的变化情况。

  • 线性回归模型(linear regression model):变量之间存在线性关系的回归模型。

  • 回归线(regression line):用来代表散点图上分布趋势的直线。

  • 拟合优度(goodness of fit):回归方程对样本数据的代表程度。

  • 残差(residual error):实际观测到的因变量值 $$Y$$ 与回归值 $$\hat{Y}$$ 之差,是一种随机误差。

  • 回归平方和(regression sum of squares):可以解释的离差平方和 $$\sum_{i=1}^n(\hat{Y}_i-\overline{Y})^2$$

  • 残差平方和(residual sum of squares):不可解释的离差平方和 $$\sum_{i=1}^n({Y}_i-\hat{Y}_i)^2$$∑(Y-)2,又称为误差平方和。

  • 确定系数(coefficient of determination):回归平方和在总离差平方和中所占的比例。

  • 不确定系数(coefficient of nondetermination):残差平方和在总离差平方和中所占的比例。

  • 估计误差的标准差(standard deviation of estimation error):与确定的自变量值对应的随机误差分布的标准差。

  • 回归平面(regression plane):二元线性回归方程在三维空间中对应的一个平面。

  • 偏回归系数(partial regression coefficient):在其他自变量保持恒定时某个自变量对因变量的影响程度。

  • 逐步回归(step-wise regression):按各个自变量对因变量的作用,从大到小地将其逐个引入回归方程。

  • 多重共线性(multicollinearity effect):在自变量中有两个或两个以上的自变量之间存在着完全线性或几乎完全线性的关系(即近乎完全相关)。

  • 虚拟变量(dummy variable):将定性变量以编码的方式加以“量化”而产生的变量。编码方式有两种:0一1编码和效应编码。

  • Logistic回归(Logistic regression):因变量为二分变量的回归模型。