第6章多元回归分析：深入专题_伍德里奇《计量经济学导论》（第5版）笔记和课后习题详解-QQ阅读女生中文古言网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

第6章　多元回归分析：深入专题

6.1　复习笔记

一、数据的测度单位对OLS统计量的影响

1．数据的测度单位对OLS统计量无实质性影响

当对变量重新测度时，系数、标准误、置信区间、t统计量和F统计量改变的方式，都不影响所有被测度的影响和检验结果。怎样度量数据通常只起到非实质性的作用，如减少所估计系数中小数点后零的个数等。通过对度量单位明智的选择，可以在不做任何本质改变的情况下，改进所估计方程的形象。

对任何一个x_i，当它在回归中以log（x_i）出现时，改变其度量单位也只能影响到截距。这与对百分比变化和（特别是）弹性的了解相对应：它们不会随着y或x_i度量单位的变化而变化。

2．系数

原始方程：

减去平均方程，就可以得到：

令为因变量的样本标准差，为x₁的样本标准差，为x₂的样本标准差，等等。然后经过简单的运算就可以得到方程：

将每个变量都用其z得分标准化，就得到一些新的斜率参数。截距项则完全消失。

省略下标i改写标准化的方程为：

其中：

传统上称这些为标准化系数或系数。系数的含义为：如果x_j提高一倍的标准差，那么就变化倍的标准差。以标准差为单位，使得回归元的度量单位无关紧要，因此这个方程把所有解释变量都放到相同的地位上。在一个标准的OLS方程中，不能只看系数的大小，就断定具有最大系数的解释变量就“最重要”，因为通过改变x_i的度量单位，就可以任意改变系数的大小。但当每个x_i都被标准化之后，比较由此得到的系数就具有说服力。（注：不论是使用标准化还是未标准化的变量都不会影响变量的统计显著性，t统计量在两种情形中是相同的。）

二、对函数形式的进一步讨论

1．对数式模型

（1）一般估计模型举例及解释

一般估计模型为：

固定x₁，有

使用指数函数和对数函数的简单数学性质，可给出所预计的y的精确百分比变化为：

其中乘以100后，就将比例变化转化成了百分数变化。

（2）使用自然对数的优势

①由于斜率系数不随测度单位而变化，所以可以忽略以对数形式出现的变量的度量单位；

②当y＞0时，使用log（y）作为因变量的模型，通常比使用y的水平值作为因变量的模型更接近CLM假定；

③严格为正的变量，其条件分布常常具有异方差性或偏态性，取对数后，即使不能消除这两方面的问题，也可以使之有所缓和；

④取对数通常会缩小变量的取值范围，使得估计值对因变量或自变量的异常（或极端）观测不是那么敏感。

（3）使用对数的劣势

①使用对数所受到的一个限制是变量不能取零或负值；

②使用对数形式的因变量有一个缺陷，即更难于预测原变量的值。

2．含二次式的模型

考虑最简单的情形：

其中，并不能度量y相对于x的变化，因为保持x²不变而改变x是毫无意义的。如果将估计方程写成：

那么就有如下近似：

所以

这说明，x和y之间的斜率取决于x的值，所估计的斜率是

当x＝0时，可以解释为从x＝0到x＝1的近似斜率，而其他情况下必须考虑第二项。

如果估计的，，则x对y的影响不断递减，从大于0变为小于0的转折点为x的系数和x²系数的两倍之比：

3．含有交互作用项的模型

考虑包含两个解释变量和一个交互项的模型：

将模型重新参数化为：

其中，和分别为x₁和x₂的总体均值。很容易看出，现在x₂的系数，便是在x₁的均值处x₂对y的偏效应（）。因此在构造交互项之前，先从变量中减去其均值（通常是样本均值），则原始变量的系数就具有有用的解释了。

三、拟合优度和回归元选择的进一步探讨

1．对R²的理解

经典线性模型假定中没有要求R²必须大于某个特定值。R²无非就是y的变异中有多少能用总体中的解释。R²比较小只是意味着对影响的因素没有得到解释，但并不意味着u中的因素与自变量相关。零条件均值假定MLR.4只是确定是否得到了自变量其他条件不变之影响的无偏估计量，而R²的大小与此则没有直接关系。

一个较小的R²确实意味着，误差方差相对y的方差太大了，这又意味着很难精确地估计。大样本容量可能抵消较大的误差方差：如果有足够的数据，即便没有控制许多无法观测的因素，也可能精确地估计偏效应。

在方程中增加变量时，R²的相对变化则十分有用：检验联合显著性的F统计量，关键取决于无约束模型和约束模型的R²之差。

2．调整R²

其中，SSR是残差平方和，而SST是总平方和。

定义为y的总体方差，为误差项u的总体方差，则总体R²被定义为：

即R²是y的变异在总体中能被自变量解释的比例。

由于SST/n－1是的无偏估计量，所以可以用SST/n－1来代替SST/n。又因为

故可以得到调整R²：

R²与调整R²（即）之间的关系为：

调整R²的作用在于它为在一个模型中增加自变量施加了惩罚。因为在回归方程中增加一个新的自变量不可能使得R²下降，这是因为随着更多自变量的加入，SSR不会上升。但是明显取决于自变量的个数，在一个回归方程中增加一个自变量，虽然SSR会下降但是自由度也会下降，所以SSR/（n－k－1）可能上升也可能下降。故在回归方程中增加一个新的自变量（或一组自变量），只有当新变量的t统计量（或新变量组的联合显著性F统计量）在绝对值上大于1，才会有所提高。

3．利用调整R²在两个非嵌套模型中进行选择

在两个非嵌套模型之间进行选择时，利用有一个重要的局限性：不能用它在因变量的不同函数形式之间进行选择。不论是R²还是，所度量的都是因变量总变异中能被自变量解释的比例。而y和log（y）的总变异是不同的，将因变量形式不同的回归中所得到的调整R²进行比较，是不能在哪个模型拟合得更好这个问题上提供任何信息的。两个非嵌套模型拟合的是两个完全不同的因变量。

4．回归分析中控制了过多的因素

如果过分强调拟合优度，就会在回归模型中无所顾忌地控制一些不应该控制的因素。在多元回归中控制因素过多的原因通常是担心遗漏重要变量可能带来的潜在偏误。但控制过多的因素可能使多元回归的其他条件不变的性质受到影响。在有些情形中，某些因素应该随着一个政策变量的改变而有所变化，保持这些因素不变就没有意义。

5．增加回归元以减少误差方差

有些自变量尽管与因变量相关，但也不应该包括在回归模型中。在回归中增加一个新的自变量会加剧多重共线性的问题。另一方面，由于从误差项中取出了一些因素作为解释变量，所以总可以减少误差方差。

对于那些既影响y而又与所有所关心的自变量都无关的自变量，总是应该把它们包含进来。增加这样一个变量，不会导致总体出现多重共线性，但却可以减小误差方差。在大样本容量的情况下，所有OLS估计量的标准误都将减小。

四、预测和残差分析

1．预测的置信区间

假设有如下估计方程：