![伍德里奇《计量经济学导论》(第5版)笔记和课后习题详解](https://wfqqreader-1252317822.image.myqcloud.com/cover/896/27050896/b_27050896.jpg)
第4章 多元回归分析:推断
4.1 复习笔记
一、OLS估计量的抽样分布
1.假定MLR.6(正态性)
总体误差u独立于解释变量,而且服从均值为零和方差为
的正态分布:
。
2.经典线性模型
就横截面回归中的应用而言,从假定MLR.1~MLR.6这六个假定被称为经典线性模型假定。将这六个假定下的模型称为经典线性模型(CLM)。
在CLM假定下,OLS估计量比在高斯—马尔可夫假定下具有更强的效率性质。可以证明,OLS估计量是最小方差无偏估计,即在所有的无偏估计中,OLS具有最小的方差。
总结CLM总体假定的一种简洁方法是:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image503.png?sign=1739515448-5sXjDquO650x9FHuClduP9TwbV0NO9kC-0-0c30290fe7d5edac5858b52942fe1461)
误差项的正态性导致OLS估计量的正态抽样分布。
3.用中心极限定理去推导u的分布的缺陷
(1)虽然u是影响y而又观测不到的众多因素之和,且各因素可能各有极为不同的总体分布,但中心极限定理(CLT)在这些情形下仍成立。正态近似的效果取决于u中有多少因素,以及u中包含因素分布的差异。
(2)更严重的问题是,正态近似假定所有不可观测因素都以独立而可加的方式影响着Y。因此如果u是不可观测因素的一个复杂函数,那么CLT论证并不真正适用。
4.误差项的正态性导致OLS估计量的正态抽样分布
定理4.1:正态抽样分布
在CLM假定MLR.1~MLR.6下,以自变量的样本值为条件,有:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image504.png?sign=1739515448-Fyw2C3A7lKkij39tUJWMV0qMvWYxtoUC-0-18387c43ddafe330ac9db67765b854ea)
因此
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image505.png?sign=1739515448-T4c9qmdG28cKHnmRxI0L2TGvFS4Z3oCO-0-f85903dc40255d56e4f6b253657618ac)
注:除服从正态分布外,
的任何线性组合也都是正态分布,而且
的任何一个子集也都具有一个联合正态分布。
二、检验对单个总体参数的假设:t检验
1.总体回归函数
总体模型可写作:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image506.png?sign=1739515448-c7NtXlpGmNjg0wVh2WD2S96Dp8qwKsqc-0-28ce358598e60b1cee17bc25703d98bb)
假定它满足CLM假定,OLS得到的无偏估计量。
2.定理4.2:标准化估计量的t分布
在CLM假定MLK.1~MLK.6下,,其中,k+1是总体模型
中未知参数的个数(k个斜率参数和截距
)。
采用t分布而不是标准正态分布的原因是中的常数
已经被随机变量
所取代,而且有
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image510.png?sign=1739515448-XB4ZE0579iy5Ky1I6W5ZAdMK1P25trQZ-0-d7164c66e1cfff2526b904d765a9d6ad)
3.单个参数的检验
虚拟假设(原假设)
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image511.png?sign=1739515448-qCC2jQiCuk2jUEsz0vA4VMlD060JqRyv-0-1a6410e468619d88e737ef5488107cd6)
用来检验式的统计量被称为的t统计量或t比率,并被定义为
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image512.png?sign=1739515448-uvBJ9xuHY6YXSRWqx3kMeaqUFxb4jOSA-0-677af7e33ebc941644b93b94887ce1bf)
(1)单侧对立假设检验
①单侧对立假设:。这种检验意味着排除了系数的总体值小于0的可能性。
②拒绝法则
显著性水平:即当H0实际上正确时拒绝它的概率。在H0下,服从一个t分布,因此,寻找
的一个“足够大”的正值,以拒绝H0。在
的显著性水平上“足够大”的定义是,在含有n-k-1个自由度的t分布中,处在百分位中第
位的数值。
在,H0在
的显著性水平上被拒绝并支持H1,c为在
显著水平下,自由度为n-k-1时t分布的临界值。该拒绝法则被称为单侧检验法。
③临界值
临界值等于。随着显著性水平下降,临界值会提高,以致要拒绝H0就需要越来越大的
。
如果临界值来自t分布的左侧,则将拒绝法则看成:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image520.png?sign=1739515448-Xtzq1tcXRQXoAwLHN7VqoRyP7huTIyay-0-b26a67c9f10bdde496d4bd1efa8dd27c)
其中,c是对立假设的临界值。
(2)双侧对立假设
虚拟假设与对立假设分别为:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image521.png?sign=1739515448-JCsxH0gJFAhHBjvNHx3aXP9xn7CBdkI0-0-22ac5980eb881805b68200f1beff9605)
在这个对立假设下,xj对y具有未明确说明是正还是负的影响。
拒绝的法则是
,此时临界值c为
。在没有明确地表述对立假设时,通常都认为是双侧的。如果在5%的显著性水平上拒绝H0,通常说“
在显著性水平为5%时统计上显著异于零”。如果H0未被拒绝,就说“xj在显著性水平为5%时是统计上不显著的”。(在双侧假设中,求临界值时显著水平为给定的显著水平的一半)
(3)检验的其他假设
检验是检验变量是否显著,是常见的检验,但有时也会检验
是否等于某个非零常数,此时虚拟假设表述为
。相应的t统计量为:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image526.png?sign=1739515448-jhkR4pLAyxxzPZwJlrlPe9vH6AfOJngF-0-b961865a8d8a962498796d9ef349051c)
t统计量最好写成:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image527.png?sign=1739515448-lez03YpUzQSLHVstn5gTtbrmvbyZWs0U-0-f68beeaa54b11afc7ea99ad5a7800c8f)
若t>c,拒绝虚拟假设而支持对立假设,表示在适当的显著性水平上,。
(4)计算t检验的p值
p值就是给定t统计量的观测值,能拒绝虚拟假设的最小显著性水平。p值是一个概率,总是介于0和1之间。
p值的解释:在虚拟假设正确时,所观察到的t统计量至少和所得到的t统计量一样大的概率。这意味着,小p值是拒绝虚拟假设的证据,而大p值不能提供拒绝H0的证据。
一旦p值被计算出来,在任何理想的显著性水平下都能进行经典检验。如果用表示检验的显著性水平(以小数形式表示),那么,若
,则拒绝虚拟假设;否则,在
的显著性水平下,就不能拒绝H0。
(5)对经典假设检验用语的提醒
当H0未被拒绝时,说明“在x%的水平上,不能拒绝H0”,而不能断定“在x%的水平上接受了H0”。
(6)经济或实际显著性与统计显著性
①一个变量xj的统计显著性完全由的大小决定,而一个变量的经济显著性或实际显著性则与
的大小(及符号)相关。
②检验时的t统计量被定义为估计值与其标准误之比:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image532.png?sign=1739515448-t7CHHojFWG6KGRCuURsdHon3RecOhj4E-0-7b880c15bf85b517c274767dd519502f)
能标志统计显著性的原因可能是
“很大”或
“很小”。在实践中,区分导致t统计量统计显著的原因很重要。过多地强调统计显著性,在一个变量的估计效应不太大的情况下也认为它在解释y时很“重要”,会导致错误的结论。
③在处理大样本时,除了看t统计量外,对系数的大小加以解释也特别重要。对于大样本容量,参数可以估计得相当准确,标准误与系数估计值相比通常都相当小,从而常常导致统计显著性。因此样本容量越大时,应该使用越小的显著性水平,以抵偿标准误越来越小所带来的后果。
④样本容量较大时,很大的标准误可能是多重共线性造成的结果。而在小样本中,解释变量高度相关时,很难精确估计其偏效应。
(7)检验变量在多元回归模型中的经济和统计显著性的准则
①检查统计显著性。如果该变量是统计显著的,那就讨论系数的大小,以对其实际或经济上的重要性有所认识。
②如果一个变量在通常的显著性水平(10%、5%或1%)上不是统计显著的,但如果这个变量对y具有很大的预期的影响,而这个影响在实践中很大,那就应该对t统计量计算一个p值。对于小样本容量,有时可以让p值大到0.20。
③t统计量很小的变量都具有“错误”的符号。
三、置信区间
在经典线性模型的假定之下,能很容易地为总体参数构造一个置信区间(CI)。因为置信区间为总体参数的可能取值提供了一个范围,而不只是一个点估计值,所以又被称为区间估计(值)。
置信区间的下界和上界分别是:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image534.png?sign=1739515448-bhjN9MXbTZzJeDJLJZCRITnbpcEyg33s-0-05a30e34cd462215f1853ea0706fbb07)
置信区间的含义:在实际中如果一次又一次的获得随机样本,每次都计算并构造一个样本区间,那么总体值
将在
的样本区间中出现。
四、检验关于参数的一个线性组合假设
原虚拟假设与对立假设为:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image536.png?sign=1739515448-TSHq6f2xaeGV92PljBdEaRYJYH2CXCj4-0-c68c39c3dc59949ddf57116d8201deff)
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image537.png?sign=1739515448-2JafY1Qv7Jc17USGVK82GRDZjVHmmbkE-0-bbfc275e7bea08028c9354bdd8a6a06a)
将虚拟假设和对立假设分别重新写成:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image538.png?sign=1739515448-qaHvLtUbzI75WkQnLeC2GeVkUN8MFVZ5-0-587dd6ca341b837d42e1b83f105bc56b)
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image539.png?sign=1739515448-Tbqt3g18mZZPalXy8B2jpydAvDFT63Ad-0-f344c7977b9f3b3b4af8bbe4c1687a43)
不能简单的使用和
的个别统计量去检验H0,需要构造新的t统计量,t统计量表示为:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image540.png?sign=1739515448-6Zhyrf17Pim5hYjpJJim811k9P3fptqi-0-76e469437b1e53d618dfec8789edafe5)
一旦得到t统计量,检验过程就同以前一样,可是在回归结果的报告中并没有的标准误,并且
并不成立。
因为
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image543.png?sign=1739515448-TjPo1IhKfoM9uvmx4gBmQnC8kcs7IF38-0-6f469acb5f6e8e16c7324aeb1686d242)
所以
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image544.png?sign=1739515448-JwsvwMVmi0cXsmizk2KibQEkrzZyHHh5-0-4953736e60a0775faadc9939b688514d)
s12为的一个估计值。在实际操作中,我们不是通过上式去计算
,而是直接给出所需标准误的不同模型。将
与
之差定义为一个新参数
,要检验
对
,将
写为
,代入模型中去,通过构造新的变量便可以估计出
的标准误,接下来进行t检验步骤即可。
五、对多个线性约束的检验:F检验
1.对排除性约束的检验
对排除性约束的检验即检验一组自变量是否对因变量都没有影响。虚拟假设是,在控制了一些变量之后,余下的变量对y没有任何影响。对多重约束进行的检验被称为多重假设检验或联合假设检验。
一个特定的t统计量只能检验一个对其他参数没有限制的假设,因此必须导出一个对多重约束的检验。
2.推导F检验统计量
将具有k个自变量的不受约束模型写成:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image552.png?sign=1739515448-P8HrlqUFyln7fqzjWr8XLFJk5x69P1eK-0-975e0880f12d9c289a5f9371986f7113)
不受约束模型中的参数有k+1个。
假设有q个排除性约束要检验,即虚拟假设表示,有q个变量的系数为零。假定这q个变量是自变量中的最后q个:。
虚拟假设:
它对模型施加了q个排除性约束。
对立假设意味着列出的参数至少有一个异于零。
受约束模型为:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image555.png?sign=1739515448-vPOjLGJuAcFtfBDXif8R0BfzgKiA33Iz-0-66b689a4b6e7addeda04a3474b82d60a)
当从不受约束模型变为受约束模型时,SSR的相对增加对检验假设而言应该是有意义的。定义F统计量为
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image556.png?sign=1739515448-bZy44yPhov4Jg5QUZtxjF77wq9KrJioA-0-0bbc4a92e849d23bcdffb5c65188673b)
其中,SSRr是受约束模型的残差平方和,SSRur是不受约束模型的残差平方和。因为SSRr不可能比SSRur小,所以F统计量总是非负的(而且几乎总是严格为正)。
q=分子自由度=dfr-dfur,表明q是受约束模型与不受约束模型的自由度之差,即q为约束条件的个数(df=观测次数-被估计参数的个数。)由于受约束模型参数较少,而每个模型都使用同样的n次观测,所以dfr总是大于dfur。
N-k-1=分母自由度=dfur,F的分母恰好就是不受约束模型中的一个无偏估计量。
在H0下(并假设CLM假定成立),F统计量服从自由度为(q,n-k-1)的F随机变量的分布,写成。如果F>c,就在所选定的显著性水平上拒绝H0而支持H1。如果拒绝H0,就说,
在适当的显著性水平上是联合统计显著的(或简单地说是联合显著的)。
3.F统计量和t统计量之间的关系
(1)检验单个变量之排除性的F统计量,等于对应t统计量的平方。
(2)F统计量和t统计量适用与单侧检验和双侧检验的情况
①因为具有
分布,所以在双侧对立假设下,这两种方法得到完全一样的结果。
②由于t统计量可用来检验单侧对立假设,所以它对于检验单个参数假设就更灵活。还因为t统计量比F统计量更容易获得,所以实在没有理由使用F统计量对单个参数假设进行检验。
(3)F统计量和t统计量适用与单个检验和联合检验的情况
两(或多)个各自具有不显著t统计量的变量,合起来可能十分显著。还有一种可能,在一组解释变量中,一个变量具有显著的t统计量,但在常用的显著性水平上,这组变量却不是联合显著的。虽然规定F统计量用于侦查一组系数是否异于零,但它绝不是判断单个系数是否异于零的最佳检验。t检验最适合检验单个假设。
当一个变量十分显著时,将它与其他某组变量联合检验,结果便是联合显著的。在这种情形中,同时拒绝这两个虚拟假设并不存在逻辑上的不一致。
4.F统计量的R2型
(1)使用受约束模型和不受约束模型的R2来计算F统计量更方便的原因
①R2必定介于0和1之间,而SSR则在很大程度上依赖于度量单位,使得基于SSR的计算繁冗。
②R2在几乎所有的回归中都会报告,而SSR则不然,使用R2来检验变量的排除就较容易。
(2)R2型F统计量
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image562.png?sign=1739515448-4fDP8sDMWZbENgdgKMCXhlKUT3ZQ1Zsn-0-9c084b76d3ec90282f62d3acc53b6ffc)
5.计算F检验的p值
p值对报告F检验的结果特别有用。由于F分布取决于分子和分母的自由度,所以只是看一下F统计量的值或一两个临界值,对拒绝虚拟假设之证据的强弱很难有直观感觉。在F检验的背景下,p值被定义为:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image563.png?sign=1739515448-w4oYbnnnFR1pJ6NwmTbnxlyfYgBt4CAR-0-1d09e3cbd6d27afaa19c2d3af3146607)
p值的解释:给定虚拟假设是正确的,观察到的F值至少和所得到的F值一样大的概率。
6.回归整体显著性的F统计量
在含有k个自变量的模型中,可以把虚拟假设写成:
H0:x1,x2,…,xk都无助于解释y
用参数表示,这个虚拟假设就是所有的斜率参数都是零:
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image564.png?sign=1739515448-gWY0MxwwCvJ6GkuQN6TtdDclXA6xD8y3-0-25bcf86806b6e40c6b730b871776121f)
在式中有k个约束,得到受约束模型
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image565.png?sign=1739515448-97Brur9vvOpHBlzhHHXWpbER1p9wGWYK-0-4561db7bbe08c4572daef6cc2576d212)
该估计式的R2为零。因为没有解释变量,所以y中的变异一点都没有得到解释。
F统计量可写成
![](https://epubservercos.yuewen.com/A80292/15436656305560306/epubprivate/OEBPS/Images/image566.png?sign=1739515448-nBkjMYCJoCh7ohsA0vLNIobIj0dZBx0s-0-38fc19a086d78ccc2c44f559140b9d1c)
其中,R2就是y对回归的通常R2。
7.检验一般的线性约束
检验排除性约束仍是F统计量最重要的应用。但当一种理念所蕴涵的约束比仅仅排除某些自变量更为复杂时,仍可以直接使用F统计量进行检验。
因变量不同的模型,不能使用F统计量的R2型。
六、报告回归结果
1.所估计的OLS系数估计值
对于分析中的关键变量,对所估计的系数做出解释。
2.标准误
标准误总是应该与所估计的系数一起包括进来,原因在于:
(1)标准误有助于判断被检验的虚拟假设,虚拟假设并非总是总体参数为0;
(2)有助于计算置信区间。
3.回归的R2
(1)R2提供拟合优度的一种度量;
(2)简化排除性约束F统计量的计算。
4.观测次数