三、线性回归分析三、线性回归分析•相相关关性分析性分析•回回归分析分析•多重共多重共线性等相性等相关关检验和和处理理线性回归分析的线性回归分析的stata应用实例应用实例本本部部分分用用到到的的实实例例是是Big Andy’s Burger Barn的的销销售售模模型型Big Andy的的汉汉堡堡销销售售收收入入取取决决于于单单价价和和广广告告支支出出水水平平 因因此此,,这这个个模模型型包包含含两两个个解解释变量和一个常数项释变量和一个常数项其其中中,,sales为为指指定定城城市市的的月月销销售售额额并并以以千千美美仄仄元元度度量量,,price是是以以美美元元度度量量的的单单个个汉汉堡堡的的价价格格,,advert为广告支出,同样以千美元度量为广告支出,同样以千美元度量sales= α1 +α2*price +α3*advert+ ε相关性分析相关性分析相相关关性性分分析析主主要要目目的的是是研研究究变变量量之之间间关关系系的的密密切切程程度度相相关关性性分分析析的的方方法法主主要要有有:Pearson相相关关系系数数分分析析、、Kendall T相相关关系系数数分分析析、、Spearman秩秩相相关关系系数数分分析析以以及偏相关系数分析。
及偏相关系数分析1. Pearson相关系数分析相关系数分析Pearson相关性分析是一个描述线性相关强度的量,取值于一相关性分析是一个描述线性相关强度的量,取值于一1和和1之间 Pearson相关性分析的命令格式:相关性分析的命令格式:correlate [varlist] [if] [in] [weight] [ ,,correlate_ options ]pwcorr [varlist] [if] [in] [weight] [ ,,correlate_ options ]correlate尽可能使用两两变量中所有没有缺失的数据尽可能使用两两变量中所有没有缺失的数据pwcorr只采用没有任何缺失数据的完整观只采用没有任何缺失数据的完整观测值测值选项含义means显示变量的均值、标准差、最大最小信covariance显示协方差矩阵选项含义obs显示计算每个相关系数时使用的观测值个数sig显示显著性检验的P值print(#)在屏幕上仅显示达到相应显著性水平的相关系数star(#)在显著的相关系数上打上星号listwise使用listwise的方法处理缺失值,这样pwcorr就退化成correlate命令了。
所谓listwis方法是说,如果某一观测值中某个或者多个变量出现缺失,则将整个观测值删掉,这也正是correlate命令使用的方法对于没有缺失值的数据集,这两种方法没有区别correlate选选项项说说明明pwcorr选项说明选项说明用用pwcorr命命令令实实现现所所有有变变量量的的Pearson相相关关系系数数分分析析,,并并在显著性水平超过的相关系数上在显著性水平超过的相关系数上打上星号打上星号,其命令为:,其命令为: pwcorr , sig star(0.05)2. Kendall T相关系数分析相关系数分析Kendall T相关性分析是一个非参数度量变量间的相关性,其取值在相关性分析是一个非参数度量变量间的相关性,其取值在一一1和和1之间 Kendall T相关性分析的命令格式:相关性分析的命令格式:ktau [varlist] [if] [in] [weight] [ ,, ktau _ options ]选项含义print(#)在屏幕上仅显示达到相应显著性水平的相关系数star(#)在显著的相关系数上打上星号用用ktau命命令令实实现现所所有有变变量量的的Kendall T相相关关系系数数分分析析,,并并在显著性水平超过的相关系数上在显著性水平超过的相关系数上打上星号打上星号,其命令为:,其命令为: ktau , star(0.05)3. Spearman秩相关系数分析秩相关系数分析Spearman秩相关性分析也是一种不依赖于总体分布的非参数检验,秩相关性分析也是一种不依赖于总体分布的非参数检验,取值也在一取值也在一1和和1之间。
之间 Spearman秩相关性分析的命令格式:秩相关性分析的命令格式:spearman [varlist] [if] [in] [weight] [ ,, spearman _ options ]用用spearman命命令令实实现现所所有有变变量量的的Spearman秩秩相相关关系系数数分分析析,,并并在在显显著著性性水水平平超超过过的的相相关关系系数数上上打打上上星星号号,,其其命命令为:令为:spearman, star(0.05)4.偏相关系数分析偏相关系数分析双变量相关分析是研究两个变量之间的相关关系,有时在分析两个双变量相关分析是研究两个变量之间的相关关系,有时在分析两个变量之间相关关系时,往往会有其他变量的影响因素混合在里面,变量之间相关关系时,往往会有其他变量的影响因素混合在里面,此时计算出来的相关系数可能并不能真正反映两个变量之间的关系此时计算出来的相关系数可能并不能真正反映两个变量之间的关系偏相关性分析的命令格式:偏相关性分析的命令格式: pcorr varnamel varlist [if] [in] [weight]用用pcorr命令实现偏相关分析,其命令为:命令实现偏相关分析,其命令为: pcorr, sales price advert回归分析回归分析 回归分析时常用的回归分析时常用的Stata 命令有:命令有:regress , predict, test命令。
命令regress, predict, test 是一组命令,它们完成各种简单和多元的普通最小二是一组命令,它们完成各种简单和多元的普通最小二乘法回归乘法回归实现因变量对自变量的回归实现因变量对自变量的回归regress命命令令的的格格式式: regress depvar indepvars[if] [in] [weight] [options]因变量因变量自变量自变量选项含义noconstant不加常数项做线性回归hascons由用户指定常数项的值level(#)设定置信水平(默认值为95% )beta报告标准化的beta系数noheader不报告输出表名实实现现因因变变量量为为销销售售收收入入,,自自变变量量为为单单价价和和广广告告支支出出的的线线性回归,其命令为:性回归,其命令为: regress sales price advert表表下下方方区区域域为为基基本本的的回回归归结结果果第第1列列依依次次为为被被解解释释变变量量sales,,解解释释变变量量price、、advert,,截截距距项项constant;;第第2列列回回归归系系数数;;第第3列列回回归归系系数数的的标标准准误误;;第第4列列回回归归系系数数的的 t 统计量值统计量值;第第5列列p值;值;第第6列列95%的置信区间的置信区间表表左左上上方方区区域域为为方方差差分分析析表表。
第第2列列从从上上到到下下依依次次为为回回归归平平方方和和(SSE)、、残残差差平平方方和和(SSR)和和总总离离差差平平方方和和(SST);;第第3列列为为自自由由度度,,分分别别为为k=2,,n-k-1=75-2-1=72,,n-1=75-1=74;;第第4列列为均方和为均方和(MSS),由各项平方和除以相应的自由度得到由各项平方和除以相应的自由度得到表表右右上上方方区区域域给给出出了了样样本本数数(Number of obs)、、判判定定系系数数(R-squared)、、调调整整的的判判定定系系数数(Adj R-squared)、、F统统计计量量的的值值、、回归方程标准误回归方程标准误 (Root MSE) 以及其他一些统计量的信息以及其他一些统计量的信息计算拟合值和残差计算拟合值和残差predict命命令令的的格格式式: predict [type] newvar [if] [in][,,single_ options]指指定定存存储储类类型型的的格格式式变量名变量名指指定定需需要要拟拟合合值值还还是是残残差差值值,,若若为为resid,,则则是是残残差差计算前面所求回归方程的拟合值和残差。
其命令分别为:计算前面所求回归方程的拟合值和残差其命令分别为:predict y1predict e, resid进行指定的检验进行指定的检验test命命令令主主要要用用来来检检验验系系数数是是否否符符合合一一定定的的关关系系.test命命令令的的格格式式如下如下:test varl var2…var3ktest var=Ctest varl=var2test varl=(var2+var3)/C检验多个变量的系数是否同时为零检验多个变量的系数是否同时为零检验变量的系数是否为检验变量的系数是否为C C检验两个变量的系数是否相等检验两个变量的系数是否相等检验多个变量之间存在的一些关系检验多个变量之间存在的一些关系用用test命令检验价格和广告支出的系数是否同时为命令检验价格和广告支出的系数是否同时为0,其,其命令命令为为: test price advertP P值,拒绝原假设值,拒绝原假设,即价格和广告支出的,即价格和广告支出的系数不同时为系数不同时为0 0相关检验和处理相关检验和处理回归分析时通常需要检验数据是否存在回归分析时通常需要检验数据是否存在多重共线、序列相关和异方差多重共线、序列相关和异方差等问题,如果存在这些问题,则需要对其进行处理。
等问题,如果存在这些问题,则需要对其进行处理1.多重共线性的检验和处理多重共线性的检验和处理中多重共线性检验的命令格式为:中多重共线性检验的命令格式为:vif //该命令用来得到自变量的方差膨胀因子该命令用来得到自变量的方差膨胀因子一一般般来来说说,,判判断断多多重重共共线线性性的的标标准准是是( (两两个个标标准准必必须须同同时时满满足足):):*最大的最大的vif大于大于10;*平均的平均的vif大于大于1.由判断标准可知由判断标准可知不存在多重共线性不存在多重共线性处理多重共线性的方法处理多重共线性的方法1.如如果果只只关关心心方方程程的的预预测测能能力力,,则则在在整整个个方方程程显显著著的的条条件件下,可以不必关心具体的回归系数下,可以不必关心具体的回归系数2.增增加加样样本本容容量量,,剔剔除除导导致致多多重重共共线线性性的的变变量量或或者者修修改改模模型设定形式型设定形式3.对对于于时时间间序序列列样样本本,,通通过过使使用用差差分分模模型型可可以以一一定定程程度度上上消除原模型中的多重共线性消除原模型中的多重共线性4.岭回归方法岭回归方法2.异方差的检验和处理异方差的检验和处理中异方差检验的命令格式为:中异方差检验的命令格式为:hettest或者或者imtest, white (怀特检验怀特检验)判判断断存存在在异异方方差差的的标标准准是是: :命命令令输输出出结结果果的的P P值值小小于于,,则则拒拒绝原假设,即绝原假设,即存在异方差性存在异方差性。
hettest和和怀怀特特检检验验输输出出结结果果的的p值值均均大大于于故故不不存在异方差性存在异方差性处理异方差性的方法处理异方差性的方法1.在在regress命令的命令的options选项中选择选项中选择robust选项即可;选项即可;2.加权最小二乘法(加权最小二乘法(WLS)) 3.序列相关的检验和处理序列相关的检验和处理中检验序列相关性的方法:中检验序列相关性的方法:检验检验命令为:命令为:estat bgodfrey (默认默认p=1) estat bgodfrey,,lags((p)) estat bgodfrey,, nomiss0 (使用不添加使用不添加0的的BG检检验验)2.box-pierce Q检验检验/ Ljung-Box Q命令为:命令为: reg y x1 x2 x3 predict el, resid wntestq el (使用使用stata提供的默认滞后期提供的默认滞后期) wntestq el, lags(p) (使用自己设定的滞后期使用自己设定的滞后期)检验:现在已经不常用,因为其只能检验一阶自相关。
检验:现在已经不常用,因为其只能检验一阶自相关 命令为:命令为: estat dwatson中处理序列相关性的方法:中处理序列相关性的方法:1. Newey稳健性标准差稳健性标准差 newey y x1 x2 x3, lag(p) (滞后阶数必选滞后阶数必选)2.使用使用OLS+聚类稳健的标准差(聚类稳健的标准差(cluster robust standard error)面板数据中经常使用聚类稳健的标准差面板数据中经常使用聚类稳健的标准差reg y x1 x2 x3, cluster(state) (聚类稳健标准差,假设聚类稳健标准差,假设“state”为聚类变量为聚类变量)3.使用可行广义最小二乘法(使用可行广义最小二乘法(FGLS))prais y x1 x2 x3 (使用默认的使用默认的PW估计法估计法)praise y x1 x2 x3, corc (使用使用CO估计法估计法)4.修改模型设定,可能自相关是由于遗漏了自相关的解释修改模型设定,可能自相关是由于遗漏了自相关的解释变量。