2.2 线性回归分析的实验案例
例2.2 超市选址问题。某超市是一家连锁超市,为了确定一个连锁超市的最佳位置,决定建立回归模型描述各连锁超市的总销售量。每家连锁店的总销售量都是地理位置相关属性的函数,找到描述这种函数的方程,就可以选择下一个新的连锁店的位置。
由该问题出发,了解实际情况,理想的地址应该具备一些特点。首先是超市所处的位置,此外,某位置具有独特的属性也很重要。通过分析发现,实际上有3个主要因素决定销售量:超市附近的人口密度、附近居民的一般收入水平以及附近规模相当的超市的数量(可以视其为竞争对手)。
由该问题出发,最终确认解释变量为:
1. 竞争对手数(方圆2千米内的相近规模的超市数量);
2. 人口数(方圆3千米内居住的人口数);
3. 收入(居住地人口的平均收入水平)。
首先通过调研得到33组数据如下:
表2-1 超市相关数据
续表
希望通过线性回归的方式来确定解释变量与被解释变量之间的关系。设竞争对手为x1,人口数为x2,月收入水平x3。回归模型为
y=β0+β1x1+β2x2+β3x3+ε
应用SPSS软件进行运算,确定回归模型的参数,并进行参数检验等。
在进行回归分析之前,首先绘制散点图,观察数据的走势。选择菜单“图形(Graphs)→图标建立(Chart Buider)”,弹出“图标建立(Chart Buider)”对话框,选中“散点/点图(Scatter/Dot)”选项,并选择简单散点图(Simple Scatter),选中“营业额”到y轴坐标,“竞争对手”到x坐标,得到散点图2-2。
图2-2 竞争对手与营业额散点
类似地,我们还可得到人口与营业额的散点图2-3及收入水平与营业额散点图2-4。
图2-3 人口与营业额的散点
图2-4 收入水平与营业额散点
由上述三幅散点图可以看出,数据没有特殊的异常点,可以进行回归。
然后选择菜单“分析(Analyze)→回归(Regression)→线性(Linear)”以“营业额”为因变量,“竞争对手”“人口”“月收入水平”为自变量,进行回归,得到表2-2。
表2-2 模型汇总b
注:a为预测变量(常量),表示收入水平、竞争对手、人口。
b为因变量,表示营业额
由模型汇总表中可知,R2=0.617,调整后的R2=0.578,可以接受。P<0.000。
由表2-3可知,回归的方程为
表2-3 回归系数
由Sig的数据(即P值)可知,几个回归系数均通过了检验。且系数的区间都不包含0点,符号是确定的。竞争对手的系数是负的。这说明竞争对手个数增加时,会导致营业额的下降;人口数和收入水平的系数都是正的,说明营业额会随着两个变量的增加而增加。这都是和实际相吻合的。
由线性统计量容差和VIF的数据可以看出,容差大于0.1,且VIF均小于10,判断选取的自变量之间不存在多重共线性的问题。
由表2-4可以看出,除竞争对手与人口数的相关性较强外,其他自变量之间的相关程度都可以接受。而竞争对手与人口两个指标的容差和VIF均显示不存在多重共线性,因此不对上述两个指标进行剔除。
表2-4 系数相关a
注:a为因变量,表示营业额
例2.3 研究我国城镇居民家庭全年人均消费性支出的影响因素。
由问题出发,根据经济学基本知识,分析影响居民消费的因素有很多。居民的收入水平、消费价格指数、生活必需品消费、教育消费、医疗消费等。最终确认被解释变量为居民家庭平均每人消费性支出y,解释变量为:x1食品消费、x2服装消费、x3居住消费居住、x4交通消费、x5通信消费、x6教育消费、x7医疗消费、x8地区人均GDP、x9地区消费价格指数及x10地区失业率等。选取10个解释变量研究城镇居民家庭平均每人消费性支出y。
数据选取2013年版《中国统计年鉴》中30个省、市、自治区2012年的数据。以居民的消费性支出(单位:元)为因变量,上述10个变量为自变量进行多元线性回归。其中x1~x8的单位为元,x10的单位为%。数据如表2-5所示。
表2-5 我国2012年城镇居民家庭全年人均消费性支出数据 单位:元
通过线性回归的方式来确定解释变量与被解释变量之间的关系,运用SPSS软件实现。
选择菜单栏中的“分析(Analyze)”→“回归(Regression)”→“线性(Linear)”命令,弹出“线性回归(Linear Regression)”对话框。这既是一元线性回归也是多元线性回归的主操作窗口。多元回归模型涉及多个自变量,要在线性回归(Linear Regression)对话框左侧的候选变量列表框中选择多个变量,将其添加至自变量【Independent(s)】列表框中,即选择这些变量作为多元线性回归的自变量。
由表2-6可知:调整后的R2=0.993,可以接受。P<0.000,线性模型的回归方程通过检验。
表2-6 模型汇总
注:a. 预测变量:(常量),地区失业率,服装(元),地区消费价格指数,食品(元),地区人均GDP(元),居住(元),教育(元),交通(元),通信(元)。
表2-7 模型系数a
注:a. 因变量:消费支出(元)
通过系数数据可以看出:食品、服装、居住、交通、教育等几个指标通过了显著性检验;常数项、通信、地区人均GDP、地区消费价格指数、地区失业率等几个指标没有通过显著性检验。
表2-8 已排除的变量b
由已排除的变量可知医疗被排除在整个线性模型之外,并且模型的拟合进一步去除变量,首先去除医疗和地区人均GDP继续建立线性回归模型。
表2-9 系数a
注:a. 因变量:消费支出(元)
通过系数数据可以看出,还是有通信、地区消费价格指数、地区失业率没有通过系数检验没有通过显著性检验;再一次去除地区价格消费指数进行回归分析,还有通信、地区失业率没有通过系数检验没有通过显著性检验;再一次去除通信之后进行回归分析得到表2-10。
表2-10 回归系数
当显著性水平α取0.10时,回归方程通过线性检验,并且各系数通过检验,共线性统计量VIF的值均不超过10,不存在多重共线性。并且除常数项以外,各变量的系数符号没有发生改变含义明确。
最终的回归方程为
食品、服装、居住、交通、教育的变动和居民人均消费性支出之间是正向变动关系。例如,在其他变量的值保持不变的情况下,食品消费增加一个单位,消费性支出将增加1.356个单位。地区失业率与人均消费性支出之间是反向变动关系。当人均失业率提高一个百分比单位时,人均的消费性支出会下降240.473个单位。也就是说,当经济不景气的时候,人们的消费性支出会下降,人们会更多地保存现金,以备不时之需。
由分析可知,在众多因素的影响下,各个指标会因为有较强的相关性而导致相互影响,而经过几次的实验分析可知,医疗与居民的消费性支出之间的线性关系不明显。画出散点图如下:
由图2-5可以看出,医疗的消费与总消费支出之间的线性关系非常弱。这说明无论经济条件是什么样,医疗的消费都是刚性需求。而且无论居民的人均消费情况如何,医疗的费用都不会有非常大的变化。一般情况下,不会有人因为经济问题而选择看病或不看病,身体的健康状况决定了医疗消费的金额。
图2-5 居民的医疗消费和总消费支出之间的散点