回归分析是一种数学模型 当因变量和自变量为线性关系时,它是一种特殊的线性模型 最简单的情形是一元线性回归,由大体上有线性关系的一个自变量和一个因变量组成;模型是Y=a+bX+ε(X是自变量,Y是因变量,ε是随机误差) 通常假定随机误差的均值为0,方差为σ^2(σ^2﹥0,σ^2与X的值无关) 若进一步假定随机误差遵从正态分布,就叫做正态线性模型 一般的,若有k个自变量和1个因变量,则因变量的值分为两部分:一部分由自变量影响,即表示为它的函数,函数形式已知且含有未知参数;另一部分由其他的未考虑因素和随机性影响,即随机误差 当函数为参数未知的线性函数时,称为线性回归分析模型;当函数为参数未知的非线性函数时,称为非线性回归分析模型 当自变量个数大于1时称为多元回归,当因变量个数大于1时称为多重回归 回归分析的主要内容有以下:①从一组数据出发,确定某些变量之间的定量关系式;即建立数学模型并估计未知参数 通常用最小二乘法 ②检验这些关系式的可信任程度 ③在多个自变量影响一个因变量的关系中,判断自变量的影响是否显著,并将影响显著的选入模型中,剔除不显著的变量 通常用逐步回归、向前回归和向后回归等方法 ④利用所求的关系式对某一过程进行预测或控制 回归分析的应用非常广泛,统计软件包的使用可以让各种算法更加方便 回归主要的种类有:线性回归、曲线回归、二元logistic回归、多元logistic回归 相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量 而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系 比如说,从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定 一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测 例如,如果要研究质量和用户满意度之间的因果关系,从实践意义上讲,产品质量会影响用户的满意情况,因此设用户满意度为因变量,记为Y;质量为自变量,记为X 根据图8-3的散点图,可以建立下面的线性关系:Y=A+BX+§式中:A和B为待定参数,A为回归直线的截距;B为回归直线的斜率,表示X变化一个单位时,Y的平均变化情况;§为依赖于用户满意度的随机误差项 在SPSS软件里可以很容易地实现线性回归,回归方程如下:质量和客户满意度散点图质量和客户满意度散点图y=0 857+0 836x回归直线在y轴上的截距为0 857、斜率0 836,即质量每提高一分,用户满意度平均上升0 836分;或者说质量每提高1分对用户满意度的贡献是0 836分 上面所示的例子是简单的一个自变量的线性回归问题,在数据分析的时候,也可以将此推广到多个自变量的多元回归,具体的回归过程和意义请参考相关的统计学书籍 此外,在SPSS的结果输出里,还可以汇报R2,F检验值和T检验值 R2又称为方程的确定性系数(coefficient of determination),表示方程中变量X对Y的解释程度 R2取值在0到1之间,越接近1,表明方程中X对Y的解释能力越强 通常将R2乘以100%来表示回归方程解释Y变化的百分比 F检验是通过方差分析表输出的,通过显著性水平(significant level)检验回归方程的线性关系是否显著 一般来说,显著性水平在0 05以下,均有意义 当F检验通过时,意味着方程中至少有一个回归系数是显著的,但是并不一定所有的回归系数都是显著的,这样就需要通过T检验来验证回归系数的显著性 同样地,T检验可以通过显著性水平或查表来确定 在上面所示的例子中,各参数的意义如表1-1所示 表1-1线性回归方程检验指标值显著性水平意义R0 89“质量”解释了89%的“用户满意度”的变化程度F276 820 001回归方程的线性关系显著T16 640 001回归方程的系数显著