《预防医学》 > 第二十二章 相关回归分析二、回归分析(regression analysis)
医学上,不少娈量间虽存在一定关系,但这种关系不象函数关系那样十分确定。例如正常人的血压随年龄而增高,但这只是总的趋势,有些高龄人的血压却不一定偏高;一群正常人按年龄和血压两个变量在坐标上的方位点,并非集中在一条上升直线上,而是围绕着一条有代表性的直线上升。
直线回归分析的任务在于找出两个变量有依存关系的直线方程,以确定一条最接近于各实测点的直线,使各实测点与该线的纵向距离的平方和为最小。这个方程称为直线回归方程,据此方程描绘的直线就是回归直线。
(一)直线回归方程式(linear regression equation)的计算
直线回归方程的通式为:
=a+bX 公式(22.3)
式中Y为自由变量X推算因变量Y的估计值,a为回归直线在Y轴上的截距,即X=0时的Y值;b为样本回归系数(regression coefficient),即回归直线的斜率(slope或称坡度),表示当X变动一个单位时,Y平均变动b个单位。如果已知a与b,用以代入公式(22.3),即可求得直线回归方程。求a和b的公式分别为:
公式(22.4)
公式(22.5)
对样本中两个变量分析,不但可作相关分析,还可进一步作直线回归分析。仍以表22-1为示范,该例经过直线相关分析,r=0.6097,两变量间有直线关系,从相关系数计算时,已求得:
Σ(X-x)(Y-Y)=41.2000
Σ(X-x)2=677.4194
而Y=ΣY/n=99.2/31=3.2000
x=ΣY/n=534/31=17.2258
代入公式(22.4)
b=41.2000/677.4194=0.0608
代入公式(22.5)
a=3.2000-0.0608×17.2258=2.1527
代入公式(22.3)
=2.1527+0.0608X
(二)样本回归系数的假设检验
样本回归系数也有抽样误差问题,故需对b作假设检验,以评估b是否可能从回归系数为零(即β=0)的总体中随机抽得的。
检验步骤:
H0:β=0 即b是由β=0的总体中随机抽样的样本回归系数。
H1:β≠0
α=0.05
t检验:检验公式为
tb=|b|/sb公式(22.6)
式中sb是回归系数的标准误,计算公式为
公式(22.7)
式中sy.x为各观察值Y距回归直线(Y)的标准差,是当X的影响被扣除后Y方面的变异指标。可用以下公式计算:
公式(22.8)
公式(22.9)
本例上述已算得
Σ(X-x)2=677.4194
Σ(Y-Y)2=6.7400
Σ(X-x)(Y-Y)=41.2000
分别代入公式(22.9),(22.8),(22.7)和(22.6)得
Σ(Y-Y)2=6.7400-41.20002/677.4194=4.2343
tb=0.0608/0.01468=4.1417
分析评价 本例自由度v=31-2=29,查t值表,t0.01(29)=2.756,P<0.01,按α=0.05检验水准,拒绝无效假设,可以认为待产妇24小时尿中雌三醇含量与初生儿体重之间存在直线回归关系。
(三)描绘回归直线
根据以上求得回归方程Y=2.1527+0.0608x,可以在自变量X的实测范围内(本例为7~27)任取X1和X2两值代入上式求得在图22-2中的P1(X1,Y1)和P2(X2,Y2)两坐标点,将两点连结为一直线,就属该方程的回归直线。作图要注意的是P1、P2两点最好距离远些,绘出的直线在坐标上误差就小些。