二、回歸分析(regression analysis)
醫(yī)學上,不少孌量間雖存在一定關系,但這種關系不象函數(shù)關系那樣十分確定。例如正常人的血壓隨年齡而增高,但這只是總的趨勢,有些高齡人的血壓卻不一定偏高;一群正常人按年齡和血壓兩個變量在坐標上的方位點,并非集中在一條上升直線上,而是圍繞著一條有代表性的直線上升。
直線回歸分析的任務在于找出兩個變量有依存關系的直線方程,以確定一條最接近于各實測點的直線,使各實測點與該線的縱向距離的平方和為最小。這個方程稱為直線回歸方程,據(jù)此方程描繪的直線就是回歸直線。
(一)直線回歸方程式(linear regression equation)的計算
直線回歸方程的通式為:
=a+bX 公式(22.3)
式中Y為自由變量X推算因變量Y的估計值,a為回歸直線在Y軸上的截距,即X=0時的Y值;b為樣本回歸系數(shù)(regression coefficient),即回歸直線的斜率(slope或稱坡度),表示當X變動一個單位時,Y平均變動b個單位。如果已知a與b,用以代入公式(22.3),即可求得直線回歸方程。求a和b的公式分別為:
公式(22.4)
公式(22.5)
對樣本中兩個變量分析,不但可作相關分析,還可進一步作直線回歸分析。仍以表22-1為示范,該例經(jīng)過直線相關分析,r=0.6097,兩變量間有直線關系,從相關系數(shù)計算時,已求得:
Σ(X-x)(Y-Y)=41.2000
Σ(X-x)2=677.4194
而 Y=ΣY/n=99.2/31=3.2000
x=ΣY/n=534/31=17.2258
代入公式(22.4)
b=41.2000/677.4194=0.0608
代入公式(22.5)
a=3.2000-0.0608×17.2258=2.1527
代入公式(22.3)
=2.1527+0.0608X
。ǘ)樣本回歸系數(shù)的假設檢驗
樣本回歸系數(shù)也有抽樣誤差問題,故需對b作假設檢驗,以評估b是否可能從回歸系數(shù)為零(即β=0)的總體中隨機抽得的。
檢驗步驟:
H0:β=0 即b是由β=0的總體中隨機抽樣的樣本回歸系數(shù)。
H1:β≠0
α=0.05
t檢驗:檢驗公式為
tb=|b|/sb 公式(22.6)
式中sb是回歸系數(shù)的標準誤,計算公式為
公式(22.7)
式中sy.x為各觀察值Y距回歸直線(Y)的標準差,是當X的影響被扣除后Y方面的變異指標。可用以下公式計算:
公式(22.8)
公式(22.9)
本例上述已算得
Σ(X-x)2=677.4194
Σ(Y-Y)2=6.7400
Σ(X-x)(Y-Y)=41.2000
分別代入公式(22.9),(22.8),(22.7)和(22.6)得
Σ(Y-Y)2=6.7400-41.20002/677.4194=4.2343
tb=0.0608/0.01468=4.1417
分析評價 本例自由度v=31-2=29,查t值表,t0.01(29)=2.756,P<0.01,按α=0.05檢驗水準,拒絕無效假設,可以認為待產(chǎn)婦24小時尿中雌三醇含量與初生兒體重之間存在直線回歸關系。醫(yī)學全在線www.med126.com
。ㄈ)描繪回歸直線
根據(jù)以上求得回歸方程Y=2.1527+0.0608x,可以在自變量X的實測范圍內(nèi)(本例為7~27)任取X1和X2兩值代入上式求得在圖22-2中的P1(X1,Y1)和P2(X2,Y2)兩坐標點,將兩點連結為一直線,就屬該方程的回歸直線。作圖要注意的是P1、P2兩點最好距離遠些,繪出的直線在坐標上誤差就小些。
三、應用直線相關與回歸分析時的注意事項
1.作相關與回歸分析要有實際意義,不要把毫無關聯(lián)的兩個事物或兩種現(xiàn)象作相關、回歸分析。
2.兩事物或現(xiàn)象間有相關,不一定有回果關系,也可能僅是伴隨關系。但是,如果兩事物或現(xiàn)象間存在因果關系,則兩者必然是相關的。
3.相關與回歸分析所說明的問題是不同的,但又是有聯(lián)系的。相關表示相互關系,回歸表示從屬關系?梢宰C明,同一批資料所算得的r與b的檢驗統(tǒng)計量(tr,tb)是相同的,如本章的案例前后算得的tr=tb=4.14。由于相關系數(shù)的計算及假設檢驗比較方便,故可用相關系數(shù)的顯著性檢驗取代回歸系數(shù)的顯著性檢驗。事實上在作回歸分析之前,一般先作相關分析,而只有在確定了兩變量間有直線關系的前提下,求回歸方程及回歸線才有意義。
4.相關與回歸的應用,僅限于原實測數(shù)據(jù)的范圍內(nèi),而不能隨意外推。因為不知道在此范圍之外,兩變量間是否仍存在同樣的直線關系。如果確有進行外推的充分根據(jù)和需要,亦應十分慎重。
5.在X與Y均呈正態(tài)變量時的加歸分析中,由X 推算Y與由Y推算X的回歸系數(shù)及回歸方程是不同的,切勿混淆。
附表22-1 相關系數(shù)顯著性界值表
v | R0.05(v´) | R0.01(v´) | V´ | R0.05(v´) | R0.01(v´) |
1 | 0.997 | 1.000 | 24 | 0.388 | 0.496 |
2 | 0.950 | 0.990 | 25 | 0.381 | 0.487 |
3 | 0.872 | 0.959 | 26 | 0.375 | 0.478 |
4 | 0.811 | 0.917 | 27 | 0.367 | 0.470 |
5 | 0.754 | 0.874 | 28 | 0.361 | 0.463 |
6 | 0.707 | 0.834 | 29 | 0.355 | 0.456 |
7 | 0.666 | 0.798 | 30 | 0.349 | 0.449 |
8 | 0.632 | 0.765 | 35 | 0.325 | 0.418 |
9 | 0.602 | 0.735 | 40 | 0.304 | 0.393 |
10 | 0.576 | 0.708 | 45 | 0.288 | 0.372 |
11 | 0.553 | 0.684 | 50 | 0.273 | 0.354 |
12 | 0.532 | 0.661 | 60 | 0.250 | 0.325 |
13 | 0.514 | 0.641 | 70 | 0.232 | 0.302 |
14 | 0.497 | 0.623 | 80 | 0.217 | 0.283 |
15 | 0.482 | 0.606 | 90 | 0.205 | 0.267 |
16 | 0.468 | 0.590 | 100 | 0.195 | 0.254 |
17 | 0.456 | 0.575 | 125 | 0.174 | 0.228 |
18 | 0.444 | 0.561 | 150 | 0.159 | 0.208 |
19 | 0.433 | 0.549 | 200 | 0.138 | 0.181 |
20 | 0.423 | 0.537 | 300 | 0.113 | 0.148 |
21 | 0.413 | 0.526 | 400 | 9.098 | 0.128 |
22 | 0.404 | 0.515 | 500 | 0.088 | 0.115 |
23 | 0.396 | 0.505 | 1000 | 0.062 | 0.081 |