4.計劃和執(zhí)行 病例對照研究在制訂計劃和執(zhí)行時應(yīng)注意以下問題:
。1)主要假設(shè)的說明是否清楚、簡明而且可以檢驗?
。2)疾病與暴露變量的定義清楚、明確否?
。3)是否擬探索劑量反應(yīng)關(guān)系和多個危險因素的聯(lián)合作用?
。4)為解答問題所需之病例數(shù)和對照數(shù)能否得到?這樣大小的樣本能查出的最小相對危險度是多少?與估計的相差多少?[參考附錄五(四)節(jié)]。
。5)病例來源及抽樣技術(shù)明確否?病例數(shù)與對照數(shù)之比是多少?匹配否及匹配哪些變量?
。6)調(diào)查表(問卷)是否已包括打算測量的所有變量并能夠收集到需要的數(shù)據(jù)?其詳盡程度是否已足供分析之用?
。7)醫(yī)院記錄(病歷)及其他來源的信息、從體檢、實驗室檢查、病理切片等獲得的數(shù)據(jù)需表格記錄否?
(8)調(diào)查表經(jīng)過試用否?其真實度與可靠度(重復(fù)性)經(jīng)評估否?訪問時擬使用幫助回憶的實物、模型或圖片否?
(9)調(diào)查員、質(zhì)控員、病歷摘錄員、編碼員的工作手冊已編好否?須專門培訓(xùn)否?
(10)組織機構(gòu)、人員、設(shè)備、經(jīng)費落實否?
(11)協(xié)作單位有書面協(xié)議否?有關(guān)領(lǐng)導(dǎo)機關(guān)已批準否?將診斷根據(jù)(切片、標(biāo)本、影像圖片等)送到主持單位復(fù)核安排妥當(dāng)否?
。12)實驗室檢驗項目或用儀器檢測的項目所用儀器、方法、試劑是否符合標(biāo)準?結(jié)果的真實度與可靠度經(jīng)過考核否?
。13)經(jīng)治醫(yī)院、醫(yī)生是否同意提供病例和對照?是否必須取得研究對象在了解情況后的書面同意?資料、數(shù)據(jù)怎樣保密?怎樣保存?
5.數(shù)據(jù)分析 須分析什么項目,計算哪些統(tǒng)計量,用什么統(tǒng)計學(xué)方法,用手工(計算器)還是計算機,如用后者怎樣建數(shù)據(jù)庫和用什么軟件包,等等,都應(yīng)包括在設(shè)計之中,手工計算時還應(yīng)擬好相應(yīng)表格。現(xiàn)在計算機及統(tǒng)計軟件包的應(yīng)用漸趨普及,過去很難進行的一些復(fù)雜的統(tǒng)計檢驗現(xiàn)在很快就可完成并打印出結(jié)果還可繪出統(tǒng)計圖。但是,一些流行病學(xué)專家主張先用手工計算基本內(nèi)容以熟悉數(shù)據(jù),然后再由計算機作復(fù)雜運算(多元分析)。
本節(jié)要介紹的是基本原理和基本方法,無論用手工或機器運算,這些都是應(yīng)熟悉的。
病例對照研究數(shù)據(jù)分析的中心內(nèi)容是比較病例和對照中暴露的比例并由此估計暴露與疾病的聯(lián)系程度,并估計差別與聯(lián)系由隨機誤差造成的可能性有多大,特別要排除由于混淆變量未被控制而造成虛假聯(lián)系或差異的可能。進一步,還可計算暴露與疾病的劑量反應(yīng)關(guān)系,各因子的交互作用(對一種因子的暴露會不會影響對另一種因子的效應(yīng)),等等。非匹配和匹配設(shè)計的研究,數(shù)據(jù)的分析方法有一些不同。
。1)非匹配數(shù)據(jù)的分析:首先要檢驗病例組與對照組在某些主要特征(即可能成為混淆因子的特征)的構(gòu)成上是否沒有顯著差別(均衡性檢驗)。
1)聯(lián)系的顯著性與聯(lián)系強度:某個因素與某種結(jié)局(患病或死亡)之間的聯(lián)系是否有統(tǒng)計學(xué)顯著性,常用χ2檢驗。最簡單的情況是因素與結(jié)局都只分為“有”或“無”兩類,數(shù)據(jù)可納入一張2×2表(即四格表,又稱四格列聯(lián)表),例如表4-1。χ2檢驗可用四格表專用公式(式4-1)。但χ2值的大小并不表示聯(lián)系的強度。χ2≥3.84時,設(shè)兩者無聯(lián)系的假設(shè)(無效價設(shè),H0)被否定,而轉(zhuǎn)向存在聯(lián)系的假設(shè)(備擇假設(shè),HA),這個判斷錯誤的可能性為≤0.05(即ρ≤0.05)。χ2值越大,判斷錯誤的可能性越小。
表4-1 危險因子與疾病的聯(lián)系
患病 |
有暴露史 |
無暴露史 |
合計 |
有 |
a |
b |
a+b |
無 |
c |
d |
c+d |
合計 |
a+c |
b+d |
a+b+c+d=n |
統(tǒng)計學(xué)顯著性可以評價在多大程度上可用機會解釋所觀察到的聯(lián)系。但如數(shù)據(jù)本身存在系統(tǒng)誤差,統(tǒng)計學(xué)顯著性檢驗就無意義,因為它不能區(qū)別聯(lián)系的真或假(由偏倚、混淆所致的聯(lián)系)。此外,統(tǒng)計學(xué)顯著性檢驗結(jié)果極大地受樣本含量的影響,樣本小則隨機變異大;即使實際上暴露的作用很大,也會導(dǎo)致“不顯著”的結(jié)論。所以“不顯著”應(yīng)理解為“不足以否定無效假設(shè)”。
(式4-1)
現(xiàn)況調(diào)查和隊列研究(見本章“二、隊列研究”)可以計算暴露者(或具某特征者)和未暴露者(或不具某特征者)的患病率或發(fā)病率,因為分子數(shù)與分母數(shù)是已知的。也可以計算相對危險度(見本章公式4-11)。這是聯(lián)系強度的一個指標(biāo)。
但是病例對照研究因為不能計算出患病率或發(fā)病率所以不能計算相對危險度,但可用另一個聯(lián)系強度指標(biāo)——比數(shù)比(odds ratio,又譯比,值比、優(yōu)勢比,縮寫為OR)。比數(shù)比是兩個比數(shù)之比。比數(shù)(odds)是表示一個事件發(fā)生機會大小的一種指標(biāo)。以表4-1為例(字母代表數(shù)目),如果是隊列研究與現(xiàn)況調(diào)查,可以計算發(fā)。ɑ蚧疾)比數(shù),暴露組的這個比數(shù)為α/c,未暴露組的這個比數(shù)為b/d。如果是病例對照研究,可以計算暴露比數(shù),在病例組是α/b,在對照組是c/d。兩組比數(shù)之比稱為比數(shù)比,
OR =(α/b)/(c/d)=αd/bc
或
OR =(α/c)/(b/d)= αd/bc.
。ㄊ4-2)
這個比正好是四格表中兩條對角線上四個數(shù)字的交叉乘積αd與bc之比,所以四格表數(shù)據(jù)的OR又稱交叉乘積比。OR可用于隊列研究,但更重要的是用于病例對照研究。在少見病,OR可以當(dāng)作RR去解釋,即OR近似于RR。因在此情況下總體內(nèi)不論暴露組或未暴露組中患病者的人數(shù)(分別記為A與B,用大寫字母區(qū)別于樣本數(shù)據(jù)的小寫字母)都遠少于未患病者的人數(shù)(C與D),所以在總體內(nèi)A+C→C,B+D→D,于是
因為從隨機樣本的α/c與b/d可以估計A/C或B/D,所以可用αd/bc估計AD/BC,也就是說可以用OR作為RR的估計值。
暴露組與未暴露組的發(fā)病率或死亡率之比稱為率比(rate ratio)。兩組發(fā)病概率之比稱為危險度比(risk ratio)。在少見病,這兩個比和比數(shù)比均近似,可統(tǒng)稱為相對危險度。
從OR(或RR)值可估計暴露與疾病的聯(lián)系程度。這種聯(lián)系的穩(wěn)定性,即隨機變異的大小可用顯著性檢驗的ρ值和可信限來估計。OR是用來估評暴露與疾病的聯(lián)系程度或即暴露作用強度的一個點估計值(0~∞),但為估計這個值受隨機變異影響的程度,最好同時算出可能包括真值(參數(shù))的一個取值范圍,表示以一定程度的信心估計參數(shù)值所在的范圍,稱為可信限或可信區(qū)間(confidence interval)。計算方法詳見附錄五。如果可信限包括了無效值(OR=1),說明該聯(lián)系無顯著性;可信限的寬度又反映點估計值(OR)的穩(wěn)定性,范圍寬說明估計值不穩(wěn)定,也就是隨機變異程度大。所以現(xiàn)在認為僅計算出點估計值的意義有限,應(yīng)同時計算出其可信限。
2)分層數(shù)據(jù)分析:病例對照研究在設(shè)計階段可采用的控制混淆因素的方法有限制與匹配。限制是指對采用研究對象的范圍加以限制,如混淆因素為列名變量(離散變量)可限定只采用某一類或幾類對象(例如性別、職業(yè)、地區(qū)等),如為連續(xù)變量可限定只采用某一范圍內(nèi)(例如年齡組、段)的對象。其目的都是得到比較勻質(zhì)的研究對象。如果一個因素在各對象間無差別或差別很小,它就不可能起到混淆作用,也就是得到了控制?稍诜治鲭A段采用的控制混淆因素的方法有分層、標(biāo)準化和多元分析。其中以分層分析最常用。
分層就是把樣本按照一個或更多個混淆因子的暴露有無或作用程度而劃分為若干個組,也就是“層”,再分別在每一層內(nèi)分析所研究暴露與疾病的聯(lián)系,計算各層的比數(shù)比(記為OR);
表4-2 第i層內(nèi)病例與對照按暴露有無分組
組別 |
病倒 |
對照 |
合計 |
暴露 |
αi |
bi |
m1i |
未暴露 |
ci |
di |
m0i |
合計 |
n1i |
n0i |
ni |
如果各層 具有齊性[齊性檢驗方法見附錄五(一)],則可以計算總的即各層OR的合并OR。因其方法系Mantel與Haenszel兩人所開發(fā),所以通常記作ORMH 。因在同一層內(nèi)作為分層標(biāo)志的因子對病例組與對照組的作用都是相同的,所以對所研究的暴露與疾病的聯(lián)系便不會發(fā)生混淆作用。其原理與匹配相同,實際上1:1匹配就是一種最細的分層,每層只包括一個病例與一個對照。合并OR是概括各層OR的一個指標(biāo)。
合并OR的計算方法:
(式4-3)
ORMH可信限的計算方法及計算實例見附錄五(一)。
ORMH如果不等于1,那么與1的差異是否顯著?可用作顯著性檢驗,其方法如下:
(式4-4)
式中,ai=各層四格表中的a數(shù)值,
檢驗假設(shè)(即無效假設(shè))Ho:OR=1,雙側(cè)備擇假設(shè)HA:OR≠1。統(tǒng)計量X2MH呈自由度為1的X2分布。
分層分析法舉例:某地進行了一次食管癌病因的病例對照研究,共調(diào)查病例200例,人群對照776例,F(xiàn)分析其中飲酒與食管癌的聯(lián)系,結(jié)果如表4-3。
表4-3 飲酒與食管癌的聯(lián)系
飲酒史 |
病倒數(shù) |
對照數(shù) |
合計 |
飲 酒 |
171 |
381 |
552 |
不飲酒 |
29 |
395 |
424 |
合計 |
200 |
776 |
976 |
OR=6.11 χ2=84.29
可見飲酒與食管癌有強聯(lián)系,但已知吸煙與食管癌也有強聯(lián)系。為了分析飲酒與食管癌顯示出的強聯(lián)系是否可能與吸煙有關(guān),或吸煙是否可能是一個混淆因子,可采用分層分析:按是否吸煙分為兩組,再分析飲酒與食管癌的聯(lián)系,結(jié)果見表4-4。
表4-4 飲酒與食管癌在吸煙與不吸煙者的聯(lián)系
不吸煙者 |
吸煙者 | ||||||
飲酒史 |
病倒 |
對照 |
合計 |
飲酒史 |
病倒 |
對照 |
合計 |
飲 酒 |
69 |
191 |
260 |
飲酒 |
102 |
190 |
292 |
不飲酒 |
9 |
257 |
266 |
不飲酒 |
20 |
138 |
158 |
合計 |
78 |
448 |
526 |
合計 |
122 |
328 |
450 |
OR=10.3 χ2=53.99 OR=3.70 χ2=24.62
計算ORMH ,先用公式(4-3)計算
再用公式(4-4)作χ2檢驗:
χ2MH=76.84
ρ<0.00000001。用附錄五公式(附式5-1)計算ORMH的95%可信限,上限為8.09,下限為3.81。用附錄五(一)的Woolf法作各層ORi的齊性檢驗,結(jié)果說明各層間的OR差異顯著,來自同一總體的可能性很小,所以O(shè)RMH不能說明吸煙、飲酒與食管癌的聯(lián)系,因此是無意義的。這種齊性檢驗可同時檢驗各因素間是否存在交互作用。本例的計算過程及結(jié)果解釋見附錄五(一)的計算實例。
以上關(guān)于分析方法的介紹,都是以暴露有無和疾病有無這種最簡單的兩分變量為例。實際情況常較此復(fù)雜,有必要時讀者可參考專書。