網站首頁
醫(yī)師
藥師
護士
衛(wèi)生資格
高級職稱
住院醫(yī)師
畜牧獸醫(yī)
醫(yī)學考研
醫(yī)學論文
醫(yī)學會議
考試寶典
網校
論壇
招聘
最新更新
網站地圖
您現在的位置: 醫(yī)學全在線 > 理論教學 > 基礎學科 > 醫(yī)學統計學 > 正文:X2檢驗
    

X2檢驗

  X2(稱卡方)檢驗用途較廣,但主要用于檢驗兩個或兩個以上樣本率或構成比之間差別的顯著性,也可檢驗兩類事物之間是否存在一定的關系。

  一、兩個率的比較

  (一)X2檢驗的基本公式 下頁末行的例3.1是兩組心肌梗塞病人病死率的比較,見表3.5,其中對照組未用抗凝藥。兩組病人的病死率不同,抗凝藥組為25.33%,對照組為40.8%。造成這種不同的原因可能有兩種:一種是僅由抽樣誤差所致;另一種是兩個總體病死率確實有所不同。為了區(qū)別這兩種情況,應當進行X2檢驗。其基本步驟如下:

  1.首先將資料寫成四格表形式,如表3.6。

  將每個組的治療人數分為死亡與生存兩部分,各占四格表中的一格,這些數字稱為實際頻數,符號為A,即實際觀察得來的數字。

  2.建立檢驗假設 為了進行檢驗,首先作檢驗假設:兩種療法的兩總體病死率相等,為35%(即70/200),記為H0:π12。即不論用或不用抗凝藥,病死率都是35%,所以亦可以換一種說法:病死率與療法無關。

  上述假設經過下面步驟的檢驗后,可以被接受也可以被拒絕。當H0被拒絕時,就意味著接受其對立假設即備擇假設H1。此例備擇假設為兩總體病死率不相等,記為H1:π1≠π2

  因為我們觀察的是隨機現象,所以無論是接受或拒絕H0都冒有一定風險,即存在著錯判的可能性。一般要求,當錯誤地被拒絕的概率α不超過一定的數值,如5%(或0.05),此值稱為檢驗水準,記為α=0.05。

  3.計算理論頻數 根據“檢驗假設”推算出來的頻數稱理論頻數,符號為T。計算方法如下:假設兩總體病死率相同,都是35.0%,那么抗凝血組治療75人,其死亡的理論頻數應為75×35.0%=26.25人,而生存的理論頻數為75-26.25=48.75人。用同樣方法可求出對照組的死亡與生存的理論頻數,前者為43.75人。后者為81.25人。 然后,把這些理論頻數填入相應的實際頻數格內,見表3.6括號內數字。

  計算理論頻數也可用下式(3.4)

  TRC=nRnC/N (3.4)

  式中,TRC為R行與C列相交格子的理論頻數,nR為與計算的理論頻數同行的合計數,nC為與該理論頻數同列的合計數,N為總例數。

  例如;表3.6第一行與第一列相交格子的理論頻數(T1)為

  T11 75×70/200=26.25

  用兩種方法計算,結果是相同的。

  4.計算χ2值,計算χ2值的基本公式為:

  X2=∑(A-T)2/t 。3.5)

  式中,A為實際頻數,T為理論頻數,∑為求和符號。

  將表3.6里的實際頻數與理論頻數代入式(3.5)即求得χ2值。此例χ2=4.929。

  從式3.5中可看出,實際頻數與理論頻數之差(A-T)愈小,所得的χ2值就愈小,理論頻數是根據檢驗假設推算出來的,若與實際頻數相差不大,說明假設與實際情況符合,于是就接受H0,認為兩病死率無顯著差別;反之,若(A-T)大,則χ2值亦大,說明假設與實際不符,就拒絕假設,認為兩病死率有差別。但χ2值大還是小,要有一個比較的標準,要查χ2值表(附表1),查χ2值表前先要定自由度。

  5.求自由度 自由度是數學上的一個名詞。在統計中,幾個數據不受任何條件(如統計量,即樣本特征數)的限制,幾個數據就可以任意指定,稱為有幾個自由度。若受到P個條件限制,就只有n-p個自由度了。例如在四格表中有四個實際頻數,如沒有任何條件限制,則4個數字都可任意取值,有4個自由度,當a+b,,c+d,a+c,b+d都固定后,在a、b、c、d四個實際頻數中,只能有一個頻數可任意指定了,因此,四格表的自由度為1。其計算公式為:

  ν=(R-1)(C-1) (3.6)

  式中,ν為自由度,R為橫行數,C為縱列數。

  四格表有2行和2列(注意:總計與合計欄不算在內)。因此ν=(2-1)(2-1)=1。

  6.求P值,作結論 根據自由度查χ2值表(附表1)。此表的左側ν為自由度,表內數字χ2值,表的上端P是從同一總體中抽得此樣本χ2值的概率。三者關系是:在同一自由度下,χ2值越大,從同一總體中抽得此樣本的概率P值越;在同一P值下,自由度越大,χ2值也越大。χ2值與概率P呈相反的關系。χ2檢驗的常用界值為:

  χ220.05()P>0.05 在α=0.05水準處接受H0,差別不顯著

  χ20.05≤χ220.01()0.05≥P>0.01 在α=0.05水準處拒絕HO,接受H1,差別顯著

  χ2≥χ20.01()P≤0.01 在α=0.01水準處拒絕HO,接受H1,差別顯著

  這里α是預定的檢驗水準。χ20.05()是當自由度為ν時與P=0.05相對應的χ2 值,簡稱5%點,χ20.01()是與P=0.01相對應的χ2 值,簡稱1%點。

  當ν=1時,χ20.05(1)3.84,χ20.01(1)=6.63。本例自由度為1,求得χ2=4.929,介于3.84與6.63之間,或寫成χ20.05(1)220.01(1)。由于與3.84對應的縱行P=0.05,與6.63對應的縱行P=0.01,因此與樣本χ2=4.929相應的概率介于0.05與0.01之間,寫成0.05>P>0.01。在α=0.05水準處拒絕H0,接受H1,兩總體率不等。對照組的病死率較抗凝血組高。

  在α=0.05水準處拒絕H0,說明若在同樣情況下作100次判斷,將有5次或不到5次的機會,將原沒有差別的兩總體率錯判為有差別,或說這樣判斷犯I型錯誤的概率不超過5%。

  下面將實例的檢驗步驟集中列出。

  例3.1 兩組心肌梗塞病人的病死率可見于表3.5,其中對照組未用抗凝藥?鼓M病死率為25.33%,對照組為40.80%,問兩組病死率有無顯著差別?

表3.5 兩組心肌梗塞病人病死率比較

組別 治療人數 死亡人數 病死率(%)
抗凝血組 75 19 25.33
對照組 125 51 40.80
總計 200 70 35.00

  檢驗步驟如下:

  1.將資料列成四格表形式,如表3.6。

表3.6 四格表式樣

  死亡 生存 合計
抗凝血組 19(26.25) 56(48.75) 75
對照組 51(43.75) 74(81.25) 125
總 計 70 130 200

  2.H0:兩療法的總體病死率相同,即π1=π2

  H1:兩療法的總體病死率不同,即π1π2

  α=0.05

  3.求理論頻數

  抗凝血組:

  死亡人數為75×35.0%=26.25人

  存活人數為 75-26.25=48.75人

  對照組:

  死亡人數為125×35.0%=43.75人

  存活人數為 125-43.75=81.25人

  把理論頻數填入相對應的實際頻數格內,見表3.6括號內數字。

  4.求χ2值 將表3.6里的數值代入式(3.5)得,

  5.求自由度,確定P值,作結論

  ν=(2-1)(2-1)=1,χ2 0.05(1)=3.84,χ2 0.01(1)=6.63,

  本例χ2 =4.929,χ2 0.05(1)22 0.01(1),則0.05>P>0.01,在α=0.05水準處拒絕H0,接受H1,即兩總體病死率不等,對照組病死率較抗凝血組高。

  上例告訴我們,兩個樣本病死率一大一小,在未作檢驗之前,很難說它們兩總體率是否有差別,為了作出正確判斷,作X2檢驗。先假設兩總體病死率相同,推算理論頻數,由實際頻數與理論頻數計算χ2值,二者相差越大,χ2值也越大。本例得χ2=4.929,根據自由度為1時的χ2分布推斷,從同一總體內抽樣,出現χ2值等于或大于4.929的概率較小,每一百次中在5次以下,1次以上,因此檢驗假設被拒絕,而判斷為有顯著差別。

  (二)連續(xù)性校正公式 χ2檢驗是以連續(xù)的光滑曲線做根據的,當自由度為1時,χ2檢驗所得的概率容易偏低,因些需要校正,校正后的χ2值比不校正的小一些,校正公式是:

   (3.7) 

  公式中A-T前后兩條直線是絕對值的符號。

  將表3.5資料代入式(3.7)得:

  檢驗兩個率相差的顯著性時(此時自由度為1),理論上都可用校正公式。但當用公式(3.5)求出的χ2值小于3.84時,相應的P值大于0.05,表示兩個率相差不顯著,校正后χ2值更小,仍得同樣結構,就無須校正;當用未校正公式求出的χ2值遠遠超過3.84時,校正后的結論仍相同,在此種情況下也可不校正;當自由度為2及以上時,則不必校正。

  當用公式(3.5)求出的χ2值略大于3.84時,校正最為必要,往往會改變原來的結論,舉例如下。

  例3.2表3.7是六六六粉的兩種配方進行野外煙劑滅黃鼠實驗的觀察結果。

表3.7 六六六粉兩種配方滅黃鼠的效果

  煙薰后鼠洞情況 合計(實驗觀察洞數) 滅洞率(%)

未盜開

盜開

04號配方 13(16.63) 9(5.37) 22 59.1
05號配方 80(76.37) 21(24.63) 101 79.2
總 計 93 30 123 75.6

  現用公式(3.5)及式(3.6)分別計算χ2值如下:

  校正后的χ2值小于3.84,P>0.05,在α=0.05的水準處接受H0,認為兩種配方滅黃鼠效果無顯著差異,這相結論是比較合理的,如果不經校正就會得出錯誤的結論。

 。ㄈ)四格表中求χ2的專用公式 用上述基本公式(3.5)求χ2值,需要求出與實際頻數一一對應的理論頻數,運算較繁。在四格表中,用下列專用公式較為簡便。

 (3.8)

  式中a、b、c、d為四格表中的實際頻數,N表示總例數(即N=a+b+c+d)。

  現仍以表3.5資料為例,先寫成四格表形式,如表3.8。

表3.8 四格表求χ2值專用公式的符號

  死 亡 生存 合 計
抗凝血組 19(a) 56(b) 75(a+b)
對照組 51(c) 74(d) 125(c+d)
  70(a+c) 130(b+d) 200(N)

  將實際頻數代入式(3.8)得,

  這里用專用公式求得的χ2值與前面用基本公式求得的結果完全不同,有時這兩個公式求得的結果小數點后幾位可能稍有出入,這是由于受小數四舍五入的影響。

  前面已介紹了連續(xù)性校正公式(3.7),為使運算更為簡便,下面列出專用公式的連續(xù)性校正公式(3.9),并以表3.8資料代入計算如下:

(3.9)

  所得結果與式(3.7)求得的一致。

  二、多個率或多個構成比的比較

 。ㄒ)2×K表的專用公式,前面已討論了,兩個率的比較用四格表專用公式計算χ2值較為簡便。如果是多個率比較,就要列成2×K表。這里的K暫為所比較的組數,2為每個組內所劃分的類型數。求χ2值時本可用基本公式計算,但以用下列專用公式為便:

             (3.10) (3.11)

        表3.9 2×K表形式之一

a1

a2

b1

b2

n1

n2

∑ai ∑bi N

  公式中符號的意義參閱表3.9,以上兩個公式的計算結果是完全一樣的。

  例3.3 某地觀察磺胺三甲氧吡嗪加增效劑(吡嗪磺合劑)預防瘧疾復發(fā)的效果,用已知有抗瘧疾復發(fā)效果的乙胺嘧啶和不投藥組作對照,比較三組的瘧疾復發(fā)率,資料如表3.10,問三組復發(fā)率有無顯著差別?

表3.10 三個組的瘧疾復發(fā)率

組 別 觀察例數 復發(fā)例數 復發(fā)率(%)
吡嗪磺合劑

乙胺嘧啶

對 照

1996

473

484

76

27

53

3.81

5.71

10.95

合 計 2953 156 5.28

  χ2檢驗步驟如下:

  1.將表3.10資料寫成2×K表形式,見表3.11。注意:這里必須把各組的觀察例數分為復發(fā)和未復發(fā)兩部分,這樣表3.10就為寫成2×3表。

表3.11 三個組瘧疾復發(fā)率的比較

  復發(fā) 未復發(fā) 合 計
吡嗪磺合劑 76 1920 1996
乙胺嘧啶 27 446 473
對 照 53 431 484
合 計 156 2797 2953

  2.H0:三個總體復發(fā)率相同

  H:三個總體復發(fā)率不全相同

  α=0.05

  3.求χ2值 將表3.11的數值代入式(3.10)(因為在表3.11中,各組的a值較小,計算較方便)得:

  4.求自由度,確定P值,作結論

  ν=(K-1)(2-1)=(3-1)(2-1)=2,查χ2值表得χ20.01(2)=9.21,本例χ2=39.92>χ20.01(2),P<0.01,在α=0.05的水準處拒絕H0,接受H1,即三個組的復發(fā)率有顯著差別。

  本例的結論是三個組的復發(fā)率有顯著差別,因此,還需進一步說明三組中那兩組有差別,可用四格表對每兩個率進行假設檢驗。本例的檢驗結果是:吡嗪磺合劑與對照組比(P<0.01),乙胺嘧啶組與對照組比(P<0.01),而吡嗪磺合劑與乙胺嘧啶比(P>0.05),說明吡嗪磺合劑有預防瘧疾復發(fā)的作用,其效果不低于乙胺嘧啶。

  本例2×K表的2是指得發(fā)、未復發(fā)兩項,K為比較的組數,K=3。如果比較組數只有2,而構成每組的項數則多于2,如甲狀腺腫的型別構成可分為彌漫型、結節(jié)型、混合型三種。這類資料亦同樣可用2×K表專用公式進行檢驗。這時把2作為比較組數,K作為項數,檢驗方法同上,表3.12是2×K表的另一種形式。

表3.12 2×K表形式之二

a1 a2 …… ∑ai

∑bi

b1 b2 ……
n1 n2 …… N

  例3.4,為研究不同地域甲狀腺型別的構成有無顯著差別,某省對兩個縣的居民進行甲狀腺腫調查,得資料如表3.13,問甲乙兩縣各型甲狀腺腫患者構成比有無顯著判別?

表3.13 某省甲乙兩縣甲狀腺腫患者型別構成比較

縣名 彌漫型 結節(jié)型 混合型 合計
甲縣 486 2 4 492
乙縣 133 260 51 444
合計 619 262 55 936

  檢驗步驟如下:

  1.H0:兩總體甲狀腺腫型別構成相同

  H1:兩總體甲狀腺腫型別構成不同

  α=0.05

  2.求χ2值, 將表3.13中的數值代入式3.10得:

  3.求自由度,確定P值,作結論。

  ν=(3-1)(2-1)=2,查χ2值表得χ20.01(2)=9.21,本例,χ2=494.36,P<0.01,在α=0.05水準處拒絕H0,接受H1,甲、乙兩縣甲狀腺腫型別構成有差別(P<0.01)。甲縣以彌漫型為主,而乙縣結節(jié)型較多,地域與患者的型別構成具有一定的關系。

  此類資料經χ2檢驗作結論,如果不顯著,說明兩組資料的構成比來自同一總體,沒有顯著差別。如果結論顯著,說明兩組的構成比來自不同總體,差別有顯著性。同時要指出兩組構成的主要區(qū)別。

  (二)R×C表的通用公式當資料的行數和列數都超過2時稱R×C表。對此種資料作假設檢驗時,可用基本公式(3.5),但運算較繁,如果用R×C表的通用公式計算χ2值,較為簡便。

              (3.12)

  式中,Aij為i行第j列的實際頻數,ni為第i行的合計數,nj為第j行列的合計數,N為總頻數。

  這個公式也系由基本公式(3.5)推導出來,式(3.12)也可用以求四格表、2×K表資料的X2值,故稱通用公式,用此公式不需計算理論頻數,與基本公式(3.5)相比,較為簡便。

  例3.5某院肝膽外科在手術中觀察了膽結石的部位與類型得資料如表3.14,試分析兩者間有無關系存在?

表3.14 膽結石類型與部位的關系

結石部位

總例數

例數

百分比

膽固醇結石 膽紅素結石 其它 膽固醇結石 膽紅素結石 其它
膽囊 118 70 16 32 59.3 13.6 27.1
肝外膽管 75 12 39 24 16.0 52.0 32.0
肝內膽管 29 2 20 7 6.9 69.0 24.1
合計 222 84 75 63 37.8 33.8 28.4

  檢驗步驟如下:

  1.將表3.14資料寫成R×C表形式,見表3.15.

表3.15 膽結石類型與部位的關系

結石部位

結構類型

膽固醇結石 膽紅素結石 其它 合計
膽囊 70 16 32 118
肝外膽管 12 39 24 75
肝內膽管 2 20 7 29
合計 84 75 63 222

  2.H0:膽結石的類型與部位沒有關系

  H1:膽結石的類型與部位有關系

  α=0.01

  3.求χ2值 將表3.15數值代入式(3.12)得:

  4.求自由度,確定P值,作結論。

  ν=(3-1)(3-1)=4,查χ2值表得χ20.01(4)=13.28,本例χ2=64.06<χ20.01。在α=0.01水準處拒絕H0,接受H1,膽結石類型與部位有顯著關系存在(P<0.01),膽囊內以膽固醇結石居多,肝內、外膽管以膽紅素結石為主。

關于我們 - 聯系我們 -版權申明 -誠聘英才 - 網站地圖 - 醫(yī)學論壇 - 醫(yī)學博客 - 網絡課程 - 幫助
醫(yī)學全在線 版權所有© CopyRight 2006-2026, MED126.COM, All Rights Reserved
浙ICP備12017320號
百度大聯盟認證綠色會員可信網站 中網驗證