[비연속 범주형 변수의 분석 = 교차분석 (cross tab)]

가감승제가 불가능한 비연속형변수간의 통계적 관련성 유무를 평가하는 분석법이다. 때로는 연속형변수도 비연속형변수로 변환하여 적합한 통계적 가설검정을 실시하기도 한다. 범주형 자료에서 가설 검정에 속하는 독립성의 검정은 chi-square에 기초를 둔 여러 검정법이 주종을 이루는데, 이는 경향분석이나 모수추정은 할 수 없다는 단점이 있다. 원칙적으로 regression을 할 수 없는 범주형 자료에서 regression을 하기 위하여 개발된 방법이 로짓모델이며 이를 이용하여 (1)LR test, (2)LR test for trend (3)모수의 추정 (multivariate linear logistic regression analysis)이 가능하다

1. two-by-two 교차분석

행(row)과 열(column)이 모두 양분성(dichotomous)인 자료는 비연속성자료의 극단적인 경우로 두개의 조건부 확률(이항분포)의 곱으로 이루어지는 복잡한 분포를 따르게 되는데, 이 조건부 확률은 수가 충분히 커지면 chi-square 분포를 근사적으로 따른다. 가장 널리 사용되는 방법이 chi-square test 이다. 그러나 비연속적인 조건부확률을 연속적인 chi-square 분포로 근사시키는 과정에서 연속성 보정(continuity correction)을 하면 그 확률이 보다 정확할 수 있다. 그러나 2 x 2 교차표의 경우에 연속성을 보정해야 하는가에 대한 통계학자들간의 의견이 일치하지 않고 있으므로 Pearson's chi-square test의 결과와 Yate's correction에 의한 방법의 결과가 다를 때에는 Fisher's exact test(2 x 2 교차표의 비모수적검사법)와 같은 직접확률계산법으로 접근함이 보다 합리적이다. 또한 4개의 cell 에 하나라도 기대도수가 5 보다 작은 숫자가 있어도 Fisher's exact test를 시행하여야 한다.

검증방법의 선택 - Prism의 설명서에서 따온 글로 매우 적절한 요약이다

odd ratio(교차비, SPSS에서는 [요인에 대한 승산비]로 표현됨)와 relative risk(상대위험도, SPSS에서는 [코호트 질병유무=환자]로 표현됨)는 서로 혼동되어 사용되는 경향이 있으나 명백히 다른 개념이고 같은 숫자로 이루어진 자료라고 하더라도 odd ratio와 relative risk는 다른 결과를 보이므로 주의해서 적용해야 한다. 즉, odd ratio는 환자대조군 연구(retrospective study)에서 적용되는 개념이고 relative risk는 코호트 연구(prospective study)에서 이용되는 개념이다. 계산방법은 복잡하지 않으나 95% 신뢰구간은 계산이 복잡하여 컴퓨터를 사용하는게 좋다.

요인, 질병
A B
CD

odd ratio = A x D / B x C
relative risk = A/(A+B) / C/(C+D)

NNT(number needed to treat); 1명의 환자에서 효과를 보기 위하여 치료해야할 환자의 수. NNT는 ARR(absolute risk reduction = C/(C+D) - A/(A+B))의 역수로 얻어진다(1/ARR). 만약 치료군에서의 사망률이 11.3% 이고 placebo군에서의 사망률이 15.9% 라고 한다면 absolute risk reduction은 4.6%가 되고 NNT는 22(1/0.046)가 된다. 즉 1명의 사망을 감소시키기 위하여 22명을 치료해야 한다는 의미이다. NTT는 치료의 득과 실을 평가하는데 유용한 정보이다. 그러나 단점은 통계학적인 분석을 통하여 유의성을 검정할 수 없다는 점이다.

Prism에서 간단하게 Fisher's exact test를 시행하는 방법

  1. SPSS에서 cross tabulation table이라고 부르는 것을 Prism에서는 contigency table이라고 부른다.
  2. create data table : X format은 text, Y format은 single Y value를 선택
  3. data 입력
  4. analyze data에서 Type은 Statistical Analyses, Contingency Tables를 선택
  5. 항상 Fisher's exact test를 선택한다. 수천 이상의 많은 수의 데이타가 입력되면 계산방법이 자동적으로 chi-square test로 전환한다. 항상 Two-tailed, 95%의 기본값을 사용한다. prospective study가 아니면 odds ratio를 사용해야 한다.

Web에서 실행되는 corss tabulation table 분석 : two x two

2. two-by-k 교차분석 (2 X k)

한변수는 양분성(dichotomous)이지만 나머지 한 변수가 세가지 이상의 범주로 분류되는 순위독립변수일 때 적용되는 방법으로 [위암의 보호요인으로서 자녀를 모유로 기른 기간(3개월 단위)]이 좋은 예이다. [요인에의 폭로수준이 증가함에 따라 질병 확률이 변동하는가?]라는 양-반응관계(dose-response)를 관찰하도록 노력해야 한다. 이런 가설을 Pearson's chi-square 방법으로 분석하면 dose-response에 입각한 결론을 내리기가 어려우므로 경향분석법(test for trend)을 이용한다.

two-by-k 교차분석에서 dose-response를 확인하기 위하여 [각 폭로수준에 따르는 관련도 지표로 이루어지는 직선의 기울기는 0 이다]라는 가설을 증명하는 경향분석법(test for trend)에는 (1) 순위변수의 경향분석법(score test for trend; SPSS에는 포함되어 있지 않음), (2)linear by linear association(선형 대 선형 결합)방법, (3) likelihood ratio test for trend(우도비 경향분석법: LR test for trend)가 있다. 일반적으로 score test for trend (=Armitage test)가 가장 귄장되지만 SPSS에는 포함되어 있지 않다. 대신 2 x 2 교차분석과 같이 chi-square 검정결과에 포함되어 있는 linear by linear association(선형 대 선형 결합) 방법의 결과를 근사적으로 이용한다(여기서는 cell 내의 숫자가 5 이하여도 문제가 되지 않는다는 차이점이 있다). 선형로짓모델기법을 이용한 LR test for trend은 범주형자료분석 중에서 가장 정밀도가 높은 방법이며 정확히 이해하기 위해서는 어느 정도의 이론적 지식이 필요하다. linear by linear association를 시행하여 유의한 결과를 얻지 못했을 때에도 LR test for tesnd에서는 유의한 trend가 있다고 나오는 경우가 많으므로 특히 표본의 수가 많지 않을 때 아주 유용한 방법이다. 최근 LR test for trend의 사용 빈도가 점차 증가하고 있고 많은 논문에서 이 방법을 채택하고 있으므로 어렵더라도 반드시 이해하고 넘어갸야 할 분야이다.

3. R(row)-by-C(column) 교차분석

일반적으로 3 x 4 이상의 자료는 chi-square를 시행하면 거의 의미가 없다는 결과(p가 0.05 이상)가 나온다. 만약 유의한 결과를 얻고 싶다면 표본의 숫자를 아주 크게 늘려야 한다. 그러나 이는 아주 어려우므로 몇가지 변수를 묶어서 분석한 후 논문에는 원래의 table을 그대로 보여주고 주석에 [무슨무슨 변수를 합쳐 분석했더니 유의한 차이가 있었다]는 식으로 기술하는 편법이 추천된다.

1. 독립성에 대한 검정 : 3 x 3 이상으로 요약되는 자료중에서 두 변수가 모두 순위가 없는 명칭척도(nominal scale)인 경우(이런 경우는 의학에서 많지 않다)에는 Pearson's chi-square 통계치를 이용한 독립성검정을 한다. (1) 어떤 칸의 기대치도 1보다 작아서는 안되고,(2)칸의 수의 20% 이상에서 그 기대빈도수가 5 보다 작아서는 안된다는 조건을 만족해야 한다. 만약 위의 조건을 만족하지 못하면 해당 변수의 칸을 서로 통합하여 각 칸의 기대치를 크게 한 후 통계처리를 한다.

2. 경향분석 : 의학에서 사용되는 3 x 3 이상의 자료는 대부분 ordinal scale 변수로 이루어져 있으며 통계처리는 경향분석법에서 기초해서 이루어 진다. SPSS에는 Armitage test와 같은 score test for trend가 없으므로 linear by linear association으로 근사적 접근을 시도한다. SPSS chi-square 검정결과에서 독립성검정인 chi-square의 p-value를 읽으면 negative result이나 경향분석인 linear by linear association로는 positive result가 나올 수 있으므로 즉, 통계적 차이가 있다고 나올 수 있으므로 유의해야 한다.

3. 일치도(degree of agreement) 판정 : 범주형 자료에서 시행하는 correlation이라고 생각하면 이해가 쉬운 검정법으로 행과 열의 숫자가 같아야만 분석이 가능하다. A,B 두명의 방사선과 의사에 의한 판독결과(a,b,c,d)가 서로 일치하는 지를 보는 것이 한 예이다. Kendall's tau B, gamma, kappa 등이 있으며 가장 유용한 값은 코헨의 kappa 값이다. 이는 1에 가까울수록 높은 일치도를 보인다고 해석할 수 있다.

4. 층화분석법(stratified analysis)

역학적 연구에서 주로 이용되는 방법으로 confounding variable을 category별로 층화한 상태로 chi-square를 기초로 분석하여 그 영향을 보정해 주는 우수한 방법이다. 그러나 보정해야할 변수의 수가 많아지면 매우매우 복잡해지므로 logistic model를 이용한 다변량 분석법을 이용해야 한다. 실제요 요즘은 잘 쓰이지 않고 있다.

5. multivariate linear logistic regression analysis(선형 로지스틱 모델을 이용한 다변량 회귀분석법)

층화분석법의 한계를 극복하면서 동시에 독립변수의 변환이 자유롭고, [요인-질병]간의 관계를 양적으로 표시해줄 수 있으면서, 관찰 수가 작은 층에서도 질병위험도의 예측이 가능하고, 결과를 단순하고도 즉시 해석이 가능하게 비교위험도로 제시해 줄 수 있어야 하면서, 동시에 두 가지 이상의 독립변수의 복합작용(joint effect)을 개개위험도의 곱으로 표현할 수 있도록 고안된 것이 liner logistic regresssion model이다. 결과는 [ OR=1.6, CI=0.98-2.63 ]과 같은 방법으로 기술해 주는 것이 보통이다. 로짓모델을 이용하면 비선형인 자료도 분석할 수 있으며 연속형 데이타도 처리할 수 있다. 현재 역학연구의 기본을 이루는 분석법이자 범주형 자료분석의 기본 개념을 이루는 방법이다.

[Home]