[생존분석]

생존연구는 결과변수의 복잡성과 불완전한 관찰(censoring)으로 인하여 매우 복잡하며 아직 통계학적으로 해결되지 않은 문제가 많은 분야이다. 생존연구의 결과변수은 생존여부(survivorship)과 생존기간(failure time)의 두가지 복합변수로 구성되어 있으며, 실제로 연구에서는 일정시간에서의 생존여부(failure of observation)에만 관심이 있다. 연구관찰의 개시 및 종료가 다분히 인위적이기 때문에 생존여부의 확인이 불가능한 예가 반드시 발생한다. unceosored case는 사망이나 재발을 확인함으로써 추적관찰의 목적을 이룬 complete observation을 말하며 censored case는 최종적인 결과를 얻지 못하게 되는 incomplete observation을 뜻한다. censoring은 두가지 형태로 구별할 수 있다. type I censoring은 추적관찰이 종료됨으로써 관찰이 불완전해지는 경우(cut off)이다. type II censoring은 추적관찰되는 기간 중에 도중탈락(follow-up loss ; untraced)되는 경우로 random censoring이라고도 한다. 생존분석에서 이러한 censored case의 발생은 완전히 무작위적이어야 하고, 생존기간과는 독립적이어야 한다는 가정을 전제로 한다.

생존분석에서는 오직 일정시점에서의 생존여부에만 관심이 있기 때문에 cut-off에 의한 censoring과 follow-up loss에 의한 censoring을 구별하지 않는다. 따라서 생존분석에서 전체 표본 중 censoring이 차지하는 비율이나 censoring 중 follow-up loss에 의한 censoring이 차지하는 비중은 별다를 통계적 의미를 가지지 않는다. 결국 좋은 연구를 위해서는 follow-up loss가 되는 예를 최대한 줄이는 것이 좋겠지만 어느 정도 follow-up loss가 되었다고 해서 자료를 통계적으로 분석할 수 없는 것은 아니다. 일반적으로 follow-up loss의 비율은 15% 이상을 넘지 않아야 하며 20% 이상이 되면 연구결과의 신뢰성을 인정받지 못한다. 끝까지 추적되지 못한 예의 비율과 같이 생존분석에서 별다를 의미를 갖지 않는 데이타는 생존율 통계의 결과와 함께 따로 기술해 주는 것이 좋다. phase III 임상시험에서 탈락률이 양 처치군간의 효능의 차이와 비슷한 수준이면 (e.g. 두 군의 차이가 15%인데 탈락률도 15%인 경우) 그 결과는 신빙성이 없는 것으로 간주한다.

생존률 분석의 원칙

1. 누적 생존율의 산출 : 각 군의 생존곡선을 그리는 단계

  1. 생명표(actuarial)법

    원래 생명보험회사에서 이용하던 방법을 의학에 도입한 것으로 누적생존율을 산출하는 non-parametric 방법 중 하나이다. 관찰기간을 일정단위로 나누어 각 구간마다의 구간생존율을 구하고 이들의 누적으로 일정기간까지의 누적생존율을 구하는 방법이며 연구대상의 크기가 최소한 50표본은 넘어야 된고 관찰 단위당 10표본 이상 되는 것이 좋다.

  2. Kaplan-Meier법 (product-limit법)

    표본의 크기가 50 이하인 경우에 적용하는 방법으로, product-limit법이라는 어의에서 알 수 있듯이 일정한 간격의 구간생존율을 구하는 것이 아니라 각 사망이 일어난 시점에서의 생존율을 구하고 이들의 누적으로 누적 생존율을 산출하는 방법이다. 만약 follow-up loss(type 2 censoring)나 cut-off에 의한 관찰중단(type 1 censoring)이 사망과 동시에 일어났다면 사망이 censoring보다 먼저 발생한 거으로 간주하여 계산한다. 이해하기가 쉽고 중도탈락이나 관찰중단예에 대한 취급이 간단하여 널리 적용되고 있다.

2. 두 생존곡선의 비교 : 가설을 검정하는 단계

생명표법으로 작성된 누적생존률을 비교하는데는 Mantel-Haenszel법이 주로 사용된다. Kaplan-Meier법 (product-limit법)에 의한 누적생존률의 비교에는 두가지 방법이 가능한데 생존기간이 긴 자료에서는 log-rank법이 , 생존기간이 짧은 자료에서는 Gehan's generalized Wilcoxon 법이 주로 이용된다.

  1. Mantel-Haenszel법

    개개의 관찰구간마다 작성된 2 x 2 분할표와 chi-square 분포를 이용하여 유의성을 판단하는 방법으로 주로 생명표법에 의하여 작성된 생존율의 비교에 이용된다. 이 과정에서 censored data를 모두 제외하는데 이 때문에 통계적 검정력 (statistical efficiency)가 다른 방법에 비하여 낮아져 '유의하지 않다'라고 판정될 가능성이 높다. 또한 초기구간의 생존양상이 통계적 유의성 검정결과에 더 큰 영향을 미치게 된다. 관찰 초기에는 증례수가 많고 시간이 경과하면 증례수가 감소하므로 관찰 초기구간의 생존양상이 통계적 유의성 검정에 더 큰 영향을 미치게 되는 특징이 있다.

  2. Log-rank법

    Mantel-Haenszel법을 일반화한 것으로 관찰대상 개개인을 관찰기간 순으로 배열하고 사망이 일어난 시점에서 관찰된 사망자 수와 기대 사망자수를 산정하여 자유도가 1인 chi-square test로 그 유의성을 검정하는 방법이다. 일반적으로 Kaplan-Meier법으로 산출한 생존곡선 비교에 이용된다. 비교적 생존기간이 긴 자료이 분석에 적합하다.

  3. Gehan's generalized Wilcoxon법

    Mantel-Haenszel법과 Log-rank법이 추적관찰구간 또는 특정시점에서의 사망자의 수를 파악하여 산출한 누적 생존율을 비교,분석하는 방법임에 비하여, 일반화한 윌콕슨법은 두 비교대상 치료군에서의 생존기간의 길고 짧음을 지표로하여 비교분석하는 통계기법이다. 비교적 생존기간이 짧은 자료의 분석에 적합하다.

3. 지금까지의 결과를 그래프로 그려보자

SPSS나 SAS에서도 생존곡선을 구할 수 있으나 섬세한 조절이 어렵기 때문에 논문이나 presentation용으로는 적당하지 않다. 이때 GraphPad Prism이라는 프로그램이 가장 많이 이용된다. Prism을 이용하여 생존곡선을 그려보도록 하자.

  1. prizm program -> start a new project
  2. created data table: X format = Numbers, Y format = Single Y values
  3. X values에는 follow up duration을 Y의 data set A와 data set B에는 각 group의 결과 (0,1)을 입력한다. uncensored case (death) = 1, censored data (survival or follow-up loss) = 0
  4. Analysis data -> survival curve, Death = 1, Censored subjects = 0 하고 OK를 친다.
  5. Graph로 이동
  6. Change axes : Y는 0-1.01까지 X는 원하는 follow up duration 까지로 설정. 간격은 적당히
  7. change symbols and lines : data set A,B 모두에서 connecting line, staircase로 설정하고 error bar는 없앤다
  8. 각 line과 X-축, Y-축에 대한 이름을 넣는다.
  9. 각 요소의 색깔을 적당히 조절한다.
  10. Edit -> Copy 후 다른 프로그램에서 Paste를 누르면 결과가 삽입된다.

4. 교란변수의 영향을 보정 : 예후인자를 확인하는 단계

Cox proportional hazards model은 (1)특정 질환의 치료결과에 유의한 영향을 주는 예후인자를 규명하고, (2)이 예후인자들이 복합적으로 환자의 생존율에 미치는 영향을 상대위험도(relative risk)로 계량화할 수 있으므로 가장 많이 쓰인다. 단 (1) proportionality assumption, (2) log linearity assumption 이라는 두가지 기본 가정을 만족해야 한다.

[Home]