[회귀분석]

회귀분석이란 선후관계가 명백한 독립변수(설명변수라고도 함)와 종속변수(반응변수라고도 함) 간의 의존도(dependency)를 평가하는 방법이다. (1)종속변수가 독립변수에 의하여 설명되는 범위(extent), 방향(direction), 정도(strength)를 평가하고 (2)연속성 변수로 측정된 두 변수의 관계를 수학적 공식으로 함수화(예: Y = aX + b)할 수 있다. 선형회귀분석이란 두 변수의 관계가 직선적이라는 가정하에 회귀분석을 시도하는 방법으로 대부분의 회귀분석이 선형을 가정하기 때문에 일반적으로 선형(linear)이라는 단어를 앞에 생략하고 사용한다. 회귀분석은 분석을 시작하기 전에 분석자료가 직선적 관계에 있는지 확인해야 하는데 산점도에서 포물선이나 log-함수의 관계가 있다면 적절히 변환(transformation)시킨 후 회귀분석을 시행해야 한다. 일반적으로 회귀분석에서는 거리의 제곱의 합이 가장 작은 직선식을 구하게 되는데, 이를 최소제곱법(least square method)라고 한다. SPSS에서는 선형회귀분석 대화상자의 독립변수 항목에 하나의 변수만 넣으면 단순회귀분석, 두개 이상의 변수를 넣으면 다중회귀분석이 된다.

1. 단순회귀분석(simple linear regression)


종속변수를 추정하는데 사용할 독립변수의 수가 한 가지인 경우를 말하며 [Y = aX + b]와 같은 일차 함수식으로 표현된다. 단순회귀모형에는 (1) 정규성과 등분산성(X값에 관계없이 종속변수 Y의 분산이 일정), (2)독립성, (3) 선형성(linearity) 이라는 반드시 만족해야하는 세가지 기본조건이 있다. 단순회귀분석의 과정은 (1) 위의 세가지 조건에 맞는 단순선형회귀모형의 추론(모형의 선택), (2) 모형의 적합도 검정(test for goodness of fit), (3) 모형의 검토 (회귀진단)의 세단계로 이루어져 있다.

SPSS에서는 선형회귀분석을 시행하여 분산분석표에서 F-값이 유의한지 확인하고 계수표에서 상수와 B값(기울기)를 얻는다. 모형의 검토(회귀진단)를 위해서는 잔차통계량, P-P plot(정규분포를 따른다면 직성위에 점이 놓여야 한다), 표준화예측값과 표준화 잔차와의 산점도(이 두 통계량간에는 상관관계가 없어야 하므로 무질서하게 흩어져 있어야 한다)를 구해본다.

2. 다중회귀분석(multiple regression analysis)

종속변수를 설명하려는 독립변수의 수가 두가지 이상인 상황에서 회귀분석을 시도하는 방법이다. 결과는 Y = a + b1X1 + b2X2 + b3X3 + ....와 같이 표현된다. 다중회귀분석을 포함한 소위 다변량분석(multivariate analysis)에서는 포함된 변수들이 예측하기 어려운 정도로 서로 상대방 변수에 영향을 주기 때문에 몇가지 조건, 사항을 신중히 고려하면서 연구자료에 적합한 모델을 구축해야 한다.

다중회귀모델에서 '회귀모델에 독립변수로 포함되어야 하는 변수를 선정하는 방법(모델선정법: model selection)은 매우 중요하고도 어려운 문제이다. 크게 (1)선험적방법과 (2)통계적 확률에 의존하는 방법으로 나누어지는데 기존의 연구결과를 참조하고 연구자가 가지는 개인적인 경험이나 직관에 의하여 변수를 정하는 선험적인 방법이 많이 사용된다(예방의학과 유근영선생님도 이 방법을 선호한다고 하심). 즉 통계적으로 별다른 의미가 없는 결과가 나왔다고 하더라도 임상적으로, 직관적으로 꼭 들어가는 것이 좋겠다고 생각되는 변수는 넣어주는 반면, 아무리 통계적으로 유의한 수치가 나왔어도 실제로 별 의미가 없다고 판단되는 변수는 모델에서 제거하는 것이다. 통계적 확률에 의존하는 방법 중에는 모든 변수를 포함하는 입력방법(enter)과 독립변수가 아무 것도 포함되지 않은 모델로부터 출발하여 분산분석표의 F-값이 가장 큰 기여를 하는(유의 확률이 가장 작은) 변수를 순서대로 하나씩 선택하여 모델에 입력하는 단계적 선택방법(stepwise selection)이 주로 사용된다. 결국 변수의 설정에는 통계적 개념과 의학에 대한 일반적인 지식이 함께 요구되며 어느 정도의 예술적 감각도 있어야 한다.

[Home]