본문 바로가기

다변량자료분석의 이해와 활용

중다회귀분석의 유형과 해석

중다회귀분석의 유형과 해석 

 


1. 중다회귀분석의 유형과 해석

중다회귀분석은 가장 기본적이면서 활용 범위가 넓은 통계기법으로 각광을 받고 있으나, 실제 자신의 연구문제를 해결하는 적합한 회귀분석방법을 적절히 골라 사용하는 연구자는 많지 않은 것 같다. 
특히 중다회귀분석은 변인들간의 선형조합을 사용하기 때문에 변인들이 투입되는 순서에 따라 결과에 상당한 차이를 가져온다. 
변인들이 투입되는순서를 결정하는 것은 연구의 목적과 논리적인 순서에 기초하여야 하는데, 이러한 과정을 통해 연구목적에 맞는 적합한 회귀분석의 유형을 선택하게 된다. 
많은 사용에도 불구하고 자신의 연구를 뒷받침하는 타당한 해법을 찾지 못하였다고 불평하는 사람들은 대체로 잘못된 유형의 회귀분석을 수행한 결과일 수 있다. 
물론 그 결과는 최종적인 해석과정에 오류를 범할 뿐만 아니라 잘못된 결론을 내리는 원인이 된다.

일반적으로 중다회귀분석은 크게 다음의 세 가지 유형으로 구분된다. 표준 중다회귀분석(standard multiple regression), 위계적 중다회귀분석(hierarchical multiple regression), 단계적중다회귀분석(stepwise multiple regression), 
이와 같은 유형은 2.2절에서 언급한 연구목적에따라 다르게 적용되어야 하는데, 각 연구목적에 적합한 회귀분석의 유형을 분류하면 다음과 같다.

연구의 목적회귀모형의 검증표준 회귀분석0X개별 독립변인의 효과검증XX독립변인의 통제효과새로운 독립변인의 추가효과위계적 회귀분석 단계적 회귀분석X가설검증 0 가설검증탐색적 연구 x | 탐색적 연구 이000| 가설검증 0 | 가설검증 x탐색적 연구 X| 탐색적 연구 이이들의 응용인 Setwise 방법을 사용x독립변인간의 상호작용 효과X여러 회귀모델간의 비교새로운 표집을 통한 회귀모형 예측0이X변인간의 인과관계의 설명두 방법 모두 가능하나 해석적 복잡성때문에 대안적인 경로분석이나 LISREL.| 

이렇게 사용목적에 따라 회귀분석 유형을 다르게 적용하는 것은 매우 중요하다. 그 이유는 통계적으로 각 유형에 따라 독립변인이 회귀식에 투입되는 방식이 다르다


2. 중다회귀분석

라 종속변인에 대한 설명변량이 달라지기 때문이다. 그 결과 독립변인들의 상대적 기여도가 달라지고 최종적인 해석이 달라진다. 
이런 이유로 연구목적에 부합하는 적합한 방법을 사용하지 않았을 때 실제 중요한 독립변인이 유의미하지 않은 것으로 해석되거나 반대로 중요하지 않은 변인이 유의미하게 해석될 수도 있다.

그러면 중다회귀분석의 각 유형에 따라 어떻게 변인들이 회귀식에 투입되고 설명변량이 변화하는지를 <그림 2.1>을 통해 살펴보기로 하자.

'R=(a+b+c+d+e)/(a+b+c+d+e+f)'로 표현될 수 있다. 즉, 전체 변량(DV 변량) 중에서 세 개의 독립변인이 종속변인을 설명하는 양을 말한다. 세 개의 독립변인 IV. IN, IV3 모두가 통계적으로 유의미하다고 가정할 때 전체 R 동일하다. 
하지만 어느 하나라도 유의미하지 않을 때(나)와 (다)는 같지만(라)의 R은 달라진다는 점에 유의하라. 그 이유는 (라)의 단계적회귀분석에서는 통계적으로 유의미하지 않은 변인은 회귀식에서 완전히 제외하기 때문이다.

각 유형의 차이는 R보다 개별 독립변인의 설명변량에서 극명하게 나타난다. 이는 유형마다 독립변인이 투입되는 순서가 다르기 때문인데, 간단히 말해 (나)의 표준중다회귀분석에서는 모든 독립변인이 한꺼번에 투입되어 회귀식을 구성하고, (다)의 위계적 회귀분석과 (라)의 단계적 회귀분석은 순서적으로 투입된다. (나)의 경우 독립변인이 한꺼번에 투입되기 때문에 각 변인들이 공유하는 부분(그림의 b와 d)은 설명변량에서 제외되어 어떤 독립변인으로도 귀속되지 않은 채 남게 된다. 따라서 독립변인 IV」은 a, IV2는C, V3은 e를 각각의 설명변량으로 갖게 된다. 특히 (나)의 표준회귀분석에서는 모든 개별 독립변인의 설명변량을 합해도 전체 R과 같아지지 않는다는 것에 주의해야 한다.

한편 (다)와 (라)는 순서적으로 투입되는 공통점이 있지만, (다)의 위계적 회귀분석은연구자가 순서를 정해준 바대로 회귀식에 투입되는 반면, (라)의 단계적 회귀분석은 컴퓨터의 계산에 의해 가장 설명변량이 높은 변인의 순서가 결정되고 그에 따라 회귀식에투입된다. 예를 들어, 연구자가 회귀식에 투입되는 순서를 미리 IV → IN →→ IVg으로정해 주었다면 설명변량의 크기에 관계없이 그 순서에 의해 변인이 투입된다. 그러므로그림 (다)에서 IVI은 a와 b, IV2는 c와 d, ING은 e를 설명변량으로 갖는다. 여기서 알 수있듯이, 이 경우에는 먼저 투입된 독립변인(IV)이 다음에 투입되는 변인과의 공통변량을가져간다. 즉, IVI과 IV2의 공통변량 b는 IV의 설명변량이 되며, IV와 V3의 공통변량d는 V2의 설명변량으로 귀속된다.

(라)의 단계적 회귀분석에서는 설정된 투입 순서에 상관없이 컴퓨터가 계산한 설명변량의 크기에 따라 변인들을 투입하여 회귀식을 구성해 나간다. 이 방법은 단계적이기 때문에 종속변인과 가장 상관이 높은 변인을 첫번째로 회귀식에 투입하고, 첫번째 변인의설명부분을 제외한 나머지 변인들 중에서 그 다음 상관이 높은 변인이 두번째로 투입된다. 여기서 주의해야 할 사항이 있다. 예를 들어, 그림 (라)에서처럼 첫번째로 IN이 투입되고 나면 a와 b의 설명변량을 제외하고 V₂에 해당하는 c+d를 IV3에 해당하는 dte와 비교하기 때문에 상대적으로 변량이 큰 IV 이 두번째로 회귀식에 투입된다. 그러면나머지 c만 IV의 설명변량으로 결정되기 때문에 위계적 분석과는 다르게 변인의 중요.도가 결정된다. 이것을 그림 (다)의 위계적 회귀분석의 경우와 비교하면 매우 큰 차이가있음을 알 수 있을 것이다. 이와 같은 차이는 본질적으로 단계적 회귀분석에서는 연구자의 주관적 관점이 배제되고 전적으로 컴퓨터에 의존하여 변인의 투입 순서가 결정된 결정된다.