2 중다회귀분석의 기초 개념 2-1
회귀분석에서는 이와 같은 예측이 얼마나 종속변인을 설명하는가를 알 수 있는데(결정계수 R으로 해석), 이 자료의 분석결과 소득은 약 63% 정도 예금통장의 수를 설명하는 효과를 가지고 있으며(R-0.63), 그 설명력은 통계적으로 유의미한 것이었다.
여기서 통계적 유의성이란 위와 같은 회귀식(회귀모형)이 얼마나 좋은가를 의미하는 회귀모형의 적합도를 말하며, 변량분석 (analysis of variance)을 통해 검증된다. 자세한 설명은 다음의 문단에서 제대로 다뤄 보겠다.
이제 소득을 독립변인으로 하여 단순회귀분석을 하면 통장 보유에 대한 명확한 예측을 할 뿐만 아니라 더 많은 정보를 얻는다는 것을 알았다.
그렇다면, 소득외에 예금통장수에 영향을 주는 요인은 없을까? 예를 들어, 부양가족의 수나 가족 중 소득이 있는 사람의 수, 부동산의 보유 정도 등 다양한 요인이 예금통장의 수를 예측하는 데 도움이 될 수 있는데, 이렇게 여러 요인을 통해 하나의 종속변인을 예언하고자 하는 경우를 중다회귀(multiple regression)의 문제라고 한다.
앞의 예에서 소득과 부양가족을 통해 각 가정의 예금통장수를 예측하고자 한다면 바로 중다회귀분석의 문제가 된다. 소득에 부양가족을 추가하여 중다회귀분석을 하면 소득만으로 단순회귀분석하였을 때와 중대한 차이가 있다.
그 차이는 예측의 오차를 의미하는 편차제곱에 있다. 즉 중다회귀분석을 하면 그만큼 종속변인을 설명하는 변인이 추가되기 때문에 예측의 오차가 작아지고, 그것은 직접적으로 편차제곱의 변화로 나타난다.
그러므로 중다회귀는 단순회귀에 비해 더 작은 편차제곱을 갖게 되며 예측의 명확성이 증가한다는 것을 기대할 수 있다. 이를 비교하기 위해 갑대리와 을대리는 위 자료에 각 가정의 부양가족수를 조사하여 다음과 같은 공식을 다시 만들었다.
가정 번호 편차제곱보유통장수(실제값)65부양가족수(명, X)5123가계소득(만원, X)220190260200330637456424예측된 통장수(Y" 값)6.285.387.846.599.2210.027.259.819.647.96 490.08.14.71.171.48.00561.42.411.086.0678108119980210783803213932027010합(2)
2.1 중다회귀분석의 기초 개념 2-2
감소했음을 기억하라 회귀모형의 설명량(R)도 단순회귀의 63%에서 중다회귀의 79%로증가하였다. 이는 단순회귀에 비해 약 16% 정도의 설명력이 향상된 것이다.
여기서 주의할 점이 있다. 즉 소득이 증가할수록 예금통장수는 평균보다 0.01 18만큼증가(+) 하지만, 부양가족수가 증가할수록 예금통장수는 0.545만큼씩 감소(-)한다는 점이다.
그러므로 중다회귀식에서 3계수의 부호에 따라 다른 해석이 내려진다. 그렇다면 소득과 부양가족수 중 어느 변인이 통장보유수를 예측하는 데 상대적으로 많은 기여를 하는가? 간단히 말해 위의 예에서 소득이다.
상대적 기여도는 3계수의 절대값 크기로 설명하는데, 이 예에서는 소득(income)과 부양가족수(family)가 서로 다른 척도(측정단위)로구성되어 있기 때문에, 이를 표준화된 점수(표준화된 B)로 변환하면 소득(income)은0.6161 이고 부양가족수는 -0.446이므로 소득이 예금통장수를 예측하는 데 더 중요한 변인임을 알 수 있다.
통계적으로 말하면, 부양가족수보다는 소득이 예금통장수의 실제 Y값과 예언된 Y값(Y) 간의 차이 즉, 예측의 오차를 감소시킨다고 한다. 이렇듯 앞서 언급한 B계수의 두 가지 목적은 어떠한 예측의 문제를 해결하는 데 있어 결정적으로 중요한 역할을 한다.
<예제>종합해 보자. 평균을 통해 각 가정의 예금통장수를 예측하는 것보다는 단순회귀로 예측하는 것이 예측력이 높고, 단순회귀보다는 중다회귀분석이 더 예측력을 높인다는 것이 통계적으로 쉽게 증명된 셈이다.
위의 예에서 또 다른 변인이 회귀식에 투입된다면 그만큼 종속변인에 대한 예측력은 높아진다. 이렇게 중다회귀분석의 회귀식에 투입되는 독립변인이 증가하면 할수록 전체적인 예측의 오차는 작아지고 예측력은 높아진다. 하지만 예측력을 높이기 위해 무수히 많은 변인을 회귀식에 투입하다 보면 과학의 목표인 절약성과 간명성의 상실이라는 중대한 실수를 범하게 된다. 즉, 어떤 현상을 설명할 때 가용한 모든 변인으로 설명하는 것은 과학적인 의미가 없으며 결코 효율적인설명이 되지 못한다.18가있고 적
따라서 중다회귀분석에서 투입되는 변인의 수가 증가할수록 그만큼 전체적인 예측력과 설명력은 증가하겠지만, 그것이 결코 바람직한 것만은 아니다. 실제로 많은 경험적분석을 살펴보면, 많은 독립변인이 투입되었을 때 종속변인에 대한 설명력은 높아지지만개별 독립변인이 종속변인을 유의미하게 설명하지 못하는 경우가 자주 나타난다. 그러므로 중다회귀분석을 사용함에 있어 어떤 독립변인을 투입할 것인가를 신중히 고려해야한다. 어쩌면 매우 회의적인 이야기처럼 들릴 수 있으나, 현명한 연구자라면 끊임없는통찰을 통해 가장 결정적인 영향력이 있다고 판단되는 주요 변인만을 독립변인으로 상정하는 자세를 가져야 할 것이다.
'다변량자료분석의 이해와 활용' 카테고리의 다른 글
4.중다회귀분석 (0) | 2021.10.06 |
---|---|
3. 중다회귀분석 (0) | 2021.10.05 |
중다회귀분석 기초개념 (0) | 2021.10.01 |
다변량 자료분석의 유형과 적용사례 (0) | 2021.10.01 |
측정의 척도 (0) | 2021.09.30 |