3.중다회귀분석
1.사례수는 최소한 독립변인의 20배 이상이어야 한다.
모든 통계분석이 그렇듯이 중다회귀분석의 결과가 우연적인 효과에 의해 나타나지 않는다고 확신할 수 있어야 한다. 일반적으로 표본의 크기가 작아지면 오차변량(emorvariance)이 커지기 때문에 우연적인 효과가 결과에 영향을 주게 된다. 그래서 회귀분석의 결과를 신뢰롭게 해석하기 위해서는 충분히 많은 사례수가 있어야 한다. 어느 정도의사례수가 필요한가에 대해서 일치된 견해는 없으나 대체로 독립변인과 사례수의 비율이약 1:20 정도가 되어야 예측검증력이 낮아지지 않는다(Tabachnick & Fidell, 1989). 즉, 독립변인이 5개이면 사례수는 100개 이상이 되어야 안정된 분석결과를 얻을 수 있다. 많은사례수를 얻을 수 없는 최악의 경우에도 독립변인과 사례수는 최소 1 : 5의 비율(독립변인이 5개라면 사례수는 25)을 유지해야 한다.
그러나 독립변인과 사례수의 비율적 문제는 다소 유동적이다. 그 이유는 다음과 같이세 가지 정도로 요약해 볼 수 있다.
① 중다회귀분석은 만일 한 변인에 대한 응답누락(결측치)이 있으면 그 변인은 분석에서 제외되기 때문에 실제 사례수는 더 적어진다. 따라서 응답누락이 있는 변인이분석에 포함된 경우에는 위의 비율적 준거보다 더 많은 사례수가 요구된다.
② 종속변인의 분포가 편포되어 있거나 다소 신뢰롭지 못한 변인에 의해 측정오차가있다고 판단되는 경우에는 더 많은 사례수가 필요하다. 종속변인이 편포(skeweddistribution)되어 있는 경우에는 몇 가지의 방법을 통해 분포를 정상분포가 되도록변형시켜 줄 수 있다. 잔차의 정상성 참고), 편포된 분포를 변형시킬 수 없을 때는 역시 더욱 많은 사례수가 요구된다.
③ 어떤 유형의 회귀분석을 수행할 것인가에 따라서도 독립변인과 사례수의 비율이달라진다. 보통 단계적 회귀분석(stepwise regression)을 수행할 때는 더 많은 사례수가 필요한데, 독립변인과 사례수의 비율이 약 1 : 40은 되어야 결과를 일반화할수 있다.
하지만 사례수가 지나치게 많아도 문제가 된다. 사례수가 너무 많아지면 통계적으로변인간의 중다상관이 과대평가되기 때문에 실질적인 효과가 없는 독립변인이 유의미하게 평가될 수 있다.
이는 상관관계 분석을 할 때 많은 사례수로 인해 실질 상관이 10%이하인 경우에도 유의미하게 나타나는 것과 같다. 따라서 사례수가 많은 경우에는 통계적 유의도를 평가하기 앞서 실용적 유의도(practical significance)를 따져보는 것이 중요하다.
즉, 이런 경우에는 해당 독립변인의 통계적 유의도뿐만 아니라 종속변인에 대한 설명변화량(R Change: ART)의 크기를 살펴보고, 만일 설명변화량이 작은데도 불구하고 통계적으로 유의하다면 효과가 과대평가된 것이므로 해석에 주의를 기울여야 한다.
2. 중다회귀분석의 기본 가정
그렇다면 중다회귀분석에 필요한 사례수(표본 크기)는 얼마인가? 그 대답은 한마디로 ‘최소 기준을 넘는 적절한 수준만큼의 사례수'라고 해야 할 것이다. 보통 표본크기가 증가할수록 전집에 대한 대표성을 가지기 때문에, 회귀분석에서 사례수에 의해 통계적 유의도가 과대평가되었다고 할지라도 해당 독립변인이 종속변인에 대해 효과를 가지지 않는다는 것은 아니다. 단, 해석에 있어 변인의 실용성이 제한받을 수 있다는 것으로 생각해야 한다.
만일 최소 기준을 만족시킬 만큼의 사례수를 확보하지 못했다면 어떻게 해야 하는가? 이러한 문제를 해결하는 데 도움이 될 만한 몇 가지 대안이 있다.
① 덜 중요하다고 판단되는 독립변인은 과감히 버려라. 그럼으로써 사례수와 독립변인의 비율을 충족시킨다.
② 그것이 여의치 않다면 독립변인을 조합하는 방식으로 변인의 수를 줄여라. ③ 2.2.6에서 설명한 바와 같이 몇 개의 회귀모델을 설정하여 분석하는 것도 바람직하다. 그럼으로써 개별 독립변인의 효과를 평가하고 회귀모델간을 비교한다.
2.3.2 반응이나 응답의 극단치는 '반드시 잡아내야 한다.
어떤 통계기법이든 응답에 극단치가 있다는 것은 결과에 매우 심각한 영향을 주는 요인이다. 극단치(outlier)란 반응의 극단적인 값을 말하며, 단변량 극단치와 다변량 극단치가 있다. 단변량 극단치는 한 변인이 극단적인 값을 갖는 경우이며, 다변량 극단치는 이질적인 집단으로 구성된 표본에서 둘 이상의 변인을 조합하는 경우에 발생한다. 혹은 자료를 전산입력하는 과정에서 실수로 잘못된 값을 입력하는 경우에도 발생한다. 어떤 경우이든 분석을 수행하기 이전에 극단치를 분석에서 제외시켜야만이 결과를 신뢰할 수 있고 일반화시킬 수 있다.
일반적으로 극단치를 탐지하는 방법은 SPSS for Windows의 회귀분석 절차에서 자세히 다루고 있으므로 다른 다변량 분석방법을 수행할 때에도 참고하면 된다. 회귀분석에서 극단치는 절편(intercept)과 회귀계수(slope)에 영향을 주기 때문에 회귀모형의 예측력을 떨어뜨리는 결과를 가져온다. 따라서 회귀분석에서 극단치가 발견되면 그 영향을 제거하기 위해 ① 극단치를 포함한 사례는 제외하거나, ② 극단치를 포함한 변인을 제외하거나, ③ 점수분포가 정상성을 이루도록 자료를 적절히 변환시켜주어야 한다
(자료의 변환에 대해서는 2.3.3의 <알고 갑시다- 자료변환>중다회귀분석에서 극단치를 파악하는 방법은 다음편에서 다루겠다.
'다변량자료분석의 이해와 활용' 카테고리의 다른 글
중다회귀분석의 유형과 해석 (0) | 2021.10.08 |
---|---|
중다회귀분석의 기본 가정 (0) | 2021.10.07 |
3. 중다회귀분석 (0) | 2021.10.05 |
중다회귀분석의 기초 개념 2 (0) | 2021.10.01 |
중다회귀분석 기초개념 (0) | 2021.10.01 |