본문 바로가기

다변량자료분석의 이해와 활용

중다회귀분석의 기본 가정

중다회귀분석의 기본 가정

 

 대부분 연구자들은 극단치를 조사하는 과정을 생략하는 경우가 많다. 하지만 극단치를 포함하게 되면 그 결과는 극단치를 포함하지 않은 경우와 전혀 다를 수 있음을 명심해야 한다. 
사실 회귀분석에서 기본 가정에 대한 검토는 연구 결과에 함께 수록하지 않기 때문에 그 중요성을 등한시하는 경우가 많으며, 세밀한 검토 없이 가정들을 만족한다고 단정해버린다. 
단변량 분석에서와는 달리 그 결과가 얼마나 엄청난 차이를 가져오는지 다음에서 살펴보기로 하자.

<예제연구> 극단치의 영향(디스켓 regr-2.sav)

M은 골프 관련 제품을 생산하는 회사의 마케터인데 P부장으로부터 다음과 같은 지시를 받았다. “나는 어떤 사람들이 우리 회사의 값비싼 골프채를 구입하는지 궁금해. M씨가 골프채 판매량에 어떤 요인이 영향을 주는지를 파악해봐.”

M은 고민하다가 다음과 같은 단순회귀식을 만들었다. 판매량(Y) = Bo+Bi(소득)' 즉, 골프채의 판매량은 개인의 소득에 따라 영향을 받을 것이라는 가설을 설정하고 다음과 같은 20명에 대한 자료를 얻어 검증해 보고자 하였다.

성별연령성별 48365255 응답자 번호 12345678910 평균 MMMFMMFMMM 월소득 구매액 | 응답자(만원) (만원) 번호 520 960 11410 810 1248073013530 880 14580 820 15400 620 16590 780 17250 330 18630 1080 19650 1820 204450MMMFMMMMFF 월소득 구매액연령 (만원) (만원)49 460 70072 1330 86056 620 96046 540 90040 420 63048 480 66057 520 85051 500 57049 43039 470 64049.35 540.50 810.0060356105743

제4장 중다회귀분석

M의 목표는 얻어진 자료를 통해 '판매량(Y) = B+B(소득)'의 단순회귀식이 적절한지 즉, 골프채의 판매량을 예측하는 데 개인의 소득이 얼마나 영향을 주는지, 그리고 그 예측력이 통계적으로 유의미한지를 알아보기 위해 회귀분석을 하였다. 다음의 결과 2.3)은 20명의 자료에 대한 단순회귀분석의 결과를 요약한 것이다.

<결과 2.3> 20명에 대한 단순회귀분석 결과

MULTIPLE REGRESSION R Square . 14133 Adjusted R Square .09362 Variables in the Equation SE B Beta SE Beta Variable B Tolerance T Sig T .375936 .218412 INCOME (Constant) .527406 .306414 24.936900 176.895 1.000000 1.721 2.967 1024 .0082

M은 결과 2.3>을 보고 '판매량(Y)=524.94+.527(소득)'이라는 회귀식을 만들고 다음과 같이 결론지었다. “소득(income)의 회귀계수(.527)가 판매량을 예측하는 데 유의미하지 않다. 즉, 회귀계수에 대한 통계적 유의도(p)가 1024로 05수준보다 크기 때문에 영가설 H: Bi=0을 기각할 수 없다(2.2.2 참조). 그러므로 개인의 소득은 골프채 판매량을 예측하는 데 도움이 되지 않는다."

그러나 여기서 M의 중대한 실수를 찾아내야 한다. 만일 M이 회귀계수에 영향을 주는 극단치를 찾고 이를 제거하려는 노력을 했다면 결과를 상당히 달라졌을 것이다.

다음의 결과 2.4>는 회귀분석에서 극단치를 찾아내는 과정을 설명한 것이다. 결과 2.4>에서 A는 종속변인(판매량)에 대한 히스토그램을 보여주고 있으며, B는 예측된 값과 잔차의 산포도를 나타내고 있다. 또한 C는 각 사례에 대한 casewise plot과 종속변인(PUCHASE)에 대한 관찰치와 잔차(RESID), 그리고 표준화된 잔차(*SRESID) 및 각 사례가 제거되었을 때의 잔차(*DRESID)가 표시되어 있다. D는 Mahalanobis의 거리와 Cook의 거리값을 보여주고 있다.

62 제2장 중다회귀분석

10 11 12 13 14 15 16 17 18 19 20 Case # 1820 982 2490 700 -67.5139 860 -386.3873 950 98.0712 900 90.2637 630 -116.4473 680 -118.0919 850 50.8118 570 -218.6400 610 -141.7216 640 -132.8179 PLCHESE *RESID 3.54211017.9809 - 2501-71.6830 -3.0040 -1902.9175 .3635 104.0743 3332 95.0145 -.4339 -124.8962 4379 -124.8920 .1876 53.5149 - 8079 -230.6313 -.5272 -151.5477 -.4918 -140.7028 *SKESID DRESID . -3.0 0.0 3.0

앞서 언급한 극단치를 탐색하는 단계를 상기하라.

먼저, 1단계에서의 극단치 파악을 위해 A의 히스토그램을 보면 종속변인인 판매량의분포가 정상성을 갖지만 극단점수가 있음을 확인할 수 있고, B의 예측된 값과 잔차의산포도에서도 두 개의 사례(원 안의 점)가 분포의 밀집된 형태에서 이탈되어 있어 극단치의 존재가능성을 확인할 수 있다.

C의 각 사례에 대한 Casewise Piot은 극단치로 판단되는 사례를 구체적으로 표시하고있는데, 사례 10번의 경우 표준점수 +3의 범위를 벗어나 있고 잔차(RESID: 952.2490)와표준화된 잔차(SRESID: 3.5421)가 크므로 극단치일 가능성이 높다. 또한 사례 12번 역시눈여겨 보아야 할 대상이다. 사례 12는 비록 잔차와 표준화된 잔차가 사례 10보다는 작지만 그 사례가 제거되었을 때의 잔차(*DRESID)가 -1902.9175로 사례 101017.9809) 보다.절대값의 크기가 크다. 이는 사례 12가 분석에 더 큰 영향을 줄 수 있음을 의미한다(참고로 Casewise Piot은 모든 사례에 대해서 위와 같이 산출할 수 있지만, 극단치라고 판단되는 사례에 대해서만 casewise plot을 그릴 수도 있다. 예: SPSS for Windows의 경우, 극단치를 지정한수만큼만 plot으로 산출해 중).

다음에 제시된 D의 Mahalanobis 거리와 Cook의 거리값을 통해 이러한 사실을 확인해보자.

극단치 판단의 1단계를 거쳐 2단계로 표준화된 잔차와 Mahalanobis 및 Cook의 거리를 통해 극단치가 되는 사례를 정확하게 골라낼 수 있다. 표준화된 잔차(StandarizedResicdal)는 사례 10이 가장 크기는 하지만, Mahalanobis 거리와 Cook의 거리로 볼 때는사례 12가 종속변인의 예측에 더 영향을 주는 극단치라고 할 수 있다. 특히 Cook의 거리의 경우는 해당하는 사례가 얼마나 극단치로서 유의미한지를 알려주는데, 사례 12의경우 COOK D=18.922(p=.000)로 이는 확률수준 5%(즉, p<.05) 미만에서 통계적으로 유의미한 극단치이다.

'다변량자료분석의 이해와 활용' 카테고리의 다른 글

5.중다회귀분석  (0) 2021.10.09
중다회귀분석의 유형과 해석  (0) 2021.10.08
4.중다회귀분석  (0) 2021.10.06
3. 중다회귀분석  (0) 2021.10.05
중다회귀분석의 기초 개념 2  (0) 2021.10.01