본문 바로가기

다변량자료분석의 이해와 활용

중다회귀분석 기초개념


1.중다회귀분석

 



광고 태도나 제품 태도는 말할 것도 없이 가장 높은 브랜드 태도 역시 구매를 4% 밖에 설명하고 있지 않다. “
4%의 의미"는 구매를 예측하는 데 있어 브랜드 태도가 4% 밖에 설명하지 않는다는 것을 말하기 때문에, 실제 통계적인 유의성은 있을지라도 실용적인 유의성은 거의 없다고 해야 할 것이다.

결국 마케터가 실용적인 목적으로 마케팅 전략을 수립하기 위해 중다회귀분석을 사용하였다면, 통계적 유의도와 더불어 실용적 유의도(설명변량이 최소한 10~20% 이상)를 세밀히 살펴보는 지혜를 가져야 할 것이다. 
중다회귀분석의 보급과 더불어 그 활용범위가 넓어지면서 이와 같은 실용적 유의도의 문제는 매우 중요한 이슈가 되고 있다는 것을 먼저 알아둘 필요가 있다.

21 중다회귀분석의 기초 개념

중다회귀분석은 여러 독립변인들(IVS)과 종속변인(DV) 간의 관계를 검증하는 것인데, 특히 독립변인과 종속변인 간의 예측적 관계성을 검증할 목적으로 사용하는 통계방법이다. 
중다회귀분석을 통해 종속변인을 예측하는 회귀모형을 만들고 회귀모형의 적합성을 검증함과 동시에 각 독립변인이 회귀모형에 기여하는 상대적인 비율(설명변량)을 파악할 수 있다. 
또한 회귀방정식을 통해 종속변인을 설명하는 모델을 검증할 수 있다. 중다회귀분석은 예측의 문제를 다루기 때문에, 종속변인을 준거변인(criterion variable)이라고도 하며 독립변인을 예측변인 (preclictor variable)이라고도 한다. 
앞의 예에서 임금은 예측하고자 하는 변인으로 종속변인 혹은 준거변인이 되고, 임금을 예측하는 데 영향을 준다고 가정되는 성, 인종, 교육수준은 독립변인 혹은 예측변인이 된다. 
이와 같이 알고자 하는 변인들의 관계성에 대해 독립변인과 종속변인이 결정되면, 예측적 관계성을 밝히기 위해 다음과 같은 일반적인 중다회귀 방정식을 설정할 수 있다.

Y' = B + BiX, + BeXp + BaX+.+ B.X. Y" : 예측하려는 종속변인 Bo : 절편(intercket) B: 9171211+(regression coefficient) X : 독립변인

간단히 각 구성요소의 특징을 위의 예에 적용하여 보자. Y'는 임금이 되며, X에서 X3은 성, 인종, 교육수준이고, B는 모든 독립변인이 0일 때의 Y값인 상수를 말한다. 


2.중다회귀분석의 기초 개념

BI에서 B는 각 독립변인의 상대적 기여도로 가중치(weight)를 의미한다.

따라서 중다회귀분석은 회귀계수인 B(베타: beta) 계수를 산출하고 이를 통해 각 독립변인들이 상대적으로 종속변인을 얼마나 잘 예측하고 설명하는가를 경험적으로 검증하게 해준다. \
이런 점에서 회귀계수인 계수는 두 가지의 목적을 가지고 있다. 첫째, 측정을 통해 얻은 Y의 실제값(각 종업원의 임금)과 독립변인들을 통해 예측되는 Y의 값 간의 차이(편차 혹은 잔차 즉, 예언의 오차)를 최소화하는 것으로, 보통 편차제곱의 합을 통해 차이가 최소화되는 직선(회귀선)을 얻는다. 
이것을 최소자승의 원리(principle of least square)를 통한 회귀식의 산출이라고 한다. 
간단히 말해, 관찰된 값(실제 얻은 값)과 예측되는 값 간의 차이를 최소화하는 회귀선을 구해 예측에 필요한 회귀방정식을 만드는 것이다. 3 계수의 두번째 목적은 관찰된 Y값과 예측되는 Y값 간의 상관을 최적화하는 것으로, 최소자승을 통해 편차가 최소화될 때 예측되는 Y값(Y)과 관찰된 Y값(실제 Y값)의 상관이 가장 높아지며, 이를 통해 독립변인의 효과를 파악할 수 있게 된다. 
특히 독립변인이 여러 개인 중다회귀분석에서는 어떤 독립변인이 예측되는 Y의 값(Y)과 관찰된 실제 Y값)간의 차이를 최소화시키는가에 따라 독립변인의 상대적 기여도가 결정되는 것이다.

중다회귀분석은 여러 다변량 통계분석의 기초가 되기 때문에 중요성이 강조된다. 따라서 기초부터 차근히 설명해나가는 것이 필요하고, 특히 통계적 개념에 덜 익숙한 독자들의 이해를 돕기 위해 초보적인 예에서부터 설명해 나갈 것이다. 
먼저, 문제의 핵심은 3계수가 위의 두 가지 목적을 가지고 있기 때문에 3계수를 통해 종속변인을 예측할 때보다 정확한 예측이 되는 과정을 살펴 보자.

예제> 계수의 예측력과 분석의 과정

은행에 다니는 갑대리와 을대리는 각 가정에서 몇 개의 예금통장을 보유하고 있는지에 대해 궁금해 하였고, 10가구를 대상으로 통장 보유수를 조사하였다. 다음의 결과는 10가구의 통장 보유수이다.

가정 번호 12345보유 통장수 65778가정 번호 678910보유 통장수 1081199

만약 당신에게 이 자료를 바탕으로 한 가정에서 가지고 있는 통장수를 예측하라고 한다면 어떻게 하겠는가? 짐작하겠지만, 그 대답은 중학생 정도에게도 간단하다. 마찬가지로 갑대리는 당당하게 말하였다. 


3.중다회귀분석

10가구에서 보유하고 있는 통장수의 평균을 가지고 예측한 것이었다. 즉, 10가구의전체 통장수 80는 가정 수 10=8이라는 계산이다. 그러나 을대리는 위의 자료를 곰곰히들여다보다가 갑대리에게 의문을 제기하였다. 
“갑대리, 그와 같은 예측이 얼마나 정확할까?" 라고 하며 다음과 같은 표를 만들어 보였다 (분석data : 디스켓 regr-l.sav)

가정번호123456보유 통장수65778108119980통장보유 평균8888888888편차(오차)+2+3+1+10-20-3- 1-10편차제곱49110409113078910합(②)

을대리가 제기한 문제는 통장보유수 평균을 가지고 각 가정의 실제 보유수를 예측하는 경우, 첫번째 가정은 두 개를 더 가진 것으로 예측하게 되고, 두번째 가정은 세 개를더 가진 것으로, 여덟번째 가정은 세 개를 덜 가진 것으로 예측하게 되기 때문에 명확한예측이 되지 못한다는 것이다. 
을 대리의 지적은 예측의 명확성이라는 관점에서 매우 훌륭하다. 
이렇게 일반적으로 사용하는 평균과 같은 중심경향치만을 가지고 예측하게 되면알고자 하는 사실에 대해 과잉추정(예측)이나 과소추정을 하게 된다.

그렇다면, 예측의 명확성을 증가시키는 대안은 무엇인가? 각 가정에 대한 예측의 오차는 첫번째 가정은 +2, 두번째 가정은 +3, 세번째 가정은 +1 등이다. 그러나 전체 표본인 10가구의 오차는 이러한 편차를 가지고는 알 수 없다. 
왜냐하면 그 합은 항상 0이 되기 때문이다. 그래서 통계적으로 오차를 추정하는 데 편리하게 사용되는 수학적 공리가바로 앞서 말한 최소자승의 원리이다. 
즉, 각 편차(실제값과 예언값의 차이)를 제곱하여 그합을 구하면 가장 예측 오차가 최소화되는 직선(회귀선)을 구할 수 있는데, 이 회귀선을방정식으로 만들 때 예측의 명확성을 확보하게 된다(위 예에서 편차자승의 합은 30), 다시말하면, 최소자승이란 실제 Y값과 예언된 Y값의 차의 제곱을 의미하기 때문에, 편차자승의 합이 가장 오차가 적다는 것은 그만큼 예측의 오차가 적다는 것을 말한다. 
같은 맥락에서, 회귀식을 통해 얻어진 계수는 결국 예측의 명확성과 그 정도를 나타내는 계수가 된다.

'다변량자료분석의 이해와 활용' 카테고리의 다른 글

4.중다회귀분석  (0) 2021.10.06
3. 중다회귀분석  (0) 2021.10.05
중다회귀분석의 기초 개념 2  (0) 2021.10.01
다변량 자료분석의 유형과 적용사례  (0) 2021.10.01
측정의 척도  (0) 2021.09.30