본문 바로가기

카테고리 없음

다변량 자료분석 이란?

 

다변량 자료분석 이란? 

다변량 자료분석 이란 간단히 말해 여러 현상이나 사건에 대한 측정치(혹은 데이터)를 동시에 분석하는 통계적 기법이다.

설문이나 실험을 통해 측정된 여러 변인(variable)의 관계성이나 인관관계를 동시에 고려하여 효과를 밝힘으로써 보다 많은 정보를 얻을 뿐만 아니라 정확하게 현상을 이해하는 데 도움을 얻을 수 있다.

최근 다변량 자료분석은 경제 및 사회 행동과학 분야에서 다양하고 복잡한 현상들을 설명하고 예측하기 위한 통계적 도구로 각광받고 있다.

근래에 발표된 국내외 학술지 및 조사 보고서를 보더라도 t검증이나 변량분석과 같은 단변량 자료분석 보다는 다변량 자료분석을 활용한 사례가 많아지고 있다.

 

많은 분야의 전문가나 실무자들이 다변량 분석 법에 의존하는 이유는 무엇인가? 경제 실무가들은 현상을 체계적으로 설명하고 미래의 경제 동향을 예측해야 한다. 마케팅 실무자는 소비자의 구매 패턴을 읽어 미래의 수요를 예측해야 하고, 사회 및 행동과학의 연구자들 역시 사회 현상이나 인간 행동의 원인을 찾고 그 결과를 예측함으로써 통제 방법을 모색하고자 한다.

예나 지금이나 연구자들이 알고자 하는 문제의 본질은 크게 달라지지 않았지만, 오늘날 여러 현상과 사건들은 단일한 차원으로 설명되지 않는다.

즉 최첨단의 과학문명과 문화적 교류 속에서 인간의 행동과 사회 경제적 현상들이 날로 복잡해져가고 있기 때문에 과거처럼 단일 차원에서 현상을 설명하려는 목적을 지닌 단 변량 분석방법만으로는 해결할 수 없는 문제들이 많다.

따라서 다양한 요인들의 복잡한 상호관계성을 가정하고 이들의 효과를 동시에 검증할 수 있는 다변량 통계 방법은 당연한 시대적 요구라 할 것이다.

 

연구자들마다 자신의 연구문제를 보다 명확하게 이해하고 설명하려는 목적으로 다변량 자료분석방법들을 활용하려고 노력하지만, 사실 대부분의 연구자들은 다변량 분석의 개념적 복잡성과 어려움 때문에 많은 고통을 받고 있다.

이러한 복잡성과 어려움이 다변량 자료분석의 절실한 필요성에도 불구하고 널리 보급되는 데 장애가 되고 있다.

특히,다변량 분석을 소개한 대부분의 저서들은 수학적 개념과 절차에 초점을 두고 있어 이를 자신의 연구나 실무에 적용하려는 사람들에게 크게 도움이 되지 못하는 실정이다.

 

대다수의 실무자들에게 필요한 것은 수학이 아니라 자신의 실무에 적합한 통계방법의 적용이라고 확신하기 때문에, 필요 이상의 수학적 개념을 설명하기 보다는 다변량 통계방법들의 논리와 예제를 바탕으로 한 해법을 설명하는 것이 바람직하다고 생각한다.

따라서 연구자나 회사 실무자들이 쉽게 접근하고 활용할 수 있도록 하는 데 초점을 두고 있으며 어떤 방법이 자신의 문제를 해결하는 데 최선의 해법이 되는지에 대한 통찰을 제공하고 있다.

더욱이 당면한 문제의 적합합 해결뿐 아니라 현상을 이해하고 설명하는 데 있어서의 통계적 철학을 느낄 수 있을 것이라고 기대한다.

다변량 자료분석의 발전은 급속히 전개된 컴퓨터의 발달에 많은 영향을 받아 왔다.

컴퓨터의 빠른 처리속도와 정교한 계산능력이 수작으로 할 수 없었던 다변량 자료분석 의 수학적 계산을 가능케 했다.

과거 T검증이나 F검증과 같은 단변량 분석방법은 시간적으로 여유만 있다면 손으로도 계산 할 수 있었기 때문에 수학적 개념과 계산절차를 이해하는 것이 필요하였고 그를 위해 많은 시간을 허비 하였다.

그러나 지금은 그 조차 컴퓨터에 의존하여 해답을 얻을 수 있기 때문에 실무자들은 그와 같은 수학적 계산 과정을 모두 이해할 필요는 없으며 그럴 시간도 없다.

그렇다면 다변량 통계방법들을 쉽게 활요하기 위해서 필요한건 무엇일까? 그리고 결과를 분석하고 결론에 도달하는 방법은 무엇일까? 많은 사람들이 통계가 어렵다고 생각하는 이유는 그 수학적인 절차를 이해하기 위해 몰두하는데 있는데,그러다 보니 나무를 보고 숲을 보지 못하여 결국 중간에 포기하거나 점점 어렵게만 느끼게 되는 결과를 초래한다. 앞으로 컴퓨터 발달은 더 정교하고 세련된 통계기법들의 개발을 가져올 것이며 그로 인해 지금까지 우리가 이해했던 현상과 인간행동에 대한 설명은 이들 기법의 적용으로 분명 새로운 국면을 맞이하게 될 것이다.

이러한 의문은 통계를 공부하는 입장에서는 중요한 문제 이므로 다변량 자료분석의 기초를 익히는데 정말 중요하다.

다변량 자료분석은 여러 변인의 관계성을 동시에 고려하여 그 효과를 밝히는 통계적 방법이라고 정의한다

단변량 자료분석 과는 달리 다변량 분석은 여러 개의 독립변인 뿐 아니라 여러 개의 종소ㄱ변인을 한꺼번에 분석할 수 있는 장점을 갖는다.

통계적으로 볼 때, 여러 개의 변인이 동시에 고려되기 때문에 다변량의 분포는 평면상의 면적이 아닌 공간상의 체적을 의미한다. 이를 다변량 정규분포라고 하며, 모든 다변량 자료분석의 방법들은 이 다변량 정규분포를 따른다고 가정한다.

 

이러한 가정은 다변량 자료분석의 데이터가 정규분석에서 일반화되었음을 가정하는 것이고, 다변량 분포는 단변량 정규분포와 마찬가지로 중심극한정리 에 따라 모집단이 정상분포를 이룰 때 표집분포의 크기가 커지면 다변량 정규분포를 따른다는 수학적 공리를 가정하고 있다. 이런 의미에서 기본적으로 다변량 분석은 단변량 분석의 연장이고 확장된 개념이다.

따라서 분석의 목적 역시 단변량 분석의 확장으로 생각하면 되지만 다변량 분석은 여러 변인들의 효과를 동시에 분석하기 때문에 종속변인 에 대한 효과가 개별 평가가 아니라 여러 변인의 선형조합 으로 해석된다는 점이 다르다.