빅데이터 모델링 - 고급 분석기법 - 다변량 분석(Multivariate Analysis)

반응형

 

다변량 분석 정의

  • 조사 중인 각 개인 혹은 대상물에 대한 다수의 측정치를 동시에 분석하는 모든 통계적 방법
  • 일변량(단변량)분석과 이변량 분석의 확장 형태
  • 통계적으로는 종속변수의 관계성을 고려해서 여러 개의 일변량 분석을 동시에 수행하는 것
    • 일변량분석 : t-검정, ANOVA, 회귀분석 등 해당

용어

  • 종속 기법(Dependence Methods)
    • 변수들을 종속변수와 독립변수로 구분
    • 독립변수들이 종속변수에 미치는 영향력을 분석하는 기법
  • 상호의존적 기법(Interdependence Methods)
    • 분석할 변수들을 종속변수와 독립변수로 구분하지 않음
    • 전체를 대상으로 하는 분석하는 기법
  • 명목 척도(Nominal Scale)
    • 단지 분류만을 위해 사용된 숫자
    • 숫자 그 자체는 전혀 의미가 없는 측정단위
  • 순위 척도(Ordinal Scale)
    • 선호되는 순위를 나타낸 숫자
    • 숫자 자체는 의미를 가짐
    • 간격이나 비율은 의미를 가지지 못하는 측정단위
  • 등간 척도(Interval Scale)
    • 측정된 숫자 자체와 숫자의 차이는 의미를 가짐
    • 숫자의 비율은 의미를 가지지 못하는 측정단위
  • 비율 척도(Ratio Scale)
    • 측정된 숫자와 그 간격이 의미를 가짐
    • 숫자의 비율마저도 의미를 가지는 가장 높은 측정단위
  • 정량적 자료(Metric Data)
    • 등간척도나 비율척도로 측정된 자료
    • 양적(Quantitative) 자료 또는 모수화된(Parametric) 자료라고도 부름
  • 비정량적 자료(Nonmetric Data)
    • 명목척도나 순위척도로 측정된 자료
    • 질적(Qualitative) 자료 또는 비모수화된(Nonparametric) 자료라고도 부름
  • 변량(Variate)
    • 변수들을 일종의 통계적인 방법으로 가중치를 주어 변수들의 합의 형태로 나타낸 새로운 변수
      • 변수 : 연구자의 실험대상인 표본으로부터 수집한 자료 그대로를 나타내는 것

다변량분석기법의 분류

다중회귀분석(Multi Regression)

  • 하나의 계량적 종속변수와 하나 이상의 계량적 독립변수 간에 관련성이 있다고 가정되는 연구문제에 적합한 분석기법
  • 다수의 독립변수의 변화에 따른 종속변수의 변화 예측
  • 연구자는 회귀모델의 적합도 분석, 독립변수들이 종속별수를 설명하는 정도, 종속변수에 대한 독립변수들의 상대적인 기여도 파악
  • 예) 월 외식경비(종속변수)는 가정의 소득, 가족 구성원의 수와 같은 독립변수들에 의해 예측 가능

다변량분산분석, 다변량공분산분석

다변량분산분석(Multivariate ANOVA)

  • 두 개 이상의 범주형 독립변수와 다수의 계량적 종속변수 간 관련성을 동시에 알아볼 때 이용되는 통계적 방법
  • 일변량분산분석의 확장된 형태, 종속변수가 2개 이상
  • 두 개 이상의 계량적 종속변수에 대한 각 집단의 반응치의 분산에 대한 가설 검증 시 매우 유용
  • 예) 다수의 관광행동집단과 관광만족도 차원이 있을 때 각 관광행동집단의 다수 관광만족도 차원을 비교분석 시 사용

다변량공분산분석(Multivariate ANCOVA)

  • 실험에서 통제되지 않은 독립변수들의 종속변수들에 대한 효과를 제거하기 위해 다변량분산분석과 함께 이용되는 방법
  • 절차는 이변량부분상관관계와 비슷
  • 예) 호텔종업원 교육 시 종업원의 학력을 통제한 상태에서 종업원의 이론시험 성적과 실무 성적이 두 가지의 교육방식(강의/학습참여)에 따라 차이가 있는지를 알고자 할 때 사용

정준상관분석(Canonical Analysis)

  • 하나의 계량적 종속변수와 다수의 계량적 독립변수 간의 관련성을 조사하는 다중회귀분석을 논리적으로 확대시킨 것
  • 기본원리는 종속변수군과 독립변수군 간의 상관을 가장 크게하는 각 변수군의 선형조합을 찾아내는 것
    • 즉, 종속변수군과 독립변수군 간의 상관을 최대화하는 각 변수군의 가중치의 집합을 찾아내는 것
  • 예) 다수의 외식 동기 항목과 레스토랑 선택속성 변수들 간의 관계분석을 통해 고객의 외식 동기가 레스토랑 선택에 미치는 영향을 분석 할 때 사용

요인분석(Factor Analysis)

  • 많은 수의 변수들 간 상호관련성 분석, 어떤 공통 요인들로 설명하고자 할 때 이용되는 기법
  • 많은 수의 원래 변수들을 이보다 적은 수의 요인으로 요약하기 위한 분석 기법
  • 주로 검사나 측정도구의 개발과정에서 측정도구의 타당성을 파악하기 위해 많이 사용
  • 탐색적 요인분석 : 가설적인 요인을 설정하지 않고 얻어진 자료에 근거하여 경험적으로 요인의 구조를 파악
    • 기존에 요인모델이 존재하지 않은 상태에서 요인을 어림해 만들어보는 것
    • 확인적 요인분석을 거쳐 모델의 적합성 확인 필요
  • 확인적 요인분석 : 사전에 요인의 구조를 가설적으로 설정하고 이를 검증
  • 예) 관광객이 여행사를 선택하는 변수(속성)들이 많을 때, 이들 변수 모두를 개별적으로 분석하기보다는 좀 더 이해하기 쉬운 몇 개의 요인으로 축소하거나 요약할 때 사용

군집분석(Cluster Analysis)

  • 집단에 관한 사전정보가 전혀 없는 각 표본에 대하여 분류체계를 찾을 때 사용
    • 즉, 각 표본을 표본들 간의 유사성에 기초해 한 집단에 분류시키고자 할 때 사용되는 기법
  • 판별분석과 달리 군집분석에서는 집단이 사전에 정의되어 있지 않음
  • 군집분석 절차
    1. 몇 개의 집단이 존재하는가를 알아보기 위해 각 표본들 간의 유사성 혹은 연관성 조사
    2. 정의된 집단에 어떤 표본을 분류하거나 혹은 그 소속을 에측
    3. 군집기법에 의해 나타난 그룹들에 대해 판별분석 적용
  • 예) 공원 운영자가 고객들로부터 각종 레저활동에 대한 관심도, 다양한 실내/외 시설에 대한 선호도 등을 조사하여 각종 주제시설의 세분시장을 발견하려는 경우 사용

다중판별분석(Multi Discriminant Anaylsys)

  • 두 개의 범주 혹은 두 개 이상의 범주로 나뉘어져 있을 경우 사용
    • 두 개의 범주 예) 종속변수가 남/녀인 경우
    • 두 개 이상의 범주 예) 상/중/하인 경우
  • 즉, 종속변수가 비계량적 변수일 경우 다중판별분석 이용
  • 다중회귀분석과 같이 독립변수는 계량적 변수로 이루어짐
  • 판별분석은 각 표본이 여러 개의 범주를 가진 종속변수에 기초한 여러 개의 집단으로 분류될 때 적합
  • 주목적은 집단 간의 차이를 판별, 어떤 사례가 여러 개의 계량적 독립변수에 기초하여 특정 집단에 속할 가능성 예측
  • 예) 어떤 호텔의 책임자가 최근 새롭게 만든 패키지상품이 고객들에게 호응을 얻을 것인가를 알아보는데 사용

다차원척도법(MDS, Multi-Dimensional Scaling)

  • 다차원 관측값 또는 개체들 간의 거리 또는 비유사성을 이용
  • 저차원의 공간상에 위치시켜 구조 또는 관계를 쉽게 파악하고자 할 때 사용
  • 다차원 공간상 척도에 위치시켜 개체들 간 숨겨진 구조 관계 파악
  • 소수의 차원으로 설명하거나 이론적 의미 부여 
    • 즉, 차원 축소와 개체들의 상대적 위치 등을 통해 개체 사이의 구조 또는 관계 파악하는데 목적
  • 예) 특정 관광지를 대상으로 관광객의 인지에 대한 유사성 연구할 때 사용

참고

반응형