빅데이터 모델링 - 고급 분석기법 - 범주형 자료분석

 

범주형 자료분석의 통계적 정의

  • 변수들이 이산형 변수일 때 주로 사용하는 분석
  • 범주형 변수를 다룰 때에는 일반적으로 그 빈도를 세서 표를 작성
  • 분할표 : 두 변수의 범주가 교차되어 있는 경우
    • 분할표는 범주형 변수를 요약해서 표현하기에 가장 적당
    • 분할표를 통해서 범주별 비교
    • 분할표를 기반으로 범주형 변수의 독립성, 동질성 검정 등의 카이제곱 검정 수행
    • 분할표는 일반화 선형모델을 해석하는 과정에서도 사용
      • 로지스틱 회귀모델 등

자료의 분석

자료의 형태에 따른 범주형 자료 분석 방법

독립변수 종속변수 분석방법 예제
범주형 범주형 빈도분석, 카이제곱 검정
로그선형모델
지역별 선호정당
(지역별정당선호도)
연속형 범주형 로지스틱 회귀분석 소득에 따른 결혼의 선호도
범주형 연속형 T검정(2그룹)
분산분석(2그룹 이상)
지역별 가계수입의 차이
연속형 연속형 상관분석, 회귀분석  

분할표

  • 범주형데이터가 각 변수에 따라서 통계표 형태로 정리되어 쓴 것
  • 차원(Dimensionality) : 분할표의 구성에 관계된 변수의 수로 정의
  • 수준(Level) : 범주형 변수가 가지는 범주의 수
  • 3X4 분할 표 예 - 지역별 정당선호도 차이에 대한 조사(지역별 40명 표본추출)
지역 정당 행 합계
A당 B당 C당 D당
서울 10 14 4 12 40
대구 13 9 10 8 40
광주 12 8 10 10 40
  • 2차원 분할표 상의 비율의 비교
    정당  
  1 2
X 1 a1 1 - a1 1
2 a2 1 - a2 1
  • 비율의 차이(Difference of Proportions) : D = a1 - a2
    • 범위는 -1~1 사이를 취하며 동질 또는 독립인 경우 D=0
  • 상대적 위험도(Relative Rist) : RR = a1 / a2
    • 범위는 0~∞ 사이를 취하며 동질 또는 독립인 경우 RR=1
  • 오즈비(Odds Ratio) : OR = (a1 / 1-a1) / (a2 / 1-a2)
    • 범위는 0~∞ 사이를 취하며 동질 또는 독립인 경우 OR=1

빈도분석

  • 질적 자료(범주형 자료)를 대상으로 빈도와 비율을 계산할 때 사용
  • 데이터에 질적 자료와 양적 자료가 많을 때 질적 자료를 대상으로 오류가 있는지 확인

교차분석 또는 카이제곱검정(Chi-Square Test)

  • 두 범주형 변수가 서로 상관이 있는지 독립인지를 판단하는 통계적 검정방법
    • 예) 성별에 따라 종교의 차이가 유의미한가, 종교에 따라 취미의 분포 차이가 있는가 등
  • 사용되는 통계량은 x²을 이용하여 카이제곱검정에 의한 방법으로 분석

로지스틱 회귀분석

  • 분석하고자 하는 대상들이 두 집단 또는 그 이상의 집단으로 나누어진 경우 사용
  • 개별 관측치들이 어느 집단으로 분류될 수 있는지를 분석할 때 사용

t-검정

  • 독립변수가 범주형(두 개의 집단)이고 종속변수가 연속형인 경우 사용되는 검정 방법
  • 두 집단간의 평균 비교 등에 사용

분산분석

  • 독립변수가 범주형(두 개 이상 집단)이고 종속변수가 연속형인 경우 사용되는 검정 방법
  • 두 집단간의 분산 비교 등에 사용

참고