반응형
범주형 자료분석의 통계적 정의
- 변수들이 이산형 변수일 때 주로 사용하는 분석
- 범주형 변수를 다룰 때에는 일반적으로 그 빈도를 세서 표를 작성
- 분할표 : 두 변수의 범주가 교차되어 있는 경우
- 분할표는 범주형 변수를 요약해서 표현하기에 가장 적당
- 분할표를 통해서 범주별 비교
- 분할표를 기반으로 범주형 변수의 독립성, 동질성 검정 등의 카이제곱 검정 수행
- 분할표는 일반화 선형모델을 해석하는 과정에서도 사용
- 로지스틱 회귀모델 등
자료의 분석
자료의 형태에 따른 범주형 자료 분석 방법
독립변수 | 종속변수 | 분석방법 | 예제 |
범주형 | 범주형 | 빈도분석, 카이제곱 검정 로그선형모델 |
지역별 선호정당 (지역별정당선호도) |
연속형 | 범주형 | 로지스틱 회귀분석 | 소득에 따른 결혼의 선호도 |
범주형 | 연속형 | T검정(2그룹) 분산분석(2그룹 이상) |
지역별 가계수입의 차이 |
연속형 | 연속형 | 상관분석, 회귀분석 |
분할표
- 범주형데이터가 각 변수에 따라서 통계표 형태로 정리되어 쓴 것
- 차원(Dimensionality) : 분할표의 구성에 관계된 변수의 수로 정의
- 수준(Level) : 범주형 변수가 가지는 범주의 수
- 3X4 분할 표 예 - 지역별 정당선호도 차이에 대한 조사(지역별 40명 표본추출)
지역 | 정당 | 행 합계 | |||
A당 | B당 | C당 | D당 | ||
서울 | 10 | 14 | 4 | 12 | 40 |
대구 | 13 | 9 | 10 | 8 | 40 |
광주 | 12 | 8 | 10 | 10 | 40 |
- 2차원 분할표 상의 비율의 비교
정당 | ||||
1 | 2 | |||
X | 1 | a1 | 1 - a1 | 1 |
2 | a2 | 1 - a2 | 1 |
- 비율의 차이(Difference of Proportions) : D = a1 - a2
- 범위는 -1~1 사이를 취하며 동질 또는 독립인 경우 D=0
- 상대적 위험도(Relative Rist) : RR = a1 / a2
- 범위는 0~∞ 사이를 취하며 동질 또는 독립인 경우 RR=1
- 오즈비(Odds Ratio) : OR = (a1 / 1-a1) / (a2 / 1-a2)
- 범위는 0~∞ 사이를 취하며 동질 또는 독립인 경우 OR=1
빈도분석
- 질적 자료(범주형 자료)를 대상으로 빈도와 비율을 계산할 때 사용
- 데이터에 질적 자료와 양적 자료가 많을 때 질적 자료를 대상으로 오류가 있는지 확인
교차분석 또는 카이제곱검정(Chi-Square Test)
- 두 범주형 변수가 서로 상관이 있는지 독립인지를 판단하는 통계적 검정방법
- 예) 성별에 따라 종교의 차이가 유의미한가, 종교에 따라 취미의 분포 차이가 있는가 등
- 사용되는 통계량은 x²을 이용하여 카이제곱검정에 의한 방법으로 분석
로지스틱 회귀분석
- 분석하고자 하는 대상들이 두 집단 또는 그 이상의 집단으로 나누어진 경우 사용
- 개별 관측치들이 어느 집단으로 분류될 수 있는지를 분석할 때 사용
t-검정
- 독립변수가 범주형(두 개의 집단)이고 종속변수가 연속형인 경우 사용되는 검정 방법
- 두 집단간의 평균 비교 등에 사용
분산분석
- 독립변수가 범주형(두 개 이상 집단)이고 종속변수가 연속형인 경우 사용되는 검정 방법
- 두 집단간의 분산 비교 등에 사용
참고
반응형