빅데이터 탐색 - 데이터 전처리 - 변수 변환

반응형

 

변수 변환의 개념

  • 데이터를 분석하기 좋은 형태로 바꾸는 작업
  • 어떤 변수를 나타낸 식을 다른 변수로 바꿔 나타내는 기법
  • 데이터의 전처리 과정 중 하나로 간주
  • 해석이 용이해지거나 취급이 단순해지는 장점 존재

변수 변환의 방법

범주형 변환

  • 연속형 변수 중, 분석결과의 명료성 및 정확성을 배가시키기 위해 범주형으로 바꾸는 것
    • 예) 연속형 변수 : '소득이 100만원 늘 때마다 사교육비의 지출이 10만원 증가'
    • 범주형 변환 : '상위 10% 소득가정의 사교육비 지출이 하위 10%보다 10배 많다'
  • 연속형 데이터를 순위형(rank) 데이터로 범주를 나누어 상대비교를 하는 방법
  • 즉, 연속형 데이터를 범주형 데이터로 나누는 설명이 효과적일 수 있음

정규화

  • 데이터가 가진 스케일이 심하게 차이나는 경우 상대적 특성이 반영된 데이터로 변환하는 것

일반 정규화

  • 수치로 된 값들을 여러 개 사용할 때 각 수치의 범위가 다르면 이를 같은 범위로 변환하는 것
    • 예) 연속형(이산형) 데이터 : 과목A는 10점 만점에서 8점, 과목B는 50점 만점에서 20점
    • 일반 정규화 변환 : 과목A는 8/10=0.8점, 과목B는 20/50=0.4점, 평균은 0.6점

최소-최대 정규화(Min-Max normalization)

  • 데이터를 정규화하는 가장 일반적인 방법
  • 모든 특성(feature)에 대해 최소값 0, 최대값 1로 설정하고 값들을 0과 1 사이의 값으로 변환하는 것
  • X에 대한 최소-최대 정규화 수식
    • Min-Max Normalization = (X-Min) / (Max-Min)
    • 예) X의 특성 : 최소값 20, 최대값 40
    • 최소-최대 정규화 변환 : 중앙값 30, 0.5로 변환
  • 단점으로는 이상치(outlier) 영향을 많이 받음

Z-점수(Z-Score) 정규화

  • 이상치 문제를 피하는 데이터 정규화 전략
  • Z-Score 정규화 수식 : Z = 원수치-평균 / 표준편차
  • 예) 데이터의 값 평균으로 Z-점수 정규화
    • 평균과 일치 : 0으로 정규화
    • 평균보다 작음 : 음수로 정규화
    • 평균보다 큼 : 양수로 정규화
    • 단, 계산되는 음수와 양수의 크기는 데이터의 표준편차에 의해 결정
  • 이상치는 잘 처리하지만 단점으로 정확히 동일한 척도로 정규화된 데이터를 생성하지 않음

로그변환(Log Transformation)

  • 어떤 수치 값을 그대로 사용하지 않고 여기에 로그를 취한 값을 사용하는 것
  • 로그를 취하면 정규 분포에 가깝게 분포하는 경우, 이런 분포를 로그 정규 분포를 가진다고 함
  • 로그변환 분포 : X ~ log(X)
  • 로그변환 분포를 사용한 전형적 데이터
    • 국가별 수출액, 사람의 통증 정도 수치화, 개별주식의 가격이용 변동성 분석 등
  • 데이터 분포의 형태가 우측으로 치우친 경우 정규분포화를 위한 로그변환 사용

제곱근변환(Square Root Transformation)

  • 어떤 변수를 데이터 분석에 그대로 사용하지 않고 제곱근 사용
  • 제곱근변환 분포 : X ~ √X
  • 데이터 분포의 형태가 약간 우측으로 치우친 경우 사용
    • 오히려 선형적인 특성을 가지게 되어 의미해석 쉬워짐

역수변환(Inverse Transformation)

  • 어떤 변수를 데이터 분석에 그대로 사용하지 않고 역수 사용
  • 역수변환 분포 : X ~ 1/X
  • 데이터 분포의 형태가 극단적인 우측으로 치우친 경우 사용
    • 오히려 선형적인 특성을 가지게 되어 의미해석이 쉬워짐

지수변환(Power Transformation)

  • 어떤 변수를 데이터 분석에 그대로 사용하지 않고 지수 사용
  • 지수변환 수식 : X ~ Xⁿ
  • 데이터 분포의 형태가 좌측으로 치우친 경우 사용
    • 오히려 선형적인 특성을 가지게 되어 의미해석이 쉬워짐

분포형태별 정규분포 변환

변수변환 전 분포 사용변수 변환식 변수변환 후 분포
좌로 치우침 정규분포화
좌로 약간 치우침
우로 약간 치우침 √X
우로 치우침 Log(X)
극단적 우로 치우침 1/X

<왜도(편포도 혹은 비대칭도) 정규분포의 예시>

  • 정적 편포(Positive Skew), 좌로 치우침
    • 최빈값 < 중앙값 < 평균
  • 정상분포(Symmetrical Distribution)
    • 평균 = 중앙값 = 최빈값
  • 부적 편포(Negative Skew), 우로 치우침
    • 평균 < 중앙값 < 최빈값

* 최빈값(Mode), 중앙값(Median), 평균(Mean)

 

  • 기본적인 단일집단 정규성 검정
    • 샤피로테스트 또는 큐큐 플롯 이용해 확인 가능
  • 결과에 따라 적당한 변수변환식을 사용하여 정규분포 형태로 변환

* 큐큐 플롯(Q-Q Plot) : 정규모집단 가정을 하는 방법 중 하나로 수집 데이터를 표준정규분포의 분위수와 비교하여 그리는 그래프


기타

  • 데이터 축소 등

참고

 

반응형