빅데이터 탐색 - 데이터 전처리 - 파생변수의 생성

반응형

 

파생변수와 요약변수의 필요성

  • 데이터 분석 시 목표에 적합하게 데이터 형태 수정 보완 필요
  • 분석모델 구축에 있어 핵심인 환경과 문제를 잘 해석할 수 있는 변수를 찾는 데 의의
  • 즉, 데이터 마트에서 분석을 위해 생성된 개념
    • 데이터 마트(Data Mart)
      • 요약변수와 파생변수들의 집합
      • 데이터 웨어하우스로부터 복제 또는 자체 수집된 데이터 모임의 중간층
      • 분석을 위한 기본단계 변수가 모여지는 단계

파생변수

파생변수의 정의

  • 기존의 변수를 조합하여 새로운 변수를 만들어 내는 것을 의미
  • 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여하는 변수
  • 매우 주관적일 수 있으므로 논리적 타당성 필요
  • 세분화 고객행동 에측, 캠페인반응예측 등에 활용
  • 특정상황에만 유의미하지 않는 대표성 필요

파생변수 생성방법

  • 한 값으로부터 특징 추출
  • 한 레코드 내 값들 결합
  • 다른 테이블의 부가적 정보 결합
  • 다수의 필드내에 시간 종속적인 데이터 선택(pivoting)
  • 레코드 또는 중요 필드 요약
  • 그 외에도 목적에 맞게 생성 가능

<파생변수 생성의 예시>


요약 변수

  • 수집된 정보를 분석에 맞게 종합(aggregate)한 변수
  • 데이터 마트에서 가장 기본적인 변수
  • 많은 분석 모델에서 공통으로 사용될 수 있어 재활용성 높음

요약변수 vs 파생변수

 예시를 통한 요약변수와 파생변수의 이해

  • 고객관계관리(CRM) 데이터를 통한 요약변수와 파생변수 정리
요약변수(단순 종합 개념) 파생변수(주관적 변수 개념)
매장 이용 횟수 주 구매매장 변수
구매 상품 품목 개수 구매 상품 다양성 변수
기간별 구매금액/횟수 주 활동지역 변수
상품별 구매금액/횟수 주 구매상품 변수

 


변수 처리시 유의점

  • 요약변수
    • 처리(단어의 빈도, 초기행동변수, 트렌드변수 등) 방법에 따라 결측치의 처리 및 이상값 처리에 유의
    • 연속형 변수의 구간화 적용과 고정된 구간화를 통한 의미 파악 시 정구간이 아닌 의미 있는 구간 검색
  • 파생변수
    • 특정 상황에만 의미성 부여가 아닌 보편적이고 전 데이터구간에 대표성을 가지는 파생변수 생성 고려

참고

반응형