반응형
파생변수와 요약변수의 필요성
- 데이터 분석 시 목표에 적합하게 데이터 형태 수정 보완 필요
- 분석모델 구축에 있어 핵심인 환경과 문제를 잘 해석할 수 있는 변수를 찾는 데 의의
- 즉, 데이터 마트에서 분석을 위해 생성된 개념
- 데이터 마트(Data Mart)
- 요약변수와 파생변수들의 집합
- 데이터 웨어하우스로부터 복제 또는 자체 수집된 데이터 모임의 중간층
- 분석을 위한 기본단계 변수가 모여지는 단계
- 데이터 마트(Data Mart)
파생변수
파생변수의 정의
- 기존의 변수를 조합하여 새로운 변수를 만들어 내는 것을 의미
- 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여하는 변수
- 매우 주관적일 수 있으므로 논리적 타당성 필요
- 세분화 고객행동 에측, 캠페인반응예측 등에 활용
- 특정상황에만 유의미하지 않는 대표성 필요
파생변수 생성방법
- 한 값으로부터 특징 추출
- 한 레코드 내 값들 결합
- 다른 테이블의 부가적 정보 결합
- 다수의 필드내에 시간 종속적인 데이터 선택(pivoting)
- 레코드 또는 중요 필드 요약
- 그 외에도 목적에 맞게 생성 가능
요약 변수
- 수집된 정보를 분석에 맞게 종합(aggregate)한 변수
- 데이터 마트에서 가장 기본적인 변수
- 많은 분석 모델에서 공통으로 사용될 수 있어 재활용성 높음
요약변수 vs 파생변수
예시를 통한 요약변수와 파생변수의 이해
- 고객관계관리(CRM) 데이터를 통한 요약변수와 파생변수 정리
요약변수(단순 종합 개념) | 파생변수(주관적 변수 개념) |
매장 이용 횟수 | 주 구매매장 변수 |
구매 상품 품목 개수 | 구매 상품 다양성 변수 |
기간별 구매금액/횟수 | 주 활동지역 변수 |
상품별 구매금액/횟수 | 주 구매상품 변수 |
변수 처리시 유의점
- 요약변수
- 처리(단어의 빈도, 초기행동변수, 트렌드변수 등) 방법에 따라 결측치의 처리 및 이상값 처리에 유의
- 연속형 변수의 구간화 적용과 고정된 구간화를 통한 의미 파악 시 정구간이 아닌 의미 있는 구간 검색
- 파생변수
- 특정 상황에만 의미성 부여가 아닌 보편적이고 전 데이터구간에 대표성을 가지는 파생변수 생성 고려
참고
반응형