빅데이터 탐색 - 데이터 전처리 - 데이터 정제

반응형

 

데이터 관련 정의

  • 데이터(Data)
    • 관심의 대상이 되는 사물이나 사건의 속성을 일정한 규칙에 의해 측정, 조사, 관찰하여 습득한 것
    • 이론을 세우는 기초가 되는 사실 또는 자료
    • 컴퓨터와 연관되어 프로그램을 운용할 수 있는 형태로 기호화/수치화한 자료
  • 단위(Unit)
    • 관찰되는 항목 또는 대상
  • 관측값(Observation)
    • 각 조사 단위별 기록정보 또는 특성
  • 변수(Variable)
    • 각 단위에서 측정된 특성 결과
  • 원자료(Raw Data)
    • 표본에서 조사된 최초의 자료

데이터 종류

  • 단변량 자료(Univariate Data)
    • 자료의 특성을 대표하는 특성 변수가 하나인 자료
  • 다변량 자료(Multivariate Data)
    • 자료의 특성을 대표하는 특성 변수가 두가지 이상인 자료
  • 질적 자료(Qualitative Data)
    • 정성적 또는 범주형 자료라고도 부름
    • 자료를 범주의 형태로 분류
    • 분류의 편의상 부여된 수치의 크기 자체에는 의미 부여 하지 않는 자료
    • 명목 자료, 서열 자료 등이 질적 자료로 분류
질적 자료 설명
명목 자료
(Nominal Data)
측정대상이 범주나 종류에 대해 구분되어지는 것을 수치 또는 기호로 분류
예) 전화번호상의 국번/지역번호
서열 자료
(Ordinal Data)
명목 자료와 비슷하나 수치나 기호가 서열을 나타내는 자료
예) 기록경기의 순위
  • 수치 자료(Quantitative Data)
    • 정량적 또는 연속형 자료라고도 부름
    • 숫자 크기에 의미를 부여할 수 있는 자료
    • 구간 자료, 비율 자료 등이 수치 자료로 분류
수치 자료 설명
구간 자료
(Interval Data)
명목자료, 서열자료의 의미를 포함하면서 숫자로 표현된 변수에 대해 변수 간 관계가 산술적인 의미를 가지는 자료
예) 온도
비율 자료
(Ratio Data)
명목자료, 서열자료, 구간자료의 의미를 다 포함하면서 수치화된 변수에 비율의 개념을 도입할 수 있는 자료
예) 무게
  • 시계열 자료(Time Series Data)
    • 일정한 시간간격 동안에 수집된, 시간개념이 포함되어 있는 자료
    • 예) 일별 주식 가격
  • 횡적 자료(Cross Sectional Data)
    • 횡단면자료라고도 부름
    • 한 개의 시점에서 여러 대상으로부터 취합된 자료
  • 종적 자료(Longitudinal Data)
    • 시계열자료와 횡적자료의 결합으로 여러 개체를 여러 시점에서 수집한 자료

데이터 정제

  • 데이터 정제의 정의
    • 수집된 데이터를 대상으로 분석에 필요한 데이터를 추출하고 통합하는 과정
  • 데이터 정제의 필요성
    • 데이터로부터 원하는 결과나 분석을 얻기 위함
    • 분석 처리에 어려움 발생 (일관성이 없는 데이터 구성 시)
    • 도출된 결과의 신뢰성 저하 발생
  • 데이터 정제의 과정(Processing)
    1. 데이터 수집
      • 데이터의 입수 방법 및 정책 결정
      • 입수 경로의 구조화
      • 집계(Aggregation)
      • 저장소 결정
    2. 데이터 변환
      • 데이터 유형의 변화 및 분석 가능한 형태로 가공
      • ETL
      • 일반화
      • 정규화
    3. 데이터 교정
      • 결측치의 처리, 이상치 처리, 노이즈 처리
      • 비정형 데이터 수집 시 필수사항
    4. 데이터 통합
      • 데이터 분석이 용이하도록 기존 또는 유사 데이터와의 연계 통합
      • 레거시 데이터(Legacy Data)와 함께 분석이 필요할 경우 수행
        • 레거시 데이터 : 과거로부터 물려 내려온 데이터
  • 데이터 정제의 전처리 및 후처리
    • 전처리(Pre Processing)
      • 데이터 저장 전 처리과정
      • 대상 데이터와 입수 방법 결정 및 저장방식 장소 선정 (데이터 수집단계에서 수행)
    • 후처리(Post Processing)
      • 데이터 저장 후의 처리과정
      • 저장 데이터의 품질관리 등의 과정 포함

참고

반응형