빅데이터 분석결과 해석 및 활용 - 데이터 시각화 개요

 

데이터 시각화 정의

  • 분석된 결과를 해석하는 대표적인 방법
  • 데이터 값을 시각적 속성으로 변환하고 이를 그래프로 표현하는 과정
    • 데이터 사이의 관계를 대표할 수 있는 특징을 도표나 차트 등으로 표현
  • 시각화를 통해 데이터의 의미를 명확하게 표현하고 효율적으로 전달하는 것을 목적으로 하는 것
    • 즉, 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정과 기법을 의미
  • 고려사항
    • 기능적인 측면 : 데이터의 의미를 정확하게 표현하여야 함 
    • 심미적인 측면 : 사람이 쉽게 인지하고 직관적으로 이해할 수 있어야 함

데이터 시각화 특성

  • 자료로부터 정보를 습득하는 시간을 절감하고 데이터에 대한 즉각적인 판단 가능
  • 데이터의 특징과 패턴, 추세를 직관적으로 제공하여 데이터의 의미에 대한 이해를 효과적으로 도움
  • 하나의 시각화 자료를 통해 시간, 공간, 분포 등 다양한 측면에서의 표현 가능
  • 그래픽 도구를 이용함으로써 데이터의 의미, 관계, 차이, 분포 등을 선명하게 표현
  • 데이터 시각화 접근 방법
    • 통계적 그래픽(Statistical Graphics)
      • 데이터의 분포와 통계적 정보를 2차원, 또는 3차원 공간에 시각적으로 표현하는 방법
    • 주제 지도학(Thematic Carography)
      • 특정 주제의 지리적 분포와 패턴을 나타내는 지도 형태의 표현 방법

데이터의 유형

특성에 따라 크게 범주형과 수치형으로 나눔

  • 범주형
    • 명목형 데이터(Nominal Data)
      • 특정 카테고리가 가질 수 있는 값의 집합
      • 순서를 매길 수 없지만 셀 수 있음
      • 예) 성별, 색깔, 취미, 혈액형 등
    • 순서형 데이터(Ordinal Data)
      • 특정 카테고리가 가질 수 있는 값이 순서로 구분할 수 있는 데이터
      • 순서를 매길 수 있고 셀 수 있음
      • 예) 5점 척도, 학점 등
  • 수치형
    • 이산형 데이터(Discrete Data)
      • 셀 수 있는 형태의 값을 표현하는 자료
      • 주로 정수값으로 표현
      • 예) 반별 학생수, 불량품수, 나이 등
    • 연속형 데이터(Continuous Data)
      • 연속인 어떤 구간에서 값을 취하는 자료
      • 주로 측정되는 양을 표현하는데 사용
      • 예) 시간, 온도, 무게, 길이 등

주요 용어

  • 탐색적 자료분석(EDA, Exploratory Data Analysis)
    • 주어진 자료에 대해 다양한 탐색 기법을 이용해 자료에 대한 충분한 이해를 하는 방법
    • 데이터셋에 대한 주요 특징을 주로 시각적 방법을 이용해 분석
  • 차트(Chart)
    • 개별적인 데이터를 표현하는 방식
    • 데이터 특성에 따라 다른 종류의 차트를 선택
      • 원 그래프, 막대 그래프, 선 그래프, 면적 그래프 등
  • 데이터셋(Data Set)
    • 데이터 시각화의 기초가 되는 데이터의 집합
  • 축(Axis)
    • 데이터가 표시될 위치에 대한 기준선
    • 2차원 그래프는 2개, 3차원 그래프는 3개의 축으로 구성
  • 스케일(Scale)
    • 그래프에 표현되는 데이터 값의 범위
    • 각각의 축에 일정한 간격을 가지고 표시
  • 범례(Legend)
    • 차트에 표현되고 있는 기호나 선 등이 어떤 의미인지 설명하는 역할
  • 이상치(Outliers)
    • 데이터의 정상분포를 벗어나는 데이터
    • 데이터 시각화를 통해 이상치를 효율적으로 발견

데이터의 시각적 속성

  • 체계적이고 논리적인 방식을 통해 데이터 값을 시각적 속성으로 변환하고 속성들을 이용하여 최종 그래프 생성
  • 데이터 값을 정량화 가능한 시각적 속성으로 나타내 그래픽으로 표현
  • 자주 사용되는 시각적 속성 : 위치, 형태, 크기, 색, 굵기, 선 유형 등
    • 위치, 크기, 굵기, 색 : 연속형 데이터와 이산형 데이터에 모두 적용
    • 형태, 선 유형 : 이산형 데이터에만 적용

<데이터의 시각적 속성, 출처 clauswilke.com>


데이터 시각화 방법

  • 시간 시각화
    • 막대 그래프, 누적 막대 그래프, 점/선 그래프
  • 분포 시각화
    • 히스토그램, 파이 차트, 도넛 차트, 트리맵, 누적 연속 그래프
  • 관계 시각화
    • 산점도, 버블 차트, 히트맵
  • 비교 시각화
    • 히트맵, 체르노프페이스, 스타 차트, 평행좌표계, 다차원척도법
  • 공간 시각화
    • 지도 매핑

참고