빅데이터 분석결과 해석 및 활용 - 비교 시각화

반응형

비교 시각화 정의

  • 하나 이상의 변수에 대해서 변수 사이의 차이와 유사성 등을 표현하는 방법
  • 하나 또는 그 이상의 그래프를 통해 전체를 비교 분석 가능하여야 함
    • 둘 이상의 변수 비교 시 대상의 수와 비교하려는 변수의 수만큼 다양한 경우가 존재하기 때문
  • 예시1) 자동차를 구매할 때 제조사나 모델에 따라 크기, 엔진 출력, 색상, 가격, 편의성 등 여러 변수 비교
  • 예시2) 컴퓨터 구매할 때 노트북, 데스크탑, 태블릿 등의 유형에 따라 CPU성능, 메모리, 화면 크기등 여러 변수 비교

히트맵(Heat Map)

  • 여러 변수와 다수의 대상에 대해 하나의 표 형태로 표현할 수 있는 도구
  • 관계시각화뿐만 아니라 비교시각화 도구로도 유용하게 사용
  • 작성된 표의 숫자 대신 색상으로 값의 높고 낮은 관계를 표현하여 한눈에 파악 가능
    • 하나의 행 : 하나의 대상 또는 관측 단위를 표현
    • 하나의 열 : 비교를 위한 변수를 표현
  • 데이터 값의 크기를 색상을 달리하거나 명도, 채도를 달리하는 방법으로 표현
  • 연속된 데이터 값의 변화를 표현하기에 적합
    • 지역의 온도 변화, 주파수 수신 범위 등

<히트맵 예시>


체르노프 페이스(Chernoff Faces)

  • 데이터 표현에 따라 달라지는 차이를 얼굴의 모양으로 나타내는 방법
  • 사람의 얼굴 모양에서 귀, 머리카락, 눈, 코 등을 각각의 변수에 대응하여 달리해서 표현하는 방법
  • 체르노프 페이스 얼굴 표현 사용 요소
    • 얼굴형 : 얼굴길이, 얼굴너비, 얼굴윤곽
    • 입 : 입의 높이, 입의 너비, 입모양
    • 눈 : 눈의 높이, 눈의 너비
    • 머리카락 : 머리카락 높이, 머리카락 너비, 머리카락 모양
    • 코 : 코의 높이, 코의 너비
    • 귀 : 귀의 높이

<체르노프 페이스, 출처 위키백과>


스타 차트(Start Chart, Radar Chart)

  • 하나의 공간에 각각의 변수를 표현하는 몇 개의 축을 그리고 축에 표시된 해당 변수의 값들을 연결하여 별 모양(또는 거미줄 모양)으로 표현하는 그래프
    • 최소값 : 하나의 변수마다 축이 시작되는 시작점(중점)
    • 최대값 : 가장 먼 끝점
  • 여러 변수 값들을 비교하여 부족하거나 넘치는 변수를 표현하는데 적합
    • 값이 적은 축에 해당하는 부분이 다른 부분에 비해 들어가 보이기 때문
  • 연결된 선의 모양이나 색을 다르게 하는 경우 여러 속성을 한 번에 표현할 수 있음

<스타 차트 예시>

import plotly.express as px

r=[3, 5, 4, 2, 3]
theta=['Int','Dex','Str','Life', 'Mana']

fig = px.line_polar(r=r, theta=theta, line_close=True)

fig.show()

평행좌표계(Parallel Coordinates)

  • 스타차트의 여러 축을 평행으로 배치, 축의 윗부분을 최대값, 아래부분을 최소값으로 하여 값들을 선으로 연결해서 표현한 것
  • 하나의 대상이 변수 값에 따라 위아래로 이어지는 연결선으로 그려지는 특징을 가짐

<평행좌표계 예시, 출처 plotly>

import plotly.express as px
df = px.data.iris()
fig = px.parallel_coordinates(df, color="species_id",
                              dimensions=['sepal_width', 'sepal_length', 'petal_width',
                                          'petal_length'],
                              color_continuous_scale=px.colors.diverging.Tealrose,
                              color_continuous_midpoint=2)
fig.show()

다차원척도법(MDS, Multi-Dimensional Scaling)

  • 객체 간 근접성을 시각화하는 통계기법
  • 모든 변수를 비교해서 비슷한 대상을 그래프 상에 가깝게 배치하는 방법
  • 대상들 간 거리 또는 유사성 이용하여 저차원의 공간상에 위치시킴으로써 대상들 사이의 상대적 위치를 통해 유사성 파악 용이
    • 서로 가깝게 위치 : 유사성이 높은 데이터
    • 서로 멀게 위치 : 유사성이 낮은 데이터
  • 대상간 유사성 측정척도
    • 계량형 다차원척도법(metric MDS) : 대상 간 실제 측정거리 값이나 유클리드 거리로 표현
    • 비계량형 다차원척도법(non-metric MDS) : 대상 간 실제 측정거리 값이나 유클리드 거리의 절대적인 크기는 무시하고, 크기 순서 등의 순위에 관한 정보만을 이용하여 표현

<다차원척도법 예시, 출처 위키백과>


참고

반응형