빅데이터 탐색 - 다변량 데이터 탐색

 

다변량 데이터 탐색의 개념

  • 기본적으로 변수들 간 인과관계의 규명과 분석을 하는 것
  • 변수들 간의 상관관계를 이용하여 변수를 축약하거나 개체들을 분류
  • 관련된 분석 방법등을 동원하여 데이터 분석을 하는 것

종속변수와 독립변수 사이의 인과 관계

다중 회귀(Multiple Regression)

  • 독립변수가 2개 이상인 회귀 모형
  • 각 독립변수는 종속변수와 선형관계에 있음을 가정
  • 다중 회귀의 장점
    • 변수를 추가하여 분석 내용의 직절 향상 도모 (단순 회귀 분석의 단점 극복)
    • 종속변수를 설명하는 독립변수가 두개 일 때 편이(bias) 제거
  • 일반 형식
    • 종속변수 Y에 대해 X의 독립변수 k개가 존재하여 종속변수를 설명

  • 기본 가정
    • 선형성 : 회귀 모델은 모수에 대해 선형인 모델
    • 등분산성 : 오차항의 분산은 모든 관찰치에 대해 일정한 분산을 가짐
    • 독립성 : 오차항은 서로 독립이며 공분산은 0, 오차항의 각 독립변수 역시 독립인 관계
    • 정규성 : 오차항은 정규분포를 따름
    • 오차항의 평균은 0
  • 분석 방법
    • 최소자승법을 이용하여 결과 도출

로지스틱 회귀(Logistic Regression)

  • 종속변수가 이항형 문제(유효한 범주의 개수가 두 개인 경우)를 지칭할 때 사용
  • 로지스틱 회귀의 특징
    • 종속변수와 독립변수 사이의 관계에서 이항형인 데이터를 적용하였을 때 종속변수 y의 결과가 범위[0,1]로 제한
    • 종속변수가 이진적이기 때문에 조건부 확률의 분포가 정규분포 대신 이항 분포를 따름
    • 독립변수는 실제 값, 이진 값, 카테고리 등 어떤 형태든 될 수 있음
    • 종속변수는 연속 변수(수입, 나이, 혈압 등) 또는 이산 변수(성별, 인종)로 구분된 형태
      • 만약, 특정 이산 변수값의 후보가 2개 이상 존재 시 일반적으로 해당 후보들을 임시 변수로 변환하여 로지스틱 회귀 수행

* 이항형 데이터 : 성공 아니면 실패, 남성 및 여성 등 두 변수를 선정하여 둘에 대한 빈도수 및 비율 분포 특성을 파악할 수 있는 데이터

* 이항분포 : 베르누이 시행을 n번 독립적으로 시행할 때 성공횟수를 X로 정의한 이산확률 분포


분산분석(ANOVA, Analysis of Variance)

  • 3개 이상 표본들의 차이를 표본평균 간의 분산과 표본 내의 관측치간 분산을 비교하여 가설을 검정하는 것
  • 일원분산분석(One-Way ANOVA)
    • 하나의 인자에 근거하여 여러 수준으로 나누어지는 분석
  • 일원분산분석의 특징
    • 단일용인변수(독립변수)에 의해 종속변수에 대한 평균치 차이를 검정하는데 이용
    • 종속변수와 정수값을 갖는 요인변수가 각 하나여야하고 요인변수가 정의되어야 함
  • 예) 3학년 a, b, c반간 성적의 평균 차이가 존재한다.

다변량 분산분석(Multi Variate ANOVA)

  • 측정형 변수, 종속변수가 2개 이상인 분산분석
  • 이원분산분석(Two-Way ANOVA)
    • 두 개 이상의 인자에 근거하여 여러수준으로 나누어지는 분석
  • 이원분산분석의 특징
    • 독립변수의 수가 두 개 존재
  • 예) 성별변수와 연령변수에 따라 직무만족도가 어떻게 되는가?

변수 축약

  • 변수들 간 상관관계를 이용하여 변수를 줄이는 방법, 변수 유도기법이라고 함

주성분 분석(PCA)

  • 다변량 자료에서 존재하는 비정규성이나 이상치를 발견하기 위해 변수들의 상관관계가 존재하지 않는 새로운 변수를 구하는 것
  • N개의 변수로부터 서로 독립인 K개의 주성분을 구해 원 변수의 차원을 줄이는 방법

요인 분석(Factor Analysis)

  • 다수의 변수들의 상관관계를 분석하여 공통차원들을 통해 축약해 나가는 방법
  • 즉, 다수의 변수들 간 정보손실을 최소화하면서 소수의 요인으로 축약하는 것
  • 요인분석의 특징
    • 독립변수와 종속변수의 개념이 없음
    • 추론통계가 아닌 기술통계기법에 의해 수행(상관분석 등)
  • 요인분석의 목적
    • 변수축소 : 여러 개의 관련변수가 하나의 요인으로 묶임
    • 변수제거 : 요인에 포함되지 않거나 포함되더라도 중요도가 낮은 변수를 찾을 수 있음
    • 변수특성파악 : 관련된 변수들의 묶음으로 상호독립특성을 파악하기 용이
    • 측정항목의 타당성 평가 : 그룹이 되지 않은 변수의 특성을 구분
    • 요인점수를 통한 변수생성 : 회귀분석, 군집분석, 판별분석 등에 적용 가능한 변수 생성

정준상관분석(Canonical Analysis)

  • 두 변수집단 간의 연관성을 각 변수집단에 속한 변수들의 선형 결합의 상관계수를 이용하여 분석하는 방법
  • 정준변수(Canonical Variable) : 새로 만들어진 선형결합
  • 정준상관계수(Canonical Correlation Coefficient) : 정준변수들 사이의 상관계수
  • 두 집단에 속하는 변수들의 개수 중, 변수의 개수가 적은 집단에 속하는 변수의 개수만큼 정준변수가 만들어 질 수 있음
  • 회귀분석과는 다르게 인과성이 없음

개체유도

  • 개체들의 특성을 측정한 변수들의 상관관계를 이용하여 유사한 개체를 분류하는 방법

군집 분석(Cluster Analysis)

  • 변수 또는 개체들을 자연스럽게 몇 개의 그룹 또는 군집으로 나누는 분석기법
  • 변수 또는 개체(item)들이 속한 모집단 또는 범주에 대한 사전정보가 없는 경우에 관측값들 사이의 거리(또는 유사성)를 이용
  • 군집 간의 거리에 대한 정의가 가장 중요한 부분으로 거리의 정의에 따라 유사성에 대한 척도 형성
    • 계층적 방법(Hierachical)
      • 가까운 개체끼리 차례로 묶고 멀리 떨어진 개체를 차례로 분리
      • 한 번 병합된 개체는 다시 분리되지 않음
    • 비계층적(Nonhierachical) 또는 최적분화(Partitioning) 방법
      • 다변량 자료의 산포를 나타내는 여러가지 측도를 이용하여 판정기준을 최적화시키는 방법
      • 한 번 분리된 개체도 반복적으로 시행하는 과정에서 재분류됨
    • 조밀도에 의한 방법
      • 분포 특성에 따라 군집을 나누는 방법
    • 그래프를 이용하는 방법
      • 다차원 자료들을 2차원 또는 3차원으로 축소할 수 있다면 시각적 차원에서 자연스러운 군집 형성 가능

다차원 척도법(MDS, Multi-Dimensional Scaling)

  • 다차원 관측값 또는 개체들 간의 거리 또는 비유사성을 이용
  • 개체들을 원래의 차원보다 낮은 차원(보통 2차원)의 공간상에 위치시켜 개체들 사이의 구조 또는 관계를 쉽게 파악하고자하는 방법
  • 즉, 시각적 분석을 위함. 고차원에서 저차원으로 변환하여 구조 파악을 하는 것에 목적을 둠

판별 분석(Discriminant Analysis)

  • 2개 이상의 그룹으로 나누어진 개체에 대해 분류에 영향을 미칠 것 같은 특성을 특정(변수)하고 새로운 개체를 분류하는 방법
  • 로지스틱 판별분석 : 분류를 하는 도구(판별식)를 로지스틱 회귀분석에 이용하여 분류하는 방법

참고