빅데이터 모델링 - 분석기법 - 회귀분석

 

회귀분석(Regression)

회귀분석 개요

  • 특정 변수가 다른 변수에 영향을 미치는지를 수학적 모델로 설명, 에측하는 기법
  • 독립변수로 종속변수를 예측하는 기법

<선형 회귀 분석 예시>

  • 독립변수 : 입력값 또는 원인을 설명하는 변수
  • 종속변수 : 결과값 또는 효과를 설명하는 변수
  • 회귀선(회귀계수) : 독리변수가 주어질 때 종속변수의 기댓값으로 일반적으로 최소제곱법 이용
  • 최소제곱법(최소자승법, Method of Least Squares) : 관측값 y와 예측값 y 간 차이의 제곱의 합이 최소가 되게 하는 직선을 찾는 방법

회귀 분석 모형 진단

  • 적합도 검정(Goodness-of-fit Test)
    • 추정된 회귀식이 표본의 실제값을 얼마나 잘 설명하는지에 대해 확인하는 방법
    • 계산식 : 회귀제곱합(SSR) / 총제곱합(SST)
    • 1에 가까울수록 높은 설명력을 가짐
  • 변수 영향력 분석
    • 종속변수에 독립변수들이 얼만큼 영향력이 미치는 지 회귀 변수의 통계적 유의성 검정
    • 회귀 계수 추정치에 대한 표준오차와 신뢰 구간 검증 등으로 확인
    • p값이 0.05보다 작을 경우 통계적으로 유의미하다고 판단
  • 그 외 잔차분석 등으로 회귀분석 예측 모형 결과 진단
    • 잔차분석(residual) : 관측값 y와 예측값 y간 차이

회귀분석의 장단점

  • 장점
    • 크기와 관계없이 계수들에 대한 명료한 해석과 손쉬운 통계적 유의성 검증 가능
  • 단점
    • 선형적인 관계로 데이터가 구성되어 있어야 적용

선형회귀분석

  • 종속변수 y와 한 개 이상의 독립변수 x와의 선형 상관성을 파악하는 회귀분석 기법
  • 종속변수와 독립변수 모두 연속형 변수여야 함
  • 선형회귀분석 수식 : y = ax + b
    • a : 회귀계수
    • b : y의 절편
  • 단순 선형회귀분석을 이용하여 인공지능을 학습시키는 포스팅

2022.05.06 - [Programming/Machine Learning (Python)] - 인공지능 머신러닝 - 단순 선형 회귀 모델(Simple Linear Regression)


다중선형회귀분석

  • 하나의 독립변수가 아닌 여러 개의 독립변수를 사용한 회귀분석 기법
  • 단순 선형회귀분석 : 독립변수를 하나 가지고 있는 선형회귀 분석
  • 다중 선형회귀분석 : 독립변수가 두 개 이상이고 종속변수가 y 하나인 선형회귀분석
  • 다중선형회귀분석 수식 : y = ax1 + bx2+ c
    • a, b, ... : 회귀 계수
    • c : y의 절편
  • 기본적인 가정
    • 선형성 : 독립변수와 종속변수가 선형적이여야 함
    • 잔차 정규성 : 잔차의 기댓값은 0이며 정규분포를 이루어야 함
    • 잔차 독립성 : 잔차들은 서로 독립적이여야 함
    • 잔차 등분산성 : 잔차들의 분산이 일정해야 함
    • 다중 공선성 : 다중 회귀분석 수행 시 3개 이상의 독립변수 간에 상관관계로 인한 문제가 없어야 함
  • 다중 선형회귀분석을 이용하여 인공지능을 학습시키는 포스팅

2022.05.08 - [Programming/Machine Learning (Python)] - 인공지능 머신러닝 - 다중 선형 회귀 모델(Multiple Linear Regression)


로지스틱 회귀분석(Logistic Regression)

  • 종속변수와 독립 변수와의 관계를 함수를 통해 예측하는 것
  • 선형회귀분석과 유사하나, 종속변수가 연속형이 아닌 범주형
  • 입력 데이터가 주어졌을 때 특정 분류로 결과가 나타나는 것
  • 각 모수에 대해 비선형식이며 0과 1로 조정하는 과정을 통해 선형 함수로 치환
  • 1에 가까울수록 발생확률은 올라가며 0일 경우 발생하지 않음

<로지스틱 회귀분석의 예시>

  • 로지스틱 회귀분석의 종류
    • 단순 로지스틱 회귀분석 : 종속변수가 이항형 문제인 회귀분석
    • 다중 로지스틱 회귀분석 : 종속변수가 이항형 문제가 아닌 두 개 이상의 범주를 가지게 될 경우의 회귀분석
  • 로지스틱 회귀분석을 이용하여 인공지능을 학습시키는 포스팅

2022.05.08 - [Programming/Machine Learning (Python)] - 인공지능 머신러닝 - 로지스틱 회귀 모델(Logistic Regression)


참고