반응형
회귀분석(Regression)
회귀분석 개요
- 특정 변수가 다른 변수에 영향을 미치는지를 수학적 모델로 설명, 에측하는 기법
- 독립변수로 종속변수를 예측하는 기법
- 독립변수 : 입력값 또는 원인을 설명하는 변수
- 종속변수 : 결과값 또는 효과를 설명하는 변수
- 회귀선(회귀계수) : 독리변수가 주어질 때 종속변수의 기댓값으로 일반적으로 최소제곱법 이용
- 최소제곱법(최소자승법, Method of Least Squares) : 관측값 y와 예측값 y 간 차이의 제곱의 합이 최소가 되게 하는 직선을 찾는 방법
회귀 분석 모형 진단
- 적합도 검정(Goodness-of-fit Test)
- 추정된 회귀식이 표본의 실제값을 얼마나 잘 설명하는지에 대해 확인하는 방법
- 계산식 : 회귀제곱합(SSR) / 총제곱합(SST)
- 1에 가까울수록 높은 설명력을 가짐
- 변수 영향력 분석
- 종속변수에 독립변수들이 얼만큼 영향력이 미치는 지 회귀 변수의 통계적 유의성 검정
- 회귀 계수 추정치에 대한 표준오차와 신뢰 구간 검증 등으로 확인
- p값이 0.05보다 작을 경우 통계적으로 유의미하다고 판단
- 그 외 잔차분석 등으로 회귀분석 예측 모형 결과 진단
- 잔차분석(residual) : 관측값 y와 예측값 y간 차이
회귀분석의 장단점
- 장점
- 크기와 관계없이 계수들에 대한 명료한 해석과 손쉬운 통계적 유의성 검증 가능
- 단점
- 선형적인 관계로 데이터가 구성되어 있어야 적용
선형회귀분석
- 종속변수 y와 한 개 이상의 독립변수 x와의 선형 상관성을 파악하는 회귀분석 기법
- 종속변수와 독립변수 모두 연속형 변수여야 함
- 선형회귀분석 수식 : y = ax + b
- a : 회귀계수
- b : y의 절편
- 단순 선형회귀분석을 이용하여 인공지능을 학습시키는 포스팅
다중선형회귀분석
- 하나의 독립변수가 아닌 여러 개의 독립변수를 사용한 회귀분석 기법
- 단순 선형회귀분석 : 독립변수를 하나 가지고 있는 선형회귀 분석
- 다중 선형회귀분석 : 독립변수가 두 개 이상이고 종속변수가 y 하나인 선형회귀분석
- 다중선형회귀분석 수식 : y = ax1 + bx2+ c
- a, b, ... : 회귀 계수
- c : y의 절편
- 기본적인 가정
- 선형성 : 독립변수와 종속변수가 선형적이여야 함
- 잔차 정규성 : 잔차의 기댓값은 0이며 정규분포를 이루어야 함
- 잔차 독립성 : 잔차들은 서로 독립적이여야 함
- 잔차 등분산성 : 잔차들의 분산이 일정해야 함
- 다중 공선성 : 다중 회귀분석 수행 시 3개 이상의 독립변수 간에 상관관계로 인한 문제가 없어야 함
- 다중 선형회귀분석을 이용하여 인공지능을 학습시키는 포스팅
로지스틱 회귀분석(Logistic Regression)
- 종속변수와 독립 변수와의 관계를 함수를 통해 예측하는 것
- 선형회귀분석과 유사하나, 종속변수가 연속형이 아닌 범주형
- 입력 데이터가 주어졌을 때 특정 분류로 결과가 나타나는 것
- 각 모수에 대해 비선형식이며 0과 1로 조정하는 과정을 통해 선형 함수로 치환
- 1에 가까울수록 발생확률은 올라가며 0일 경우 발생하지 않음
- 로지스틱 회귀분석의 종류
- 단순 로지스틱 회귀분석 : 종속변수가 이항형 문제인 회귀분석
- 다중 로지스틱 회귀분석 : 종속변수가 이항형 문제가 아닌 두 개 이상의 범주를 가지게 될 경우의 회귀분석
- 로지스틱 회귀분석을 이용하여 인공지능을 학습시키는 포스팅
2022.05.08 - [Programming/Machine Learning (Python)] - 인공지능 머신러닝 - 로지스틱 회귀 모델(Logistic Regression)
참고
반응형