빅데이터 모델링 - 고급 분석기법

베이즈 추론

선형회귀분석모델(Linear Regression)
- $y = θ_{1} x + θ_{2}$
- 추정치와 실제의 차이(loss)를 최소화하는 것
기존 머신러닝의 방법
- 경사하강법과 같은 알고리즘을 통해 점진적으로 학습하여 매개변수 확인
- 경사하강법 : 함수의 기울기(경사)를 구하고 경사의 반대 방향으로 계속 이동시켜 극값에 이를 때까지 반복
베인지안 확률론의 적용개념
- P(Model)이라는 사전 확률(prior)을 알고 있음
- 새로운 데이터가 관측되면 P(Model|Data)이라는 사후 확률(posterior)을 얻음
- 다음 번 학습의 사전확률로 사용
- 즉, 점진적으로 P(Model), 즉 매개변수(parameter)들의 분포를 찾아가는 과정

나이브 베이즈 분류(Naive bayes Classification)
- 특성들 사이의 독립을 가정하는 베이즈 정리를 적용한 확률 분류기를 지칭
나이브 베이즈의 특성
- 분류기를 만들 수 있는 간단한 기술
- 단일 알고리즘을 통한 훈련이 아닌 일반적인 원칙에 근거한 여러 알고리즘들을 이용하여 훈련
- 모든 나이브 베이즈 분류기는 공통적으로 모든 특성 값이 서로 독립임을 가정
- 예) 특정과일을 귤로 인식(분류)하게 하는 특성을 생각해보면?
  - 노란색, 둥글다, 표면이 울퉁불퉁, 지름이 5cm인 특성
  - 나이브 베이즈 분류기에서는 아무런 연관성이 없음. 즉, 독립사건임
나이브 베이즈의 장점
- 일부 확률모델에서 나이브 베이즈 분류는 지도학습 환경에서 매우 효율적으로 훈련
- 분류에 필요한 파라미터를 추정하기 위한 트레이닝 데이터의 양이 매우 적음
- 간단한 디자인과 단순한 가정에도 불구하고 많은 복잡한 실제 상황에서 잘 작동
나이브 베이즈 분류기의 생성(확률모델)
- 나이브 베이즈는 조건부 확률 모델
- 분류될 인스턴스들은 N개의 특성(독립변수)을 나타내는 벡터(X = x1, x2, ..., xn)로 표현
- 벡터를 이용하여 k개의 가능한 확률적 결과들(클래스)을 할당
  - 아래의 식을 이용하지만 결국 표현만 다를 뿐 식은 같음