빅데이터 모델링 - 분석기법 - 서포트벡터머신(SVM)

 

개요

  • 지도 학습 기법으로 고차원 또는 무한 차원의 공간에서 초평면(의 집합)을 찾아 이를 이용하여 분류와 회귀 수행
  • 두 카테고리 중 어느 하나에 속한 데이터의 집합이 주어졌을 때, 주어진 데이터 집합을 바탕으로 새로운 데이터가 어느 카테고리에 속할지를 판단하는 비확률적 이진 선형 분류 모델을 만드는 기법
  • 만들어진 분류 모델은 데이터가 사상된 공간에서 경계로 표현, 그 중 가장 큰 폭을 가진 경계를 찾는 알고리즘
  • 비선형 분류에서 사용 시 주어진 데이터를 고차원 특징 공간으로 사상하는 작업 필요, 이를 효율적으로 하기 위해 커널 트릭 사용
    • 커널 트릭 : 선형 분류가 불가능한 데이터에 대한 처리를 위해 데이터의 차원을 증가시켜 하나의 초평면으로 분류할 수 있도록 도와주는 커널 함수를 이용하는 것

주요 요소

  • 벡터(Vector)
    • 점들 간 클래스(Class)
  • 결정영역(Decision Boundary)
    • 클래스들을 잘 분류하는 선
  • 초평면(Hyperplane)
    • 서로 다른 분류에 속한 데이터들 간 거리를 가장 크게 하는 분류 선
  • 서포트벡터(Support Vector)
    • 두 클래스 사이에 위치한 데이터 포인트들
  • 마진(Margin)
    • 서포트벡터를 지나는 초평면 사이의 거리

핵심적 특징

  • 기존 분류기가 '오류율 최소화'를 특징으로 한다면 SVM은 '여백(마진) 최대화'로 일반화 능력의 극대화 추구
  • 마진이 가장 큰 초평면을 분류기로 사용할 때, 새로운 자료에 대한 오분류가 가장 낮아짐

<선형SVM 분류 예시, 출처 위키백과>

  • 그림에서 가운데 직선이 초평면을 의미, 양쪽 점선이 서포트 직선
    • 초평면 : 2차원에서는 직선, 3차원에서는 평면
    • 초평면 마진 : 각 서포트 벡터를 지나는 초평면 사이의 거리
    • 서포트 직선 : 직선 두 개로 정의, 초평면과 같은 법선 벡터를 가짐, 1만큼의 거리를 둔 것으로 1과 -1로 나타냄
  • 가중치 벡터 : 초평면에 직교
  • 편향 : 초평면의 오프셋(offset) 제공

장단점

  • 장점
    • 다양한 라이브러리로 사용하기 쉬움
    • 분류, 회귀 예측 문제에 동시에 활용 가능
    • 신경망 기법에 비해 적은 데이터로 학습 가능
    • 과대적합, 과소적합 정도가 덜함
  • 단점
    • 이진분류만 가능
    • 데이터 많을 시 모델 학습 시간 오래 소요
    • 각각 분류에 대한 SVM 모델 구축 필요
      • 다중 분류를 위해 n개의 SVM을 만들기도 함

참고