빅데이터 모델링 - 분석기법 개요

반응형

 

학습 유형에 따른 데이터 분석 모델

(아래 포스팅에서 학습 유형에 대한 좀 더 많은 정보 확인이 가능합니다.)

2022.05.31 - [Programming/Machine Learning (Python)] - 인공지능 머신러닝의 기초, 개념, 종류

 

지도 학습(Supervised Learning)

  • 정답이 있는 데이터를 활용해 데이터를 학습시키는 방법
  • 입력값이 주어질 때 정답이 무엇인지 알려주면서 컴퓨터를 학습시키는 방법
  • 대표적으로 분류(Classification)와 회귀(Regression)으로 구분
  • 분류 : 주어진 데이터를 여러 가지 중 하나로 분류하는 것
    • 이진분류 : 두 가지중 하나로 분류
    • 다중 분류 : 여러 가지 중 하나로 분류
    • 예) 의사결정트리, 랜덤 포레스트, 인공신경망, SVM, 로지스틱 회귀분석
  • 회귀 : 주어진 데이터의 특징을 기반으로 새로운 데이터 값을 예측하는 것
    • 예) 의사결정트리, 선형회귀분석, 다중회귀분석

비지도 학습(UnSupervised Learning)

  • 정답 없는 데이터를 컴퓨터 스스로 학습하여 숨겨진 의미, 패턴을 찾아내고 구조화하는 방법
  • 데이터가 어떤 특성의 그룹으로 구성되어 있는지 확인하는데 사용
  • 예) 군집분석, 연광성분석, 인공신경망, 오토인코더 등

준지도 학습(Semi-supervised Learning)

  • 정답이 있는 데이터와 정답이 없는 데이터를 동시에 학습에 사용하는 기법
  • 예) 셀프 트레이닝, GAN
    • 셀프 트레이닝 : 정답이 있는 데이터로 모델을 학습한 뒤 정답이 없는 데이터를 예측하여 이 중 가장 확률값이 높은 데이터들만 정답 데이터로 다시 가져가는 방식을 반복하는 것으로 높은 확률값이 나오는 데에 가중치를 주는 간단한 방법
    • GAN(생성적 적대 신경망) : 생성모델과 판별모델이 존재하여 생성모델에서 데이터 분포 법칙에 따라 데이터를 생성하면 판별 모델에서는 이를 판별하는 방식으로 학습 진행

강화 학습(Reinforcement Learning)

  • 주어진 환경에서 보상을 최대화하도록 에어전트를 학습하는 기법
  • 에어전트가 행동을 결정하고 환경을 통해 보상이 있으면 이전의 입력값과 행동들을 긍정적으로 학습
  • 예) Q-Learning, 정책경사(PG, Policy Gradient)

데이터 분석 알고리즘과 분야

  • 데이터 분석 알고리즘들이 활용되고 있는 대표 분야
알고리즘 주 활동 분야
업리프트 모델링 단계적 추정, 예측 분석
생존분석 의료 통계, 설비 분야 사건 예측
회귀분석 예측, 추정 분석
시각화 원인과 관계 분석
기초통계 기초 통계현황 파악
부스팅, 배깅 분류 분석
시계열분석 시간상의 예측(이자율)
요인분석 차원축소
텍스트마이닝 감정 분석
의사결정 나무, 랜덤포레스트 분류
신경 회로망 에측 분석
군집분석 독립변수들만의 분류, 그룹화
추천-협업 필터링 아이템과 이용자 간 상호 분석 통한 추천
앙상블 기법 추정, 예측, 규범 등의 결합 분석
소셜네트워크 분석 관계망 분석
서포트벡터머신 분류 분석
주성분분석 원인분석, 차원축소
  • 분석 기법을 선택하는 기준은 목적과 해석 가능 여부에 따라 달라짐
  • 업리프트 모델링
    • 추정 모델을 단계별로 적용하는 기법
    • A/B테스트와 같이 환경이나 조건을 달리한 후에 적당한 그룹을 선택하여 관리 등 다양한 분야에 사용 
    • 마케팅 캠페인에 많이 사용
  • 회귀분석
    • 예측 또는 분류에 사용하는 대중적인 알고리즘
    • 특히 로지스틱 회귀분석은 이진분류에 자주 활용
  • 시계열 불량 감지
    • 이자율이나 주식 예측 등에 자주 사용
  • 이상치 감지 기법
    • 사기 탐지 등에 사용

참고

반응형