빅데이터 모델링 - 분석 모델 설계 - 분석 모델 구축 절차

반응형

 

분석 시나리오 작성

  • 데이터 분석 대상 및 범위를 요구사항에 맞게 정의
  • 분석을 통해 해결할 수 있는 문제와 목표 그리고 분석 목표별 구현 모델과 예상 결과 작성
  • 분석 과정에 필요한 데이터, 절차, 분석 기법 등의 세부사항 정의
    • 데이터의 경우 사전 확보 및 유형 분석 필요
    • 기존에 잘 구현되어 활용되는 경우 유사 분석 시나리오 및 솔루션 고려

분석 모델 설계

  • 분석 모델 설계시 사전 확인 사항
    • 필요한 데이터 항목이 정해졌는가?
    • 데이터 단위를 고려, 항목에 따른 표준화 방법을 정하였는가?
    • 데이터를 수집한 항목에 따라, 단계별로 모델이 설계되었는가?
    • 분석 검증 통계 기법을 선정하였는가?
  • 분석 모델링 설계와 검정
    • 분석 목적에 기반한 가설 검정 방법 수립
    • 추정방법에 대한 기술 검토
    • 분석 모델링 설계와 검정 방법 수립
  • 분석 모델링에 적합한 알고리즘 설계
    • 비지도 학습 : 군집분석, 연광성분석, 오토인코더 등
    • 지도 학습 : 의사결정트리, 랜덤 포레스트, 서포트벡터머신, 회귀분석 등
    • 준지도 학습 : 셀프 트레이닝, 적대적 생성 모델 등
    • 강화 학습 : Q-Learning, 정책경사(PG, Policy Gradient) 등
  • 분석 모델 개발 및 테스트
    • 모델 기능 정의
    • 모듈 설계
    • 모듈 개발 결과물과 모델 설계 일치 확인
    • 모듈의 정상 동작 여부 검증

분석 모델링 설계와 검정 (분석 목적에 기반한 가설검정 방법)

  • 가설검정 절차 5단계

유의수준 결정, 귀무가설과 대립가설 설정

  • 귀무가설(=영가설) : 직접 검정 대상이 되는 가설, 즉 '표본의 관찰을 통해 모집단은 ~할 것이다'라고 내린 가설
  • 대립가설 : 귀무가설이 기각 될 때 받아들여지는 가설
  • 가설검정을 시행할 때는 귀무가설이 옳다는 가정하에 시작
  • 반대로 생각하면 진실일 가능성이 적어 처음부터 기각될 것이 예상되는 가설

검정통계량의 설정

  • 검정통계량 : 가설을 검정하기 위한 기준으로 사용하는 값
  • 확률분포 상에 어디에 위치하는지에 따라 귀무가설을 기각하거나 기각하지 않음

기각역의 설정

  • 기각역 : 확률분포에서 귀무가설을 기각하는 영역
  • 검정통계량이 위치하면 귀무가설 기각

검정통계량 계산

  • 신뢰수준 : 가설을 검정할 때 어느 정도로 검정할 겅신지에 대한 수준
  • 유의수준 : 가섬을 검정할 때 일정 수준을 벗어나면 귀무가설이 오류라고 판단하는 수준
    • 유의수준의 수학적 의미 : 기각역들의 합, 1에서 신뢰수준을 뺀 값

통계적인 의사결정(가설검정)

  • 가설검정에서의 검정 방법 두가지

양측 검정

  • 귀무가설을 기각하는 영역이 양쪽에 있는 검정
  • 만약 대립가설이 ~가 아니다(크거나 작다)라면 양측검정 사용

<기각역 양측검정, 출처 kocw 금오공과대학 수리통계학 강의자료>


단축 검정

  • 양측 검정과 달리 귀무가설을 기각하는 영역이 한쪽 끝에 있는 검정
  • 만약 대립가설이 ~보다 작다 혹은 크다 인 경우 사용

<기각역 좌측검정, 출처 kocw 금오공과대학 수리통계학 강의자료>


분석 모델링 설계와 검정 (추정 방법에 대한 기술 검토)

  • 전체적으로 데이터에 대한 전처리 과정이 끝나면 모델에 활용될 후보 변수와 후보 분석 모델에 사용할 알고리즘 파악
  • 기초 통계, 데이터 검증, 데이터 정제 등의 데이터 변환 과정을 거치고 후보 변수는 전처리 과정에서 선정
  • 분석 모델은 크게 예측 분석, 현황 진단, 예측 최적화 모델로 분류
  • 분석 모델 선정 문제는 비즈니스 환경 여건이나 종속 변수의 유무에 따라 달라지며 종속 변수가 있는지 없는지 확인
  • 종속 변수의 유무에 따라 사용할 알고리즘 제한

참고

 

반응형