반응형
빅데이터 분석 방법론 정의
- 데이터마이닝을 위한 방법론을 프로젝트 특성에 맞추어 적용하는 것
- 대표적으로 CRISP-DM, SEMMA, KDD 등
빅데이터 분석 방법론 참조모델 적용 프로세스
- 한국데이터산업진흥원에서 제시한 빅데이터 분석 프로젝트를 위한 참조모델
- 각 프로젝트의 상황에 맞추어 적용 할 수 있음
- 분석기획(Planning)
- 분석하려는 비즈니스 이해하고 분석 목표와 범위 설정하는 단계
- 비즈니스 이해 및 범위 설정, 프로젝트 정의 및 계획 수립, 프로젝트 위험계획 수립 등의 작업 수행
- 데이터 준비(Preparing)
- 프로젝트에 필요한 데이터의 범위와 요건을 정의하고 기준에 맞도록 데이터를 수집, 가공, 준비하는 단계
- 필요데이터 정의, 데이터 스토어 설계, 데이터 수집 및 정합성 점검 등의 작업 수행
- 데이터 분석(Analyzing)
- 준비단계에서 확보된 데이터를 이용하여 다양한 분석 작업을 수행하는 단계
- 분석용 데이터 준비, 텍스트 분석, 탐색적 분석, 모델링, 모델링 평가 및 검증, 모델적용 및 운영방안 수립 등의 작업 수행
- 시스템 구현(Developing)
- 개발된 분석 모델을 운영중인 시스템에 적용하거나 프로토타입을 구현할 필요성이 있는 경우 이 단계를 진행
- 단순한 분석과제에서는 생략 가능
- 설계 및 구현, 시스템 테스트 및 운영 등의 작업 수행
- 평가 및 전개(Deploying)
- 모델의 성능을 유지하고 주기적으로 개선하는 노력을 하기 위해 모델발전계획을 수립하고 프로젝트의 성과를 정량적, 정성적으로 평가하고 최종 보고서를 작성한 후 프로젝트를 종료하는 단계
빅데이터 분석 방법론
자세한 설명은 아래의 포스팅 참고
2023.02.19 - [이론/빅데이터 분석 기사] - 빅데이터 - 분석 기획 - 데이터 분석 계획 - 데이터 분석 방안
CRISP-DM(Cross Industry Standard Process for Data Mining)
- 유럽연합의 ESPRIT 프로젝트에서 시작한 방법론
- 총 6단계로 구성, 빅데이터 프로젝트에 보편적 사용
- 비즈니스 이해(Business Understanding)
- 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계
- 데이터 이해(Data Understanding)
- 분석을 위한 데이터를 수집하고 분석 대상이 되는 데이터의 속성을 이해하고 인사이트를 발견하는 단계
- 데이터 준비(Data Preparation)
- 수집된 데이터에서 분석기법에 적합한 데이터셋을 편성하는 단계
- 모델링(Modeling)
- 분석을 위한 다양한 모델링 기법과 알고리즘을 선택하고 테스트를 통해 최적화해 나가는 단계
- 평가(Evaluation)
- 모델링 단계에서 만들어진 분석모델이 프로젝트의 목적에 부합하는지 평가하는 단계
- 전개(Deployment)
- 완성된 모델을 실제 업무 현장에 적용하는 단계
- 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 관련 프로세스로 구성
SEMMA(Sampling Exploration Modification Modeling Assessment)
- SAS사의 주도로 통계적 분석에 중심을 두고 있는 방법론
- 총 5단계로 구성
- 샘플링(Sampling)
- 탐색(Explore)
- 전처리(Modify)
- 모델링(Model)
- 평가(Assess)
KDD(Knowledge Discovery in Database)
- Fayyard가 정리한 데이터마이닝 프로세스
- 주로 데이터베이스 중심 시스템을 대상으로 적용
- 총 5단계로 구성
- 데이터 추출(Select)
- 전처리(Preprocessing)
- 변환(Transformation)
- 데이터마이닝(Data Mining)
- 해석/평가(Interpretation/Evaluation)
전개(Deployment) 단계의 역할
- 개발된 모델을 적용하여 결과를 확인하고 계속적으로 관리를 위한 방법을 제시하는 단계
- 빅데이터 분석 프로젝트가 성공적으로 완료되기 위해 꼭 필요한 프로세스
- 단, 방법론에 따라 명확하게 포함되지 않는 경우도 있음
- 주기적으로 모니터링하고 성능 개선을 위한 노력 필요
- 실제 동작하는 운영 데이터의 특성과 품질에 따라 좌우되기 때문
- 주로 이루어지는 작업 4가지
- 분석결과 활용 계획 수립
- 빅데이터 분석 결과를 어떻게 업무에 반영할 것인지에 대한 액션 플랜 작성
- 업무 성과를 지속적으로 모니터링 할 수 있는 방안 수립
- 분석결과 적용과 보고서 작성
- 분석 모델과 결과를 업무 현장에 적용하고 업무 데이터베이스 시스템 일부로 포함
- 성과 측정 지표에 따라 분석 성과를 측정하고 개선 계획 수립
- 분석모델 모니터링
- 빅데이터 분석이 끝나면 각 현업부서에서 분석 결과를 활용하여 이전에 수립한 활용방안이 계획대로 잘 수행되고 있는지 모니터링
- 분석모델 리모델링
- 분석 모델이 변화된 업무와 데이터를 지속적으로 수용할 수 있도록 리모델링 과정 진행
- 데이터 품질 검토, 알고리즘 개선, 매개변수 최적화 등
- 분석결과 활용 계획 수립
참고
반응형