빅데이터 - 분석 기획 - 데이터 분석 계획 - 빅데이터 분석 방법론

반응형

 

빅데이터 분석 방법론 개요

  • 응용 서비스 개발을 위한 3계층
    • 단계(Phase)
      • 데이터 분석을 수행하기 위한 절차
      • 기준선(Baseline)을 설정하고 버전관리를 통해 통제
    • 태스크(Task)
      • 각 단계별로 수행되어야 하는 세부 업무
      • 각 태스크가 완료되면 그에 대한 성과를 얻음
    • 스텝(Step)
      • 단기간 내에 수행 가능한 워크패키지
      • 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스
  • 각 단계별 세부 태스크와 스텝 정의

빅데이터 분석 방법론의 개발절차

<빅데이터 분석 방법론의 개발절차, 출처 이기적 스터디 카페>

분석 기획(Planning)

  • 비즈니스 이해 및 범위 설정
    • 향후 프로젝트 진행을 위한 방향 설정
    • 프로젝트 목적에 부합한 범위 설정
    • 프로젝트 범위를 명확하게 파악하기 위해 구조화된 명세서 작성
  • 프로젝트 정의 및 계획 수립
    • 모델의 운영 이미지 설계
    • 모델 평가 기준 설정
    • 상세 프로젝트를 정의하고 수행 계획 수립
      • 프로젝트의 목표 및 KPI(핵심성과지표), 목표 수준 등 구체화
    • 프로젝트 산출물 중심으로 WBS(업무분할구조) 작성
  • 프로젝트 위험계획 수립
    • 프로젝트를 진행하면서 발생 가능한 모든 위험을 식별하여 사전 대응방안 수립
    • 예상되는 위험에 대한 대응은 회피, 전이, 완화, 수용으로 구분하여 위험 관리 계획서 작성

 

데이터 준비(Preparing)

  • 필요 데이터 정의
    • 정형, 비정형, 반정형 등 모든 내외부 데이터를 대상
    • 데이터의 속성, 오너, 관련 시스템 담당자 등을 포함한 데이터 정의서 작성
    • 내부 데이터 획득 시 부서 간 업무협조와 개인정보보호 및 정보보안과 관련된 문제점 사전 파악
    • 외부 데이터 획득 시 시스템 간 다양한 인터페이스 및 법적 이슈 고려
  • 데이터 스토어 설계
    • 정형, 비정형, 반정형 데이터를 모두 저장할 수 있도록 설계
    • 데이터의 효율적인 저장과 활용을 위해 데이터 스토어의 논리적, 물리적 설계를 구분하여 수행
    • 정형 데이터 스토어는 일반적으로 관계형 데이터베이스 이용
    • 비정형, 반정형 데이터 스토어는 하둡, NoSQL 등 이용
  • 데이터 수집 및 정합성 점검
    • 크롤링, 시스템 간 실시간 처리, 배치 처리, 데이터베이스 간 연동, API를 이용한 개발, ETL 도구 활용, 스크립트 작성 등 다양한 방법 존재
    • 데이터 거버넌스에 근거하여 메타 데이터 및 데이터 사전 등이 작성되어 적용되고 있는지 주기적으로 확인
    • 데이터 품질개선이 필요한 부분에 대해서 보완 작업 진행

데이터 분석(Analyzing)

  • 분석용 데이터 준비
    • 분석에 필요한 데이터의 범위를 확인하여 데이터베이스나 구조화된 형태로 구성
    • 필요한 경우 입력 데이터로 사용될 수 있도록 적절히 가공
    • 분석용 작업 공간과 전사 차원의 데이터 스토어로 분리
  • 텍스트 분석
    • 데이터 스토어에서 필요한 텍스트 데이터를 추출하여 다양한 기법으로 분석하고 모델 구축
    • 텍스트 분석을 위해 용어사전이 필요, 업무 도메인에 맞도록 작성
    • 텍스트 분석 결과는 모델링 태스크와 연동하여 프로젝트 목적에 부합하는 최종 모델 구축
    • 구축된 모델은 텍스트 시각화 도구로 모델의 의미 전달 명확화
  • 탐색적 분석
    • 분석용 데이터셋에 대한 정합성 검토, 데이터 요약, 데이터 특성을 파악하고 모델링에 필요한 데이터 편성
    • 다양한 관점으로 평균, 분산 등 기초 통계량을 산출하여 데이터의 분포와 변수간의 관계 등 데이터 자체의 특성과 통계적 특성 파악
    • 시각화를 탐색적 데이터 분석을 위한 도구로 활용
    • 데이터의 가독성을 명확히 하고 데이터의 형상 및 분포 등 데이터 특성 파악
  • 모델링
    • 기계학습 등을 이용한 데이터 모델링은 훈련용 데이터를 활용
    • 분류, 예측, 군집 등의 모델을 만들어 가동중인 운영 시스템에 적용
    • 필요한 경우 비정형 데이터 분석결과를 통합적으로 활용하여 프로젝트 목적에 맞는 통합 모델링 수행
    • 개발된 모델을 활용하기 위해 상세한 알고리즘 설명서 작성과 모니터링 방안 필요
  • 모델 평가 및 검증
    • 프로젝트 정의서의 평가 기준에 따라 모델의 완성도 평가
    • 품질관리 차원에서 모형 평가 프로세스 진행
    • 모형 결과 보고서 내의 알고리즘을 파악하고 테스트용 데이터나 검증을 위한 별도의 데이터 활용
    • 모델의 객관성과 실무 적용성 검증
    • 모델의 품질을 최종 검증하는 프로세스
    • 요구되는 성능 목표에 미달하는 경우 모델 튜닝 작업 수행

시스템 구현(Developing)

  • 설계 및 구현
    • 시스템 및 데이터 아키텍처와 사용자 인터페이스 설계
    • 시스템 설계서를 바탕으로 BI 패키지 활용, 프로그래밍을 통해 모델 구현
  • 시스템 테스트 및 운영
    • 시스템 테스트는 품질관리 차원에서 진행함으로써 적용된 시스템의 객관성과 완전성 확보
    • 시스템 운영자, 사용자를 대상으로 필요한 교육 실시

평가 및 전개(Deploying)

  • 모델 발전계획 수립
    • 모델의 생명주기를 설정
    • 주기적인 평가를 실시
    • 모델을 유지보수하거나 재구축하기 위한 방안 마련
    • 발전계획을 상세하게 수립하여 모델의 계속성 확보
  • 프로젝트 평가 및 보고
    • 프로젝트 성과를 정량적 성과, 정성적 성과로 나눠 성과 평가서 작성
    • 프로젝트 진행과정에서 산출된 지식이나 프로세스 등 산출물 자산화

참고

 

 

 

 

반응형