빅데이터 - 분석 기획 - 데이터 분석 계획 - 데이터 확보 계획

반응형

 

데이터 확보를 위한 사전 검토사항

  • 필요 데이터
    • 분석 목적에 맞는 데이터 정의
    • 필요한 데이터를 확보할 수 있는지 확인
    • 확보할 수 없다면 대안 고려
  • 보유 데이터 현황파악
    • 사전에 정의한 데이터의 존재 여부
    • 분석 품질이 보장된 우수한 데이터
      • 충분한 데이터 존재하는지 확인
  • 분석 데이터의 유형
    • 분석 데이터 확보를 위해 수집 대상 데이터의 유형 고려
    • 어떤 데이터를 어떤 기법을 이용하여 분석할 것인지 수립된 계획에 따라 데이터 유형을 선택하고 변수 정의
  • 편향되지 않고 충분한 양의 데이터 규모
    • 데이터 분석 기법에 따라 훈련 데이터셋, 검증 데이터 셋, 테스트 데이터셋 필요
      • 신뢰성 높은 데이터 분석 모델 개발과 정확한 데이터 분석을 위함
  • 내부 데이터의 사용
    • 필요 데이터에 대한 데이터 목록 작성
      • 변수 명칭, 설명, 형태, 기간, 용량, 권한 등
    • 필요 데이터에 대한 관련 법률이나 보안적인 요소 확인
    • 개인정보일경우 비식별 조치방안 고려
  • 외부 데이터의 수집
    • 필요 데이터에 대한 데이터 목록을 데이터를 보유한 기업의 이름과 데이터 제공 방법까지 고려하여 작성
      • Open API, 복제 등
    • 필요 데이터의 수집이 관련 법률이나 제도상 제약이 없는지 검토

분석에 필요한 변수 정의

  • 데이터 분석 요건에 따라 도출된 활용 시나리오에 적합한 데이터의 유형 및 분석 변수 정의

데이터 수집 기획

  • 데이터 수집 기법 활용, 필요 데이터를 배치 자동화로 수집
    • 데이터 수집 타깃 시스템 또는 사이트 선별
    • 수집 대상 화면, 텍스트를 위해 인덱스 생성 기획
    • 대상 시스템별 데이터 수집을 위한 크롤러 준비 및 저장소 기획
    • 크롤링 주기, 대상 범위를 확정하고 데이터 수집 기획

분석 변수 정의

  • 빅데이터의 특징을 고려한 분석 변수 생성 기획
    • 상관관계 분석을 위한 데이터 연속성 범주 등을 고려, 분석 변수 정의
  • 분석 변수 유형과 형성 알고리즘 이용, 분석 유형 도출
    • 변수의 분포를 구별하는 정도에 따라 순수도(purity) 또는 불순도(impurity)에 의해 측정 구간별 순수돌르 가장 높이는 분석 변수 도출

분석 변수 생성 프로세스 정의

  • 분석 대상에 대해 객관적으로 인식하고 논리적 인과관계 분석 및 데이터 간 상관관계 분석을 위한 분석 변수 생성 프로세스 정의
변수 분석 내용
객관적 사실(Fact)
기반의 문제 접근
명확한 문제 인식을 위해 분석적이고 가정(Why)에 의한 접근 방법과 함께 무엇(What)이 문제인지를 파악하여 객관적 관찰 데이터 유형 식별
데이터의 상관 분석 빅데이터 분석 대상의 연관성 분석을 통해 데이터 집합 간 통계적 관련성을 분석할 수 있는 변수를 생성하고 변수의 척도 분류
프로토타입을 통한
분석 변수 접근
의미 있는 분석 변수를 생성하기 위하여 프로토타이핑 접근법을 통해 결과를 확인하며, 반복적으로 개선하여 필요한 데이터를 식별하고 구체화하여 비정형 데이터가 갖는 문제 해소

생성된 분석 변수의 정제를 위한 점검항목 정의

  • 분석 기획 단계에서 도출된 문제 인식, 해결을 위한 개념적 대안 설계를 통해 도출된 데이터에 대해 가용성을 평가하고 점검항목 정의
  • 데이터의 가용성과 적정성이 부족할 경우 문제 해결 및 활용 시나리오 적용을 통해 가치 가치 있는 결과 도출 어려움
  • 실행 전 분석 변수를 논리적 지표에 따라 점검
분류 점검 항목 내용
데이터
수집
데이터 적정성 문제 해결에 적절한 분석 변수인가?
데이터 가용성 수집 가능한 데이터인가?
대체 분석 데이터 유무 수집 불가능한 데이터인 경우 간접적으로 연관성 있는 데이터로 대체 가능한가?
데이터
적합성
데이터 중복 중복이나 노이즈 제거, 데이터값 존재 유무 등 기초 데이터 클렌징 수행 가능한가?
분석 변수별 범위 분석 변수별 측정될 수 있는 min/max를 확인하였는가?
분석 변수별 연관성 수집된 데이터 간 충분 간격으로 연고나성이 있는가?
데이터 내구성 데이터 노이즈, 왜곡이 발생하였을 때 예측 성능을 보장할 수 있는가?
특징 변수 특징 변수 사용 분석 변수 중 바로 특징 변수로 사용할 수 있는 가능성이 있는가?
변수 간 결합 가능 여부 분석 변수를 결합하여 교차 검증을 할 수 있는가?
타당성 편익/비용 검증 분석 비용과 분석 후 결과가 추가적 매출, 수익 등에 기여할 수 있는가?
기술적 타당성 다양한 분석 툴을 호라용할 수 있는 분석 변수를 도출하였는가?

생성된 분석 변수의 전처리 방법 수립

  • 데이터 정제를 위한 점검항목 정의 후 이에 맞게 논리적 모델 설계를 위한 데이터 전처리 방법 수립

데이터 전처리 수행

* 전처리(Preprocessing) : 데이터를 분석 목적과 방법에 맞는 형태로 처리하기 위해서 불필요한 정보를 분리하거나 제거하고 가공하는 예비적 조작

처리 기법 내용
데이터 정제
(Cleaning)
결측값을 채우거나 이상치를 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업
데이터 통합
(Integration)
다수의 정제된 데이터를 통합하여 표현하는 작업
데이터 축소
(Reduction)
데이터 집합의 크기는 더 작지만 분석 결과는 같은 데이터 집합으로 만드는 작업
데이터 변환
(Transformation)
데이터 마이닝의 효율을 높이기 위한 변환 및 변형 작업

빅데이터 분석 프로세스 수행

  • 다양한 업무와 도메인이 포함되어 있어 완전히 자동화하여 처리하는 것은 어려움
  • 데이터 전처리 과정은 정제와 통합을 통해 약 60~80% 처리

생성 변수의 검증 방안 수립

  • 빅데이터의 특징에 따라 주요 품질 요소 도출
  • 생성된 분석 변수의 데이터 검증 방안 수립

분석 변수의 데이터 검증 방안 수립

  • 개별 데이터에 대한 타당성 보장보다는 빅데이터 개념 및 특성 측면에서 품질 검증 정의
구분 품질 관리 접근 방법
대량 데이터 - 데이터 사용자 오류 무시
- 데이터 타당성에 치명적인 예외 상황만 탐지
정밀 데이터 - 개별 데이터에 대한 타당성 검증은 환경 및 상황에 따라 판단
- 데이터 전체가 나타내는 의미를 중심으로 검증 기준 정의
데이터 출처 불명확 - 명확한 목적이나 사전 통제 없이 생산된 데이터에 대한 별도 품질 기준 정의

 

  • 빅데이터 품질 관리 및 검증은 정확성보다 데이터의 양이 충분한지에 대한 조직의 비즈니스 영역 및 목적에 따라 검증
구분 품질 검증 전략
정확성
(Accuracy)
- 데이터 사용 목적에 따라 데이터 정확성의 기준 상이하게 적용
완전성
(Completeness)
- 필요한 데이터인지 식별하는 수준으로 품질 요소 적용
적시성
(Timeliness)
- 소멸성이 강한 데이터에 대한 품질 기준 판단
- 웹로그 데이터, 트윗 데이터 등 지속적으로 생성 소멸하는 데이터에 대한 품질 기준 수립
일관성
(Consistency)
- 동일한 데이터의 경우에도 사용 목적에 따라 데이터의 의미가 달라지기 때문에 분석 요건에 따른 검증 요소 적용

데이터 검증 체계 수립

  • 수집한 데이터의 출처가 명확한지 검증
  • 중복 데이터가 존재하는지, 정보 활용에 컴플라이언스 이슈가 없는지 데이터 관리 대상 선별 검증
  • 데이터의 다양성이 확보되었는지, 데이터셋이 충분한지 검증
  • 주요 품질 지표의 조건을 만족하는지, 분석, 검증, 테스트 데이터가 분리되어 있는지 주요 품질 지표 분석 및 검증

* 컴플라이언스(Compliance) : 사업 추진 과정에서 기업이 자발적으로 관련 법규를 준수하도록하기 위한 일련의 시스템


참고

반응형