빅데이터 - 분석 기획 - 데이터 수집 및 저장 계획 - 데이터 유형 및 속성 파악

 

데이터 수집 세부 계획 작성

세부 계획 작성 절차

  1. 데이터 유형, 위치, 크기, 보관방식, 수집주기, 확보비용, 데이터 이관 절차를 조사하여 세부 계획서 작성
  2. 데이터 적절성 검증 방식 수립 및 세부계획 반영
  3. 데이터 재수집 또는 데이터 가공

데이터 위치 및 비용

  • 수집 데이터의 원천에 따라 내부 데이터와 외부데이터로 구분
  • 여러 요소를 고려하여 비용 산정
비용 요소 설명
데이터의 종류 RDB, 파일, HTML
데이터의 크기 및 보관주기 데이터 수집, 저장 크기, 수집 데이터의 저장 주기
데이터의 수집 주기 실시간, 매시, 매일, 매주, 매달
데이터의 수집 방식 자동 수집, 수동 수집
데이터의 수집 기술 ETL, FTP, 크롤러, DBtoDB
데이터의 가치성 분석 수행을 위한 목적성 있는 대상 데이터

수집되는 데이터 형태

  • HTML(Hypertext Markup Language)
    • 웹 페이지를 만들 때 사용되는 문서 형식
    • 텍스트, 태그, 스크립트로 구성
  • XML(eXtensible Markup Language)
    • 데이터를 표현하기 위해 태그를 사용하는 언어
    • 엘리먼트, 속성, 처리명령, 엔티티, 주석, CDATA 섹션으로 구성
  • JSON(Javascript Object Notation)
    • 자바스크립트를 위해 객체 형식으로 자료를 표현하는 문서 형식
    • 경량의 데이터 교환 방식

데이터 저장 방식

  • 파일 시스템
    • 데이터를 읽고, 쓰고, 찾기 위해 일정한 규칙으로 파일에 이름을 명명하고 파일의 위치를 지정하는 체계
  • 관계형 데이터베이스
    • 데이터의 종류나 성격에 따라 여러 개의 칼럼을 포함하는 정형화된 테이블로 구성된 데이터 항목들의 집합체
  • 분산처리 데이터베이스
    • 데이터의 집합이 여러 물리적 위치에 분산 배치되어 저장되는 데이터베이스

데이터 적절성 검증

  • 데이터 누락 점검
    • 수집 데이터 세트의 누락, 결측 여부 판단
    • 누락 발생시 재수집
  • 소스 데이터와 비교
    • 수집 데이터와 소스 데이터의 사이즈 및 개수 비교 검증
  • 데이터의 정확성 점검
    • 유효하지 않은 데이터 존재여부 점검
  • 보안 사항 점검
    • 수집 데이터의 개인정보 유무 등 보안 사항의 점검필요
  • 저작권 점검
    • 데이터의 저작권 등 법률적 검토 수행
  • 대량 트래픽 발생 여부
    • 네트워크 및 시스템에 트래픽을 발생시키는 데이터 여부 검증

참고