빅데이터 - 분석 기획 - 데이터 수집 및 저장 계획 - 데이터 적재

반응형

 

데이터 적재 도구

  • 수집 데이터는 빅데이터 분석을 위한 저장 시스템에 적재
    • RDMBS, HDFS, NoSQL 등

데이터 수집 도구 이용

  • 플루언티드(Fluentd)
    • 크로스 오픈 소스 데이터 수집 소프트웨어
    • 사용자의 로그를 다양한 형태로 입력받아 JSON 포맷으로 변환한 뒤 다양한 형태로 출력
  • 플럼(Flume)
    • 많은 양의 로그 데이터를 효율적으로 수집, 취합, 이동하기 위한 분산형 소프트웨어
    • 로그 데이터 수집과 네트워크 트래픽 데이터, 소셜 미디어 데이터, 이메일 메시지 데이터 등 대량의 이벤트 데이터 전송을 위해 사용
  • 스크라이브(Scribe)
    • 수많은 서버로부터 실시간으로 스트리밍되는 로그 데이터를 집약시키기 위한 서버
    • 클라이언트 사이드의 수정 없이 스케일링 및 확장 가능
  • 로그스태시(Logstash)
    • 다양한 소스에서 데이터를 수집하여 변환한 후 자주 사용하는 저장소로 전송

NoSQL DBMS 제공 도구 이용

  • 로그 수집기를 이용한 방법처럼 많은 기능을 사용 할 수는 없음
    • 데이터 수집 주기 등의 환경설정 사용 불가
  • mongimport와 같은 적재 도구를 사용하여 데이터 적재 수행
    • 수집한 데이터가 CSV(쉼표로 구분된 데이터) 등의 데이터일 경우 한정

RDBMS의 데이터를 NoSQL DBMS에서 적재

  • 기존의 관계형 데이터베이스로부터 데이터를 추출하여 NoSQL 데이터베이스로 적재 가능
  • 데이터 변형이 많이 필요할 경우, 데이터 적재를 위한 프로그램을 작성하여 적재
  • 데이터 변형이 많이 필요하지 않을 경우, SQLtoNoSQLimporter, Mongify 등의 도구를 사용하여 적재

데이터 적재 완료 테스트

  • 적재가 정상적으로 완료되었는지 확인하는 시험

데이터 적재 내용에 따라 체크리스트 작성

  • 적재하는 데이터(정형/반정형/비정형)의 유형과 특성에 따라 체크리스트 작성
  • 정형 데이터
    • 테이블의 개수와 속성의 개수
    • 데이터 타입의 일치 여부
    • 레코드 수 일치 여부
  • 반정형/비정형 데이터
    • 원천 데이터의 테이블이 목적 저장시스템에 적합한 데이터인지 여부
    • 레코드 수가 일치 여부

데이터 테스트 케이스 개발

  • 목적지 저장시스템에서 조회하는 테스트 케이스 개발
    • 적재된 레코드 수 확인
    • 원천 데이터 중에 특정 데이터에 대한 샘플링
  • 확인사항
    • 적재한 대량의 데이터의 데이터 타입
      • 예) 문자열이 숫자로 이루어지면 문자열의 데이터 타입인지
    • 특별히 한글 문자 등의 아스키 코드가 아닌 문자

체크리스트 검증 및 데이터 테스트 케이스 실행

  • 이전 단계에서 작성된 체크리스트와 테스트 케이스에 대한 검증 실행
  • 검증 결과를 분석하여 데이터 적재 결과 보고서 작성

참고

반응형