반응형
데이터 적재 도구
- 수집 데이터는 빅데이터 분석을 위한 저장 시스템에 적재
- RDMBS, HDFS, NoSQL 등
데이터 수집 도구 이용
- 플루언티드(Fluentd)
- 크로스 오픈 소스 데이터 수집 소프트웨어
- 사용자의 로그를 다양한 형태로 입력받아 JSON 포맷으로 변환한 뒤 다양한 형태로 출력
- 플럼(Flume)
- 많은 양의 로그 데이터를 효율적으로 수집, 취합, 이동하기 위한 분산형 소프트웨어
- 로그 데이터 수집과 네트워크 트래픽 데이터, 소셜 미디어 데이터, 이메일 메시지 데이터 등 대량의 이벤트 데이터 전송을 위해 사용
- 스크라이브(Scribe)
- 수많은 서버로부터 실시간으로 스트리밍되는 로그 데이터를 집약시키기 위한 서버
- 클라이언트 사이드의 수정 없이 스케일링 및 확장 가능
- 로그스태시(Logstash)
- 다양한 소스에서 데이터를 수집하여 변환한 후 자주 사용하는 저장소로 전송
NoSQL DBMS 제공 도구 이용
- 로그 수집기를 이용한 방법처럼 많은 기능을 사용 할 수는 없음
- 데이터 수집 주기 등의 환경설정 사용 불가
- mongimport와 같은 적재 도구를 사용하여 데이터 적재 수행
- 수집한 데이터가 CSV(쉼표로 구분된 데이터) 등의 데이터일 경우 한정
RDBMS의 데이터를 NoSQL DBMS에서 적재
- 기존의 관계형 데이터베이스로부터 데이터를 추출하여 NoSQL 데이터베이스로 적재 가능
- 데이터 변형이 많이 필요할 경우, 데이터 적재를 위한 프로그램을 작성하여 적재
- 데이터 변형이 많이 필요하지 않을 경우, SQLtoNoSQLimporter, Mongify 등의 도구를 사용하여 적재
데이터 적재 완료 테스트
- 적재가 정상적으로 완료되었는지 확인하는 시험
데이터 적재 내용에 따라 체크리스트 작성
- 적재하는 데이터(정형/반정형/비정형)의 유형과 특성에 따라 체크리스트 작성
- 정형 데이터
- 테이블의 개수와 속성의 개수
- 데이터 타입의 일치 여부
- 레코드 수 일치 여부
- 반정형/비정형 데이터
- 원천 데이터의 테이블이 목적 저장시스템에 적합한 데이터인지 여부
- 레코드 수가 일치 여부
데이터 테스트 케이스 개발
- 목적지 저장시스템에서 조회하는 테스트 케이스 개발
- 적재된 레코드 수 확인
- 원천 데이터 중에 특정 데이터에 대한 샘플링
- 확인사항
- 적재한 대량의 데이터의 데이터 타입
- 예) 문자열이 숫자로 이루어지면 문자열의 데이터 타입인지
- 특별히 한글 문자 등의 아스키 코드가 아닌 문자
- 적재한 대량의 데이터의 데이터 타입
체크리스트 검증 및 데이터 테스트 케이스 실행
- 이전 단계에서 작성된 체크리스트와 테스트 케이스에 대한 검증 실행
- 검증 결과를 분석하여 데이터 적재 결과 보고서 작성
참고
반응형