반응형
데이터 수집 세부 계획 작성
세부 계획 작성 절차
- 데이터 유형, 위치, 크기, 보관방식, 수집주기, 확보비용, 데이터 이관 절차를 조사하여 세부 계획서 작성
- 데이터 적절성 검증 방식 수립 및 세부계획 반영
- 데이터 재수집 또는 데이터 가공
데이터 위치 및 비용
- 수집 데이터의 원천에 따라 내부 데이터와 외부데이터로 구분
- 여러 요소를 고려하여 비용 산정
비용 요소 | 설명 |
데이터의 종류 | RDB, 파일, HTML |
데이터의 크기 및 보관주기 | 데이터 수집, 저장 크기, 수집 데이터의 저장 주기 |
데이터의 수집 주기 | 실시간, 매시, 매일, 매주, 매달 |
데이터의 수집 방식 | 자동 수집, 수동 수집 |
데이터의 수집 기술 | ETL, FTP, 크롤러, DBtoDB |
데이터의 가치성 | 분석 수행을 위한 목적성 있는 대상 데이터 |
수집되는 데이터 형태
- HTML(Hypertext Markup Language)
- 웹 페이지를 만들 때 사용되는 문서 형식
- 텍스트, 태그, 스크립트로 구성
- XML(eXtensible Markup Language)
- 데이터를 표현하기 위해 태그를 사용하는 언어
- 엘리먼트, 속성, 처리명령, 엔티티, 주석, CDATA 섹션으로 구성
- JSON(Javascript Object Notation)
- 자바스크립트를 위해 객체 형식으로 자료를 표현하는 문서 형식
- 경량의 데이터 교환 방식
데이터 저장 방식
- 파일 시스템
- 데이터를 읽고, 쓰고, 찾기 위해 일정한 규칙으로 파일에 이름을 명명하고 파일의 위치를 지정하는 체계
- 관계형 데이터베이스
- 데이터의 종류나 성격에 따라 여러 개의 칼럼을 포함하는 정형화된 테이블로 구성된 데이터 항목들의 집합체
- 분산처리 데이터베이스
- 데이터의 집합이 여러 물리적 위치에 분산 배치되어 저장되는 데이터베이스
데이터 적절성 검증
- 데이터 누락 점검
- 수집 데이터 세트의 누락, 결측 여부 판단
- 누락 발생시 재수집
- 소스 데이터와 비교
- 수집 데이터와 소스 데이터의 사이즈 및 개수 비교 검증
- 데이터의 정확성 점검
- 유효하지 않은 데이터 존재여부 점검
- 보안 사항 점검
- 수집 데이터의 개인정보 유무 등 보안 사항의 점검필요
- 저작권 점검
- 데이터의 저작권 등 법률적 검토 수행
- 대량 트래픽 발생 여부
- 네트워크 및 시스템에 트래픽을 발생시키는 데이터 여부 검증
참고
반응형