반응형
데이터 변환(Data Transformation)
- 데이터를 하나의 표현 형식에서 다른 형식으로 변형하는 과정
데이터 변환 방식의 종류
- 비정형 데이터를 정형 데이터 형태로 저장하는 방식 (관계형 데이터베이스)
- MySQL, Oracle, DB2, PostgreSQL 등
- 수집 데이터를 분산파일시스템으로 저장하는 방식 (HDFS 등)
- 주제별, 시계열적으로 저장하는 방식 (데이터 웨어하우스)
- 네티자, 테라데이타, 그린플럼의 DW 솔루션
- 키-값 형태로 저장하는 방식 (NoSQL)
- Hbase, Cassandra, MongDB
데이터 변환 수행 자료
- 데이터 수집 계획서
- 수집 솔루션 매뉴얼
- 데이터 변환 솔루션
- 하둡 오퍼레이션 매뉴얼
- 소프트웨어 아키텍처 개념도
데이터베이스 구조 설계
- 수집 데이터를 저장하기 위한 데이터베이스 구조 설계
- 수집 데이터를 바로 HDFS에 저장하여 데이터 분석
- 수집 데이터를 데이터 변환 과정을 거쳐 데이터베이스에 저장하기도 함
데이터베이스 구조 설계 절차 4단계
- DBMS 구축 여부 결정
- 수집 데이터의 특성에 따른 결정(정형, 반정형, 비정형)
- 수집 대상 확인, 필요 데이터의 속성 파악하여 DBMS 구축 여부 결정
- 수집 데이터의 특성에 따라 저장 데이터베이스 생성 여부 결정
- 정형 데이터 : 수집 솔루션을 거쳐 바로 데이터베이스에 저장
- 반정형, 비정형 데이터 : 저장하고자 하는 데이터베이스의 종류를 선택하고 데이터에 맞게 모델링
- 저장 데이터베이스는 분석이 쉬운 RDBMS 보편적 사용
- 저장 데이터베이스 결정
- 상용 또는 비상용 DBMS 검토
- DBMS 설치
- 매뉴얼에 따른 선정 DBMS 설치
- 선택한 DBMS를 설치하고 정상적인 설치 여부 확인
- 테이블 구조 설계
- 필요 데이터 속성 파악을 통한 테이블 설계
- 필요 데이터의 속성을 구체적으로 파악
- 테이블 구조를 설계하여 테이블 생성
반정형/비정형 데이터의 변환
- 데이터 전처리나 후처리가 수행되기 전에 반정형/비정형 데이터를 구조적 형태로 전환하여 저장하는 과정
반정형/비정형 데이터의 변환 절차 4단계
- 수집 데이터의 속성 구조 파악
- 수집할 데이터 파악 (예:title, votes, tags 등)
- 수집할 데이터 구조를 정의하고 적절한 변수명으로 구분
- 데이터 수집 절차에 대한 수행 코드 정의
- 추출하고자 하는 정보들의 위치와 정보 구조 파악
- 필요 데이터 추출
- 데이터 저장 프로그램 작성
- 생성된 데이터베이스 테이블에 수집 데이터를 저장하는 프로그램 작성
- 데이터베이스에 저장
- 데이터베이스 테이블로 수집 데이터 저장
융합 데이터베이스 설계
- 데이터의 유형과 의미를 파악하여 활용 목적별 융합 DB 설계
- 활용 업무데이터 요구사항을 분석, 데이터 표준화 활동 및 모델링 과정 수행
요구사항 분석
- 업무 활용 목적과 방향을 파악하여 어떤 데이터 속성들이 필요한지 파악
- 필요한 데이터 항목, 개인정보 또는 민감정보 포함 여부 식별
데이터 표준화와 모델링 수행
- 수집한 데이터 표준화 및 모델링 과정 수행
- 표준 코드, 표준 용어, 데이터 도메인(데이터값의 공통 형식과 값의 영역) 등 정의
개념적 설계 수행
- 저장된 데이터를 엔티티와 애트리뷰트로 추출
- 엔티티 간의 관계 정의
- ER 다이어그램 표현
* 엔티티(Entity) : 인간이 생각하는 개념, 의미있는 정보의 단위
* ER 다이어그램(Entity Relationship Diagram) : 개체-관계 모델, 구조화된 데이터에 대한 일련의 표현
- ER 다이어그램 간단 예시 (표는 ER다이어그램의 일부만 표현)
엔티티 | 애트리뷰트 |
부품회사 | 회사 번호, 회사 이름, 신용도 |
부품 | 부품 번호, 부풍명, 부품 가격 |
공급 | 수량, 회사번호, 부품 번호 |
논리적 설계 수행
- 작성된 ER 다이어그램을 기반으로 매핑하여 관계형 스키마 생성
고려사항
- 반정형, 비정형 데이터를 데이터 분석의 용이성을 위해 정형화된 데이터베이스로 변환함에 집중
- 수집 데이터의 속성 구조를 정확히 파악하여야 툴을 이용한 데이터를 쉽게 저장
- 융합 DB 구성은 활용 업무 목적을 정확히 판단하는 것이 중요
- 융합 DB 설계는 쉽게 자동화 구축될 수 있도록 설계
참고
반응형