빅데이터 - 분석 기획 - 데이터 수집 및 저장 계획 - 데이터 변환

 

 

데이터 변환(Data Transformation)

  • 데이터를 하나의 표현 형식에서 다른 형식으로 변형하는 과정

데이터 변환 방식의 종류

  • 비정형 데이터를 정형 데이터 형태로 저장하는 방식 (관계형 데이터베이스)
    • MySQL, Oracle, DB2, PostgreSQL 등
  • 수집 데이터를 분산파일시스템으로 저장하는 방식 (HDFS 등)
  • 주제별, 시계열적으로 저장하는 방식 (데이터 웨어하우스)
    • 네티자, 테라데이타, 그린플럼의 DW 솔루션
  • 키-값 형태로 저장하는 방식 (NoSQL)
    • Hbase, Cassandra, MongDB

데이터 변환 수행 자료

  • 데이터 수집 계획서
  • 수집 솔루션 매뉴얼
  • 데이터 변환 솔루션
  • 하둡 오퍼레이션 매뉴얼
  • 소프트웨어 아키텍처 개념도

데이터베이스 구조 설계

  • 수집 데이터를 저장하기 위한 데이터베이스 구조 설계
  • 수집 데이터를 바로 HDFS에 저장하여 데이터 분석
  • 수집 데이터를 데이터 변환 과정을 거쳐 데이터베이스에 저장하기도 함

데이터베이스 구조 설계 절차 4단계

  1. DBMS 구축 여부 결정
    • 수집 데이터의 특성에 따른 결정(정형, 반정형, 비정형)
    • 수집 대상 확인, 필요 데이터의 속성 파악하여 DBMS 구축 여부 결정
    • 수집 데이터의 특성에 따라 저장 데이터베이스 생성 여부 결정
      • 정형 데이터 : 수집 솔루션을 거쳐 바로 데이터베이스에 저장
      • 반정형, 비정형 데이터 : 저장하고자 하는 데이터베이스의 종류를 선택하고 데이터에 맞게 모델링
    • 저장 데이터베이스는 분석이 쉬운 RDBMS 보편적 사용
  2. 저장 데이터베이스 결정
    • 상용 또는 비상용 DBMS 검토
  3. DBMS 설치
    • 매뉴얼에 따른 선정 DBMS 설치
    • 선택한 DBMS를 설치하고 정상적인 설치 여부 확인
  4. 테이블 구조 설계
    • 필요 데이터 속성 파악을 통한 테이블 설계
    • 필요 데이터의 속성을 구체적으로 파악
    • 테이블 구조를 설계하여 테이블 생성

반정형/비정형 데이터의 변환

  • 데이터 전처리나 후처리가 수행되기 전에 반정형/비정형 데이터를 구조적 형태로 전환하여 저장하는 과정

반정형/비정형 데이터의 변환 절차 4단계

  1. 수집 데이터의 속성 구조 파악
    • 수집할 데이터 파악 (예:title, votes, tags 등)
    • 수집할 데이터 구조를 정의하고 적절한 변수명으로 구분
  2. 데이터 수집 절차에 대한 수행 코드 정의
    • 추출하고자 하는 정보들의 위치와 정보 구조 파악
    • 필요 데이터 추출
  3. 데이터 저장 프로그램 작성
    • 생성된 데이터베이스 테이블에 수집 데이터를 저장하는 프로그램 작성
  4. 데이터베이스에 저장
    • 데이터베이스 테이블로 수집 데이터 저장

융합 데이터베이스 설계

  • 데이터의 유형과 의미를 파악하여 활용 목적별 융합 DB 설계
  • 활용 업무데이터 요구사항을 분석, 데이터 표준화 활동 및 모델링 과정 수행

요구사항 분석

  • 업무 활용 목적과 방향을 파악하여 어떤 데이터 속성들이 필요한지 파악
  • 필요한 데이터 항목, 개인정보 또는 민감정보 포함 여부 식별

데이터 표준화와 모델링 수행

  • 수집한 데이터 표준화 및 모델링 과정 수행
  • 표준 코드, 표준 용어, 데이터 도메인(데이터값의 공통 형식과 값의 영역) 등 정의

개념적 설계 수행

  • 저장된 데이터를 엔티티와 애트리뷰트로 추출
  • 엔티티 간의 관계 정의
  • ER 다이어그램 표현

* 엔티티(Entity) : 인간이 생각하는 개념, 의미있는 정보의 단위

* ER 다이어그램(Entity Relationship Diagram) : 개체-관계 모델, 구조화된 데이터에 대한 일련의 표현

 

  • ER 다이어그램 간단 예시 (표는 ER다이어그램의 일부만 표현)
엔티티 애트리뷰트
부품회사 회사 번호, 회사 이름, 신용도
부품 부품 번호, 부풍명, 부품 가격
공급 수량, 회사번호, 부품 번호

 

<ER 다이어그램의 예, 출처 네이버 지식 백과>


논리적 설계 수행

  • 작성된 ER 다이어그램을 기반으로 매핑하여 관계형 스키마 생성

<관계형 스키마의 예>


고려사항

  • 반정형, 비정형 데이터를 데이터 분석의 용이성을 위해 정형화된 데이터베이스로 변환함에 집중
  • 수집 데이터의 속성 구조를 정확히 파악하여야 툴을 이용한 데이터를 쉽게 저장
  • 융합 DB 구성은 활용 업무 목적을 정확히 판단하는 것이 중요
  • 융합 DB 설계는 쉽게 자동화 구축될 수 있도록 설계

참고