이론/빅데이터 분석
빅데이터 - 분석 기획 - 빅데이터의 이해 - 데이터베이스와 데이터 웨어하우스
luvris2
2023. 2. 12. 02:34
반응형
Database
데이터베이스란?
- 체계적이거나 조직적으로 정리된 정보의 집합체
- 여러 사람이 공유하여 사용할 목적으로 체계화해 통합, 관리하는 데이터의 집합
데이터베이스 관리 시스템 (DBMS)
- DBMS
- DataBase Management System의 줄임말
- 데이터베이스를 관리를 할 수 있게 해주는 소프트웨어
- 응용 프로그램들이 데이터베이스를 공유하며 사용 할 수 있는 환경 제공
- SQL
- Structured Query Language의 줄임말
- 데이터베이스에 접근할 때 사용하는 언어
- 단순한 질의 기능뿐 아니라 데이터의 정의와 조작 기능을 가짐
- 테이블 단위로 연산을 수행
- 초보자도 비교적 쉽게 사용 가능
- 데이터베이스 관리 시스템의 종류
종류 | 설명 |
관계형 DBMS | 데이터를 열과 행을 이루는 테이블로 표현하는 모델 |
객체지향 DBMS | 정보를 개체 형태로 표현하는 모델 |
네트워크 DBMS | 그래프 구조를 기반으로 하는 모델 |
계층형 DBMS | 트리 구조를 기반으로 하는 모델 |
데이터베이스의 특징
종류 | 설명 |
통합된 데이터 (Intergrated Data) |
중복 데이터가 존재하지 않은 데이터 즉, 동일 데이터는 중복되어 저장되지 않음 |
저장된 데이터 (Stored Data) |
컴퓨터가 접근 할 수 있는 저장매체에 저장된 데이터 |
공용 데이터 (Shared Data) |
여러 사용자가 서로 다른 목적으로 함께 이용하는 데이터 |
변화되는 데이터 (Changed Data) |
현시점의 상태를 나타내며 지속적으로 갱신되는 데이터 |
데이터베이스의 장단점
장점 | 단점 |
- 데이터중복 최소화 - 실시간 접근 가능 - 데이터 보안 강화 - 논리적 및 물리적 독립성 제공 - 데이터 일관성 제공 - 데이터 무결성 보장 - 데이터 공유 용이 |
- 구축과 유지에 따른 비용 발생 - 백업과 복구 등 관리 필요 |
데이터베이스의 활용
- 트랜잭션의 개념을 알고 있으면 더욱 이해가 쉬움
구분 | OLTP (OnLine Transaction Processing) |
OLAP (Online Analytical Processing) |
정의 | 데이터베이스의 데이터를 수시로 갱신하는 프로세싱 | OLTP에서 처리된 트랜잭션 데이터를 다차원으로 분석하는 프로세싱 |
처리 방법 | 호스트 컴퓨터와 온라인으로 접속된 여러 단말 간 처리 | 정보 위주의 분석 처리 |
성향 | 데이터 갱신 위주 | 데이터 조회 위주 |
데이터 구조 | 복잡 | 단순 |
데이터 갱신 | 동적으로 순간적 | 정적으로 주기적 |
응답 시간 | 수초 이내 | 수초에서 몇 분 사이 |
데이터 범위 | 수 십일 전후 | 오랜 기간 저장 |
데이터 성격 | 정규적인 핵심 데이터 | 비정규적 읽기 전용 데이터 |
데이터 크기 | 수 기가바이트 | 수 테라바이트 |
데이터 내용 | 현재 데이터 | 요약된 데이터 |
데이터 특성 | 트랜잭션 중심 | 주제 중심 |
데이터 액세스 빈도 | 높음 | 보통 |
질의 결과 예측 | 주기적이며 예측 가능 | 예측하기 어려움 |
데이터 웨어하우스 (DW)
- Data Warehouse의 줄임말
- 사용자 의사결정에 도움을 위해 데이터베이스에 축적된 데이터를 공통의 형식으로 변환, 관리하는 데이터베이스
- 일정한 시간동안의 데이터를 축적하고 의사결정을 위한 다양한 분석 작업을 수행
데이터 웨어하우스의 특징
특징 | 내용 |
주체지향성 (Subject-orientation) |
고객, 제품 등과 같은 중요한 주제를 중심으로 관련된 데이터들로 구성 |
통합성 (Integration) |
데이터가 입력될 때 일관된 형태로 변환되며 전사적인 관점에서 통합 |
시계열성 (Time-variant) |
데이터는 일정 기간 동안 시점별로 이어짐 |
비휘발성 (Non-volatilization) |
데이터가 적재되면 일괄 처리 작업에 의한 갱신 이외에는 변경 수행 불가 |
데이터 웨어하우스의 구성
구성요소 | 내용 |
데이터 모델 (Data Model) | 주제 중심적으로 구성된 다차원의 개체-관계형(Entity Relation) 모델로 설계 |
ETL (Extract, Transform, Load) | 기업의 내부 또는 외부에서 데이터를 추출, 정제 및 가공하여 DW에 적재 |
ODS (Operational Data Store) | 다양한 DBMS 시스템에서 추출한 데이터를 통합적으로 관리 |
DW 메타데이터 | 데이터 모델에 대한 스키마 정보와 비즈니스 측면에서 활용되는 정보 제공 |
OLAP (OnLine Analytical Processing) |
사용자가 직접 다차원의 데이터를 확인할 수 있는 솔루션 |
데이터마이닝 (Data Mining) | 대용량의 데이터로부터 인사이트를 도출할 수 있는 방법론 |
분석 도구 | 데이터마이닝을 활용하여 데이터를 분석하는 도구 |
경영기반 솔루션 | KMS, DSS, BI와 같은 경영의사결정을 지원하기 위한 솔루션 |
* KMS(Knowledge Management System) : 지식 관리 시스템
* DSS(Decision Support System) : 의사결정지원시스템
* BI(Business Intelligence) : 데이터를 분석해 기업의 의사결정에 활용하는 일련의 프로세스
참고
반응형