반응형
빅데이터 개요
빅데이터란?
- 데이터가 방대하여 기존의 방법이나 도구로 수집/저장/분석 등이 어려운 정형 및 비정형 데이터들을 의미
- 데이터베이스로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
- 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
- 작은 용량의 데이터에서 얻을 수 없었던 새로운 통찰이나 가치를 추출하여 이를 활용해 많은 분야에 적용하기 위한 것
- 데이터 규모와 기술 측면에 대한 문제로 시작했지만 점차 의미가 가치와 효과 측면으로 확대
빅데이터의 등장과 변화
빅데이터 등장 배경
- 기술 발전에 따른 필요한 기술 아키텍처 및 분석 기법 발전
* 데이터 사이언티스트 : 데이터의 다각적 분석을 통해 비즈니스 전략 방향을 제시하는 기획자
빅데이터 등장으로 인한 변화
빅데이터 등장 이전 | 빅데이터 등장 이후 | |
데이터 처리 시점 | 사전 처리(Pre-processing) | 사후 처리(Post-processing) |
정보 수집 | 필요한 정보만 수집 | 가능한 많은 데이터를 모으고 조합하여 정보를 얻는 방식 |
데이터 처리 범주 | 표본조사 | 전수조사 |
데이터 처리비용 | 비교적 높음 | 기술 발전으로 인한 데이터 처리비용 감소 |
데이터의 가치 판단 기준 | 질(Quality) 위주 | 양(Quantity) 위주 |
데이터 분석 방향 | 이론적 인과관계 중심 | 단순한 상관관계 (데이터 기반) |
빅데이터의 특징
- 초기 : 가트너(Gartner) 그룹은 3V(규모, 유형, 속도)로 빅데이터를 설명
- 최근 : 빅데이터 분석을 통해 얻을 수 있는 가치와 데이터에 대한 품질의 중요성이 강조
* 가트너 그룹 : 미국의 정보 기술 연구 및 자문 회사
광의 | 협의 | 특징 | 내용 |
5V | 3V | 규모 (Volume) | - 데이터 양이 급격하게 증가 (대용량화) - 기존 DBMS의 성능적 한계 도달 |
유형 (Variety) | - 데이터 종류와 근원 확대 (다양화) - 정형 데이터외 반정형 및 비정형 데이터로 확장 |
||
속도 (Velocity) | - 데이터 수집과 처리 속도의 변화 (고속화) - 대용량 데이터의 신속하고 즉각적인 분석 요구 |
||
+2V | 품질 (Veracity) | - 데이터의 신뢰성, 정확성, 타당성 보장 필수 - 고품질의 데이터에서 고수준 인사이트 도출 가능 |
|
가치 (Value) | - 대용량의 데이터 안에 숨겨진 가치 발굴 중요 - 다른 데이터들과 연계 시 가치 증대 |
- 전통적 데이터와 빅데이터 비교
전통적 데이터 | 빅데이터 | |
규모 | 기가바이트(GB) 이하 | 테라바이트(TB) 이상 |
처리단위 | 시간 또는 일 단위 처리 | 실시간 처리 |
유형 | 정형 데이터 | 정형+반정형, 비정형 데이터 |
처리방식 | 중앙집중식 처리 | 분산 처리 |
시스템 | RDB (Relational DBMS) | Hadoop, HDFS, Hbase, NoSQL 등 |
빅데이터의 활용
- 빅데이터의 활용을 위한 3요소
구성 요소 | 내용 |
자원(Resource) [빅데이터] |
- 정형, 반정형, 비정형 데이터를 실시간으로 수집 - 수집된 데이터를 전처리 과정을 통해 품질 향성 |
기술(Technology) [빅데이터플랫폼, AI] |
- 분산 파일 시스템을 통해 대용량 데이터를 분산 처리 - 데이터마이닝 등을 통해 데이터를 분석 및 시각화 데이터를 스스로 학습, 처리할 수 있는 AI 기술 활용 |
인력(People) [알고리즈미스트, 데이터사이언티스트] |
- 통계학, 수학, 컴퓨터공학, 경영학 분야 전문지식 필요 - 도메인 지식을 습득하여 데이터 분석 및 결과를 해석 |
- 빅데이터 활용을 위한 기본 테크닉
테크닉 | 설명 | 예시 |
연관규칙학습 | 변수들 간 주목할 만한 상관관계가 있는지 찾아내는 방법 | 평일 저녁에 주로 많이 보는 TV 프로그램 장르가 무엇인가? |
유형분석 | 문서를 분류하거나 조직을 그룹화할 때 사용 | 이것은 어떤 특성을 가진 집단에 속하는가? |
유전 알고리즘 | 최적화가 필요한 문제를 생물 진화의 과정을 모방하여 점진적으로 해결책을 찾는 방법 | 시청률을 높이기 위해 어떤 프로그램을 어느 시간에 방송해야 하는가? |
기계학습 | 데이터로부터 학습한 알려진 특성을 활용하여 예측 | 시청 기록을 바탕으로 어떤 영화를 가장 보고 싶어하는가? |
회귀분석 | 독립변수가 종속변수에 미치는 영향을 분석할 때 사용 | 경력과 학력이 연봉에 미치는 영향은? |
감정분석 | 특정 주제에 대해 말을 하거나 글을 쓴 사람의 감정을 분석 | 드라마 스토리에 대한 시청자들의 평은 어떤가? |
소셜네트워크분석 | 특정인과 다른 사람의 관계를 파악하고 영향력 있는 사람을 분석할 때 사용 | 고객들 간 관계망은 어떻게 구성되는가? |
참고
반응형