빅데이터 - 분석 기획 - 빅데이터의 이해 - 빅데이터 개요

반응형

 

빅데이터 개요

빅데이터란?

  • 데이터가 방대하여 기존의 방법이나 도구로 수집/저장/분석 등이 어려운 정형 및 비정형 데이터들을 의미
  • 데이터베이스로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
  • 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
  • 작은 용량의 데이터에서 얻을 수 없었던 새로운 통찰이나 가치를 추출하여 이를 활용해 많은 분야에 적용하기 위한 것
  • 데이터 규모와 기술 측면에 대한 문제로 시작했지만 점차 의미가 가치와 효과 측면으로 확대

빅데이터의 등장과 변화

빅데이터 등장 배경

  • 기술 발전에 따른 필요한 기술 아키텍처 및 분석 기법 발전

* 데이터 사이언티스트 : 데이터의 다각적 분석을 통해 비즈니스 전략 방향을 제시하는 기획자


빅데이터 등장으로 인한 변화

  빅데이터 등장 이전 빅데이터 등장 이후
데이터 처리 시점 사전 처리(Pre-processing) 사후 처리(Post-processing)
정보 수집 필요한 정보만 수집 가능한 많은 데이터를 모으고 조합하여 정보를 얻는 방식
데이터 처리 범주 표본조사 전수조사
데이터 처리비용 비교적 높음 기술 발전으로 인한 데이터 처리비용 감소
데이터의 가치 판단 기준 질(Quality) 위주 양(Quantity) 위주
데이터 분석 방향 이론적 인과관계 중심 단순한 상관관계 (데이터 기반)

빅데이터의 특징

  • 초기 : 가트너(Gartner) 그룹은 3V(규모, 유형, 속도)로 빅데이터를 설명
  • 최근 : 빅데이터 분석을 통해 얻을 수 있는 가치와 데이터에 대한 품질의 중요성이 강조

* 가트너 그룹 : 미국의 정보 기술 연구 및 자문 회사

광의 협의 특징 내용
5V 3V 규모 (Volume) - 데이터 양이 급격하게 증가 (대용량화)
- 기존 DBMS의 성능적 한계 도달
유형 (Variety) - 데이터 종류와 근원 확대 (다양화)
- 정형 데이터외 반정형 및 비정형 데이터로 확장
속도 (Velocity) - 데이터 수집과 처리 속도의 변화 (고속화)
- 대용량 데이터의 신속하고 즉각적인 분석 요구
+2V 품질 (Veracity) - 데이터의 신뢰성, 정확성, 타당성 보장 필수
- 고품질의 데이터에서 고수준 인사이트 도출 가능
가치 (Value) - 대용량의 데이터 안에 숨겨진 가치 발굴 중요
- 다른 데이터들과 연계 시 가치 증대

 

  • 전통적 데이터와 빅데이터 비교
  전통적 데이터 빅데이터
규모 기가바이트(GB) 이하 테라바이트(TB) 이상
처리단위 시간 또는 일 단위 처리 실시간 처리
유형 정형 데이터 정형+반정형, 비정형 데이터
처리방식 중앙집중식 처리 분산 처리
시스템 RDB (Relational DBMS) Hadoop, HDFS, Hbase, NoSQL 등

빅데이터의 활용

  • 빅데이터의 활용을 위한 3요소
구성 요소 내용
자원(Resource)
[빅데이터]
- 정형, 반정형, 비정형 데이터를 실시간으로 수집
- 수집된 데이터를 전처리 과정을 통해 품질 향성
기술(Technology)
[빅데이터플랫폼, AI]
- 분산 파일 시스템을 통해 대용량 데이터를 분산 처리
- 데이터마이닝 등을 통해 데이터를 분석 및 시각화
  데이터를 스스로 학습, 처리할 수 있는 AI 기술 활용
인력(People)
[알고리즈미스트, 데이터사이언티스트]
- 통계학, 수학, 컴퓨터공학, 경영학 분야 전문지식 필요
- 도메인 지식을 습득하여 데이터 분석 및 결과를 해석

 

  • 빅데이터 활용을 위한 기본 테크닉
테크닉 설명 예시
연관규칙학습 변수들 간 주목할 만한 상관관계가 있는지 찾아내는 방법 평일 저녁에 주로 많이 보는 TV 프로그램 장르가 무엇인가?
유형분석 문서를 분류하거나 조직을 그룹화할 때 사용 이것은 어떤 특성을 가진 집단에 속하는가?
유전 알고리즘 최적화가 필요한 문제를 생물 진화의 과정을 모방하여 점진적으로 해결책을 찾는 방법 시청률을 높이기 위해 어떤 프로그램을 어느 시간에 방송해야 하는가?
기계학습 데이터로부터 학습한 알려진 특성을 활용하여 예측 시청 기록을 바탕으로 어떤 영화를 가장 보고 싶어하는가?
회귀분석 독립변수가 종속변수에 미치는 영향을 분석할 때 사용 경력과 학력이 연봉에 미치는 영향은?
감정분석 특정 주제에 대해 말을 하거나 글을 쓴 사람의 감정을 분석 드라마 스토리에 대한 시청자들의 평은 어떤가?
소셜네트워크분석 특정인과 다른 사람의 관계를 파악하고 영향력 있는 사람을 분석할 때 사용 고객들 간 관계망은 어떻게 구성되는가?

참고

반응형