빅데이터 모델링 - 고급 분석기법

비정형 데이터(Unstructured-Data)

데이터 세트가 아닌 하나의 데이터가 수집 데이터로 객체화되어 있는 것
숫자 데이터와 달리 그림이나 영상, 문서처럼 형태와 구조가 복잡해 정형화 되지 않은 데이터
대표적으로 언어 분석이 가능한 텍스트 데이터나 이미지, 동영상 같은 멀티미디어 데이터
- 웹에 존재하는 데이터의 경우 html 형태로 존재하여 반정형 데이터로 구분
- 특정한 경우 텍스트 마이닝을 통해 데이터를 수집하는 경우도 존재, 명확한 구분 어려움

정형 데이터 (수집난이도 : 하)
- 내부 시스템인 경우가 대부분이라 수집이 쉬움
- 파일 형태의 스프레드시트라도 내부에 형식을 가지고 있어 처리가 쉬운 편
반정형 데이터 (수집난이도 : 중)
- 보통 API 형태로 제공
- 데이터 처리 기술 요구
비정형 데이터 (수집난이도 : 상)
- 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱
- 전문적 기술을 요구하기 때문에 수집 데이터 처리 어려움

정형 데이터
- 일반적인 아키텍처 구조
반정형 데이터
- 데이터의 메타구조를 해석해 정형 데이터 형태로 바꿀 수 있게 아키텍처 구조 수정
비정형 데이터
- 텍스트나 파일을 파싱해 메타구조를 갖는 데이터셋 형태로 변경
- 정형 데이터 형태의 구조로 만들 수 있도록 아키텍처 구조 수정

정형 데이터 (잠재적 가치 : 하)
- 내부 데이터의 특성과 현실적 가치의 한계상 활용측면에서 잠재적 가치는 상대적 낮음
반정형 데이터 (잠재적 가치 : 중)
- 데이터의 제공자가 선별해 제공하는 데이터
- 잠재적 가치는 정형 데이터보다 높음
비정형 데이터 (잠재적 가치 : 상)
- 수집주체에 의해 데이터에 대한 분석이 선행 되어 목적론적 데이터 특징이 가장 잘 나타나는 데이터
- 수집이 가능하면 수집주체에게는 가장 높은 잠재적 가치 제공

내용 파악과 데이터 속 패턴 발견을 위해 다양한 기법 사용
- 데이터 마이닝, 텍스트 분석, 비표준 텍스트 분석 등
정련 과정을 통해 정형 데이터로 만든 후, 데이터 마이닝을 통해 의미있는 정보 발굴
- 데이터 마이닝 : 분류, 군집화, 회귀분석, 요약, 이상감지 분석 등

대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치있는 정보를 추출하는 과정
통계학쪽에서 발전한 방법론과 데이터베이스, 인고지능 쪽에서 발전한 기술적인 방법론 사용
- 통계학 : 탐색적자료분석, 가설 검정, 다변량 분석, 시계열 분석, 일반선형모델 등의 방법론
- 데이터베이스 : OLAP(온라인 분석 처리)
- 인공지능 : SOM(자기조직화 지도) 신경망, 전문가 시스템 등 기술적 방법론
기본적으로 전통적인 데이터 마이닝 기법은 비정형 데이터를 정형화하는 기반하에서 상식적 범위에서 부분적인 데이터를 다룬다는 한계 존재
적용분야
- 분류(Classification) : 일정한 집단에 대한 특정 정의를 통해 분류 및 구분 추론
- 군집화(Clustering) : 구체적인 특성을 공유하는 군집 확인, 미리 정의된 특성에 대한 정보를 가지지 않는다는 점에서 분류와 다름
- 연관성(Association) : 동시에 발생한 사건간의 관계 정의
- 연속성(Sequencing) : 특정 기간에 걸쳐 발생하는 관계 규명, 기간의 특성을 제외하면 연관성 분석과 유사
- 예측(Forecasting) : 대용량 데이터집합 내의 패턴을 기반으로 미래 예측

전통적인 데이터 마이닝의 한계를 벗어난 방법
인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리 방식을 이용하여 대규모 문서에서 데이터의 숨겨진 의미를 발견하는 기법
- 정보 추출, 연계성 파악, 분류 및 군집화, 요약 등의 의미 도출
텍스트 마이닝 절차
- 입력
  - 준비 : 입력되는 여러 가지 텍스트 문서의 데이터들을 문제 범위에 적절한 것으로 확립
  - 전처리 : 조직화된 텍스트들을 정형화된 표현 양식으로 변경
  - 지식추출 : 정형 데이터에서 의미 있는 패턴이나 관계와 같은 지식 발견 (예: 분류, 클러스터링 등)
- 처리
- 출력

인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사할 수 있도록 연구하고 구현하는 인공지능 분야
언어 자체를 연구하는 언어학, 언어현상의 내적 기재를 탐구하는 언어인지 과학과 연관이 깊음
- 연구대상이 언어이기 때문
구현을 위해 수학/통계적 도구를 많이 활용하며 특히 기계학습 도구를 많이 사용하는 대표적인 분야
- 예) 정보검색, QA 시스템, 문서 자동분류, 신문기사 클러스터링, 대화형 Agent 등

원천 데이터에서 주관적인 정보를 식별하고 추출하는 것
- 원천 데이터 : 어떤 사안이나 인물, 이슈, 이벤트 등
- 주관적인 정보 : 의견이나 평가, 태도, 감정 등
즉, 사람들의 주관적인 의견을 통계/수치화하여 객관적인 정보로 바꾸는 기술
어떤 사안이나 인물에 대한 사람들의 의견뿐만 아니라 감정과 태도도 분석하기 때문에 감정 분석이라고도 지칭
텍스트 마이닝에서 활용하는 자연어 처리 방법 사용
- 분석 대상이 텍스트이기 때문
예) 포털 게시판, 블로그, 쇼핑몰 등