빅데이터 모델링 - 고급 분석기법 - 비정형 데이터 분석

 

비정형 데이터(Unstructured-Data)

  • 데이터 세트가 아닌 하나의 데이터가 수집 데이터로 객체화되어 있는 것
  • 숫자 데이터와 달리 그림이나 영상, 문서처럼 형태와 구조가 복잡해 정형화 되지 않은 데이터
  • 대표적으로 언어 분석이 가능한 텍스트 데이터나 이미지, 동영상 같은 멀티미디어 데이터
    • 웹에 존재하는 데이터의 경우 html 형태로 존재하여 반정형 데이터로 구분
    • 특정한 경우 텍스트 마이닝을 통해 데이터를 수집하는 경우도 존재, 명확한 구분 어려움

데이터 수집의 난이도

  • 정형 데이터 (수집난이도 : 하)
    • 내부 시스템인 경우가 대부분이라 수집이 쉬움
    • 파일 형태의 스프레드시트라도 내부에 형식을 가지고 있어 처리가 쉬운 편
  • 반정형 데이터 (수집난이도 : 중)
    • 보통 API 형태로 제공
    • 데이터 처리 기술 요구
  • 비정형 데이터 (수집난이도 : 상)
    • 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱
    • 전문적 기술을 요구하기 때문에 수집 데이터 처리 어려움

데이터 처리의 아키텍처

  • 정형 데이터
    • 일반적인 아키텍처 구조
  • 반정형 데이터
    • 데이터의 메타구조를 해석해 정형 데이터 형태로 바꿀 수 있게 아키텍처 구조 수정
  • 비정형 데이터
    • 텍스트나 파일을 파싱해 메타구조를 갖는 데이터셋 형태로 변경
    • 정형 데이터 형태의 구조로 만들 수 있도록 아키텍처 구조 수정

데이터의 잠재적 가치

  • 정형 데이터 (잠재적 가치 : 하)
    • 내부 데이터의 특성과 현실적 가치의 한계상 활용측면에서 잠재적 가치는 상대적 낮음
  • 반정형 데이터 (잠재적 가치 : 중)
    • 데이터의 제공자가 선별해 제공하는 데이터
    • 잠재적 가치는 정형 데이터보다 높음
  • 비정형 데이터 (잠재적 가치 : 상)
    • 수집주체에 의해 데이터에 대한 분석이 선행 되어 목적론적 데이터 특징이 가장 잘 나타나는 데이터
    • 수집이 가능하면 수집주체에게는 가장 높은 잠재적 가치 제공

비정형 데이터 분석

비정형 데이터 분석의 기본 원리

  • 내용 파악과 데이터 속 패턴 발견을 위해 다양한 기법 사용
    • 데이터 마이닝, 텍스트 분석, 비표준 텍스트 분석 등
  • 정련 과정을 통해 정형 데이터로 만든 후, 데이터 마이닝을 통해 의미있는 정보 발굴
    • 데이터 마이닝 : 분류, 군집화, 회귀분석, 요약, 이상감지 분석 등

데이터 마이닝(Data Mining)

  • 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치있는 정보를 추출하는 과정
  • 통계학쪽에서 발전한 방법론과 데이터베이스, 인고지능 쪽에서 발전한 기술적인 방법론 사용
    • 통계학 : 탐색적자료분석, 가설 검정, 다변량 분석, 시계열 분석, 일반선형모델 등의 방법론
    • 데이터베이스 : OLAP(온라인 분석 처리)
    • 인공지능 : SOM(자기조직화 지도) 신경망, 전문가 시스템 등 기술적 방법론
  • 기본적으로 전통적인 데이터 마이닝 기법은 비정형 데이터를 정형화하는 기반하에서 상식적 범위에서 부분적인 데이터를 다룬다는 한계 존재
  • 적용분야
    • 분류(Classification) : 일정한 집단에 대한 특정 정의를 통해 분류 및 구분 추론
    • 군집화(Clustering) : 구체적인 특성을 공유하는 군집 확인, 미리 정의된 특성에 대한 정보를 가지지 않는다는 점에서 분류와 다름
    • 연관성(Association) : 동시에 발생한 사건간의 관계 정의
    • 연속성(Sequencing) : 특정 기간에 걸쳐 발생하는 관계 규명, 기간의 특성을 제외하면 연관성 분석과 유사
    • 예측(Forecasting) : 대용량 데이터집합 내의 패턴을 기반으로 미래 예측

텍스트 마이닝(Text Mining)

  • 전통적인 데이터 마이닝의 한계를 벗어난 방법
  • 인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리 방식을 이용하여 대규모 문서에서 데이터의 숨겨진 의미를 발견하는 기법
    • 정보 추출, 연계성 파악, 분류 및 군집화, 요약 등의 의미 도출
  • 텍스트 마이닝 절차
    • 입력
      • 준비 : 입력되는 여러 가지 텍스트 문서의 데이터들을 문제 범위에 적절한 것으로 확립
      • 전처리 : 조직화된 텍스트들을 정형화된 표현 양식으로 변경
      • 지식추출 : 정형 데이터에서 의미 있는 패턴이나 관계와 같은 지식 발견 (예: 분류, 클러스터링 등)
    • 처리
    • 출력

자연어 처리(Natural Language Processing)

  • 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사할 수 있도록 연구하고 구현하는 인공지능 분야
  • 언어 자체를 연구하는 언어학, 언어현상의 내적 기재를 탐구하는 언어인지 과학과 연관이 깊음
    • 연구대상이 언어이기 때문
  • 구현을 위해 수학/통계적 도구를 많이 활용하며 특히 기계학습 도구를 많이 사용하는 대표적인 분야
    • 예) 정보검색, QA 시스템, 문서 자동분류, 신문기사 클러스터링, 대화형 Agent 등

웹 마이닝(Web Mining)

  • 데이터 마이닝 기술의 응용분야
  • 인터넷을 통해 웹자원으로부터 의미있는 패턴, 프로파일, 추세 등을 발견하는 것
  • 추가적인 분석 기법 필요
    • 데이터의 속성이 반정형/비정형이고, 링크(Link) 구조를 가지고 있기 때문
  • 예) 정보필터링, 경쟁자와 특허, 기술개발 등의 감시, 이용도 분석을 위한 웹 액세스 로그의 마이닝 등

오피니언 마이닝(Opinion Mining)

  • 원천 데이터에서 주관적인 정보를 식별하고 추출하는 것
    • 원천 데이터 : 어떤 사안이나 인물, 이슈, 이벤트 등
    • 주관적인 정보 : 의견이나 평가, 태도, 감정 등
  • 즉, 사람들의 주관적인 의견을 통계/수치화하여 객관적인 정보로 바꾸는 기술
  • 어떤 사안이나 인물에 대한 사람들의 의견뿐만 아니라 감정과 태도도 분석하기 때문에 감정 분석이라고도 지칭
  • 텍스트 마이닝에서 활용하는 자연어 처리 방법 사용
    • 분석 대상이 텍스트이기 때문
  • 예) 포털 게시판, 블로그, 쇼핑몰 등

리얼리티 마이닝(Reality Mining)

  • 사람들이 매일 사용하는 기계나 모션센서 등의 행동에서 비정형 데이터를 추출하는 방법
    • 스마트폰 등
  • 수집 목적 데이터 : 커뮤니케이션 데이터, 위치 데이터
    • 커뮤니케이션 데이터 : 통화, 메시징 등
    • 위치 데이터 : GPS, WIFI
  • 사회적 행위를 마이닝하고 사용자 행동 모델링이나 라이프 로그도 얻어내는 것을 목표로 함

참고