빅데이터 탐색 - 비정형 데이터 탐색

반응형

 

비정형 데이터

비정형 데이터란?

  • 미리 정의된 데이터 모델이 없거나 미리 정의된 방식으로 정리되지 않은 정보
  • = 비구조화 데이터(Unstructured Data), 비구조적 데이터(Unstructured Information)

비정형 데이터의 특징

  • 일반적으로 텍스트 중심으로 되어 있으며 날짜, 숫자, 사실과 같은 데이터 포함
  • 변칙과 모호함이 발생하므로 데이터베이스의 칸 형식의 폼에 저장
  • 문서에 주석화된(의미적으로 태그된) 데이터에 비해 전통적인 프로그램을 사용하여 이해하는 것을 불가능하게 만듬

데이터의 형태와 데이터 수집 간의 관계

  • 정형 데이터(Structured Data)
    • 내부 시스템인 경우가 대부분이라 수집이 쉬움
    • 파일 형태의 스프레드시트라도 내부에 형식을 가지고 있어 처리가 쉬움
  • 반정형 데이터(Semi-structured Data)
    • 보통 API 형태로 제공되기 때문에 데이터 처리 기술 요구
  • 비정형 데이터(Unstructured Data)
    • 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱해야 하기 때문에 수집 데이터 처리가 어려움

비정형 데이터 관리 및 분석 의미 도출

  • 데이터 저장의 효율성 측면
    • 정형 데이터 : 사전에 정의된 규칙을 따라 저장/관리
    • 비정형 데이터 : 규격화의 어려움이 있어 저장/관리의 어려움 존재
  • 정형 데이터에 비해 차지하는 저장 공간이 넓음
  • 정형화되지 않은 데이터로 분석이 용이하지 않은 부분 존재

비정형 데이터의 분석

데이터 마이닝(Data Mining)

  • 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치 있는 정보를 추출하는 과정
  • 통계학에서의 데이터 마이닝
    • 패턴 인식에 이르는 다양한 계량 기법 사용
    • 발전한 탐색적 자료분석, 가설 검정, 다변량 분석, 시계열 분석, 일반선형모델 등의 방법론 사용
  • 데이터베이스에서의 데이터 마이닝
    • OLAP(온라인 분석 처리), 인공지능 진영에서 발전한 SOM, 신경망, 전문가 시스템 등의 기술적인 방법론 사용
  • 적용 분야
    • 신용평점 시스템의 신용평가모델 개발
    • 사기탐지 시스템
    • 장바구니 분석
    • 최적 포트폴리오 구축 등
    • 분류(Classification) : 일정한 집단에 대한 특정 정의를 통해 분류 및 구분 추론
      • 예) 경쟁자에게로 이탈한 고객
    • 군집화(Clustering) : 구체적인 특성을 공유하는 군집 검색
      • 예) 유사 행동 집단의 구분
    • 연광성(Association) : 동시에 발생한 사건 간의 관계 정의
      • 예) 장바구니에 동시에 들어가는 상품들의 관계 규명
    • 연속성(Sequencing) : 특정 기간에 걸쳐 발생하는 관계 규명
      • 예) 슈퍼마켓과 금융상품 사용에 대한 반복 방문
    • 예측(Forecasting) : 대용량 데이터 집합 내의 패턴을 기반으로 미래 예측
      • 예) 각종 수요 예측
  • 데이터 마이닝의 단점
    • 자료에 의존하여 현상을 개선하려는 성격이 강함
    • 자료가 현실을 충분히 반영하지 못한 상태에서 정보를 추출한 모델을 개발할 경우 잘못된 모델을 구축하는 오류 발생
    • 즉, 신뢰도가 높은 충분한 자료 필요

텍스트 마이닝(Text Mining)

  • 전통적인 데이터 마이닝의 한계를 벗어난 방법
  • 인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리 방식 이용
  • 대규모 문서에서 정보 추출, 연계성 파악, 분류 및 군집화, 요약등을 통해 데이터의 숨겨진 의미를 발견하는 기법
  • 자연어 처리(NLP, Natural Language Process)
    • 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사할 수 있도록 연구하고 구현하는 인공지능의 주요 분야 중 하나
    • 자연 언어 처리는 연구 대상이 언어이기 때문에 언어 자체를 연구하는 언어학이나 언어 현상의 내적 기재를 탐구하는 언어 인지 과학과 연관이 깊음
    • 구현을 위해 수학적/통계적 도구를 많이 활용, 특히 기계학습 도구를 많이 사용하는 대표적인 분야
  • 응용 분야 : 정보검색, QA 시스템, 문서 자동분류, 신문기사 클러스터링, 대화형 Agen 등

오피니언 마이닝(Opinion Mining)

  • 텍스트 마이닝의 한 분류
  • 특정 주제에 대한 사람들의 주관적 의견을 통계/수치화해 객관적 정보로 바꾸는 빅데이터 분석기술
  • 텍스트 마이닝과의 차이
    • 텍스트 마이닝 : 문장 내 주제를 파악
    • 오피니언 마이닝 : 감정/뉘앙스/태도 등을 판별, 이 때문에 감정 분석이라고도 불림
  • 텍스트 내 정보를 파악하기 위한 문장 주고, 문장 간의 관계, 어휘 등을 분석해 키워드와 연관된 감성 어휘의 빈도를 중립/긍정/부정으로 분류하고 강도를 평가
    • 특정 서비스 및 상품에 대한 시장 규모 예측, 소비자의 반응, 입소문 분석 등에 활용

웹 마이닝(Web Mining)

  • 웹 자원으로부터 의미있는 패턴, 추세 등을 도출해 내는 것
  • 데이터를 분석하여 유용한 정보를 추출, 통찰을 얻어내는 것이 핵심
    • 기기 내 쌓이는 로그, 사용자 행동 및 작성 콘텐츠 등 모든 것을 포함
  • 웹 마이닝의 특징
    • 웹 환경에서 얻어지는 정보를 이용하여 다양한 활동에 활용
    • 데이터 마이닝을 이용하여 문서들과 서비스로부터 정보 추출
    • 대량의 로그기록을 기반으로 정보를 수집하고 자료를 정제
    • 다양한 서비스에 접목 가능
  • 웹 마이닝의 유형
    • 웹 구조 마이닝(Web Structure Mining) : 웹 사이트로부터 구조적 요약 정보를 추출
    • 웹 내용 마이닝(Web Contents Mining) : 웹사이트 또는 페이지로부터 의미 있는 내용 추출
    • 웹 사용 마이닝(Web Usage Mining) : 웹상의 사용자의 행동등 패턴으로부터 통찰을 이끌어 내는 방법

참고

반응형