이론/빅데이터 분석
빅데이터 탐색 - 비정형 데이터 탐색
luvris2
2023. 3. 13. 18:17
반응형
비정형 데이터
비정형 데이터란?
- 미리 정의된 데이터 모델이 없거나 미리 정의된 방식으로 정리되지 않은 정보
- = 비구조화 데이터(Unstructured Data), 비구조적 데이터(Unstructured Information)
비정형 데이터의 특징
- 일반적으로 텍스트 중심으로 되어 있으며 날짜, 숫자, 사실과 같은 데이터 포함
- 변칙과 모호함이 발생하므로 데이터베이스의 칸 형식의 폼에 저장
- 문서에 주석화된(의미적으로 태그된) 데이터에 비해 전통적인 프로그램을 사용하여 이해하는 것을 불가능하게 만듬
데이터의 형태와 데이터 수집 간의 관계
- 정형 데이터(Structured Data)
- 내부 시스템인 경우가 대부분이라 수집이 쉬움
- 파일 형태의 스프레드시트라도 내부에 형식을 가지고 있어 처리가 쉬움
- 반정형 데이터(Semi-structured Data)
- 보통 API 형태로 제공되기 때문에 데이터 처리 기술 요구
- 비정형 데이터(Unstructured Data)
- 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱해야 하기 때문에 수집 데이터 처리가 어려움
비정형 데이터 관리 및 분석 의미 도출
- 데이터 저장의 효율성 측면
- 정형 데이터 : 사전에 정의된 규칙을 따라 저장/관리
- 비정형 데이터 : 규격화의 어려움이 있어 저장/관리의 어려움 존재
- 정형 데이터에 비해 차지하는 저장 공간이 넓음
- 정형화되지 않은 데이터로 분석이 용이하지 않은 부분 존재
비정형 데이터의 분석
데이터 마이닝(Data Mining)
- 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치 있는 정보를 추출하는 과정
- 통계학에서의 데이터 마이닝
- 패턴 인식에 이르는 다양한 계량 기법 사용
- 발전한 탐색적 자료분석, 가설 검정, 다변량 분석, 시계열 분석, 일반선형모델 등의 방법론 사용
- 데이터베이스에서의 데이터 마이닝
- OLAP(온라인 분석 처리), 인공지능 진영에서 발전한 SOM, 신경망, 전문가 시스템 등의 기술적인 방법론 사용
- 적용 분야
- 신용평점 시스템의 신용평가모델 개발
- 사기탐지 시스템
- 장바구니 분석
- 최적 포트폴리오 구축 등
- 분류(Classification) : 일정한 집단에 대한 특정 정의를 통해 분류 및 구분 추론
- 예) 경쟁자에게로 이탈한 고객
- 군집화(Clustering) : 구체적인 특성을 공유하는 군집 검색
- 예) 유사 행동 집단의 구분
- 연광성(Association) : 동시에 발생한 사건 간의 관계 정의
- 예) 장바구니에 동시에 들어가는 상품들의 관계 규명
- 연속성(Sequencing) : 특정 기간에 걸쳐 발생하는 관계 규명
- 예) 슈퍼마켓과 금융상품 사용에 대한 반복 방문
- 예측(Forecasting) : 대용량 데이터 집합 내의 패턴을 기반으로 미래 예측
- 예) 각종 수요 예측
- 데이터 마이닝의 단점
- 자료에 의존하여 현상을 개선하려는 성격이 강함
- 자료가 현실을 충분히 반영하지 못한 상태에서 정보를 추출한 모델을 개발할 경우 잘못된 모델을 구축하는 오류 발생
- 즉, 신뢰도가 높은 충분한 자료 필요
텍스트 마이닝(Text Mining)
- 전통적인 데이터 마이닝의 한계를 벗어난 방법
- 인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리 방식 이용
- 대규모 문서에서 정보 추출, 연계성 파악, 분류 및 군집화, 요약등을 통해 데이터의 숨겨진 의미를 발견하는 기법
- 자연어 처리(NLP, Natural Language Process)
- 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사할 수 있도록 연구하고 구현하는 인공지능의 주요 분야 중 하나
- 자연 언어 처리는 연구 대상이 언어이기 때문에 언어 자체를 연구하는 언어학이나 언어 현상의 내적 기재를 탐구하는 언어 인지 과학과 연관이 깊음
- 구현을 위해 수학적/통계적 도구를 많이 활용, 특히 기계학습 도구를 많이 사용하는 대표적인 분야
- 응용 분야 : 정보검색, QA 시스템, 문서 자동분류, 신문기사 클러스터링, 대화형 Agen 등
오피니언 마이닝(Opinion Mining)
- 텍스트 마이닝의 한 분류
- 특정 주제에 대한 사람들의 주관적 의견을 통계/수치화해 객관적 정보로 바꾸는 빅데이터 분석기술
- 텍스트 마이닝과의 차이
- 텍스트 마이닝 : 문장 내 주제를 파악
- 오피니언 마이닝 : 감정/뉘앙스/태도 등을 판별, 이 때문에 감정 분석이라고도 불림
- 텍스트 내 정보를 파악하기 위한 문장 주고, 문장 간의 관계, 어휘 등을 분석해 키워드와 연관된 감성 어휘의 빈도를 중립/긍정/부정으로 분류하고 강도를 평가
- 특정 서비스 및 상품에 대한 시장 규모 예측, 소비자의 반응, 입소문 분석 등에 활용
웹 마이닝(Web Mining)
- 웹 자원으로부터 의미있는 패턴, 추세 등을 도출해 내는 것
- 데이터를 분석하여 유용한 정보를 추출, 통찰을 얻어내는 것이 핵심
- 기기 내 쌓이는 로그, 사용자 행동 및 작성 콘텐츠 등 모든 것을 포함
- 웹 마이닝의 특징
- 웹 환경에서 얻어지는 정보를 이용하여 다양한 활동에 활용
- 데이터 마이닝을 이용하여 문서들과 서비스로부터 정보 추출
- 대량의 로그기록을 기반으로 정보를 수집하고 자료를 정제
- 다양한 서비스에 접목 가능
- 웹 마이닝의 유형
- 웹 구조 마이닝(Web Structure Mining) : 웹 사이트로부터 구조적 요약 정보를 추출
- 웹 내용 마이닝(Web Contents Mining) : 웹사이트 또는 페이지로부터 의미 있는 내용 추출
- 웹 사용 마이닝(Web Usage Mining) : 웹상의 사용자의 행동등 패턴으로부터 통찰을 이끌어 내는 방법
참고
반응형