반응형
비정형 데이터(Unstructured-Data)
- 데이터 세트가 아닌 하나의 데이터가 수집 데이터로 객체화되어 있는 것
- 숫자 데이터와 달리 그림이나 영상, 문서처럼 형태와 구조가 복잡해 정형화 되지 않은 데이터
- 대표적으로 언어 분석이 가능한 텍스트 데이터나 이미지, 동영상 같은 멀티미디어 데이터
- 웹에 존재하는 데이터의 경우 html 형태로 존재하여 반정형 데이터로 구분
- 특정한 경우 텍스트 마이닝을 통해 데이터를 수집하는 경우도 존재, 명확한 구분 어려움
데이터 수집의 난이도
- 정형 데이터 (수집난이도 : 하)
- 내부 시스템인 경우가 대부분이라 수집이 쉬움
- 파일 형태의 스프레드시트라도 내부에 형식을 가지고 있어 처리가 쉬운 편
- 반정형 데이터 (수집난이도 : 중)
- 보통 API 형태로 제공
- 데이터 처리 기술 요구
- 비정형 데이터 (수집난이도 : 상)
- 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱
- 전문적 기술을 요구하기 때문에 수집 데이터 처리 어려움
데이터 처리의 아키텍처
- 정형 데이터
- 일반적인 아키텍처 구조
- 반정형 데이터
- 데이터의 메타구조를 해석해 정형 데이터 형태로 바꿀 수 있게 아키텍처 구조 수정
- 비정형 데이터
- 텍스트나 파일을 파싱해 메타구조를 갖는 데이터셋 형태로 변경
- 정형 데이터 형태의 구조로 만들 수 있도록 아키텍처 구조 수정
데이터의 잠재적 가치
- 정형 데이터 (잠재적 가치 : 하)
- 내부 데이터의 특성과 현실적 가치의 한계상 활용측면에서 잠재적 가치는 상대적 낮음
- 반정형 데이터 (잠재적 가치 : 중)
- 데이터의 제공자가 선별해 제공하는 데이터
- 잠재적 가치는 정형 데이터보다 높음
- 비정형 데이터 (잠재적 가치 : 상)
- 수집주체에 의해 데이터에 대한 분석이 선행 되어 목적론적 데이터 특징이 가장 잘 나타나는 데이터
- 수집이 가능하면 수집주체에게는 가장 높은 잠재적 가치 제공
비정형 데이터 분석
비정형 데이터 분석의 기본 원리
- 내용 파악과 데이터 속 패턴 발견을 위해 다양한 기법 사용
- 데이터 마이닝, 텍스트 분석, 비표준 텍스트 분석 등
- 정련 과정을 통해 정형 데이터로 만든 후, 데이터 마이닝을 통해 의미있는 정보 발굴
- 데이터 마이닝 : 분류, 군집화, 회귀분석, 요약, 이상감지 분석 등
데이터 마이닝(Data Mining)
- 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치있는 정보를 추출하는 과정
- 통계학쪽에서 발전한 방법론과 데이터베이스, 인고지능 쪽에서 발전한 기술적인 방법론 사용
- 통계학 : 탐색적자료분석, 가설 검정, 다변량 분석, 시계열 분석, 일반선형모델 등의 방법론
- 데이터베이스 : OLAP(온라인 분석 처리)
- 인공지능 : SOM(자기조직화 지도) 신경망, 전문가 시스템 등 기술적 방법론
- 기본적으로 전통적인 데이터 마이닝 기법은 비정형 데이터를 정형화하는 기반하에서 상식적 범위에서 부분적인 데이터를 다룬다는 한계 존재
- 적용분야
- 분류(Classification) : 일정한 집단에 대한 특정 정의를 통해 분류 및 구분 추론
- 군집화(Clustering) : 구체적인 특성을 공유하는 군집 확인, 미리 정의된 특성에 대한 정보를 가지지 않는다는 점에서 분류와 다름
- 연관성(Association) : 동시에 발생한 사건간의 관계 정의
- 연속성(Sequencing) : 특정 기간에 걸쳐 발생하는 관계 규명, 기간의 특성을 제외하면 연관성 분석과 유사
- 예측(Forecasting) : 대용량 데이터집합 내의 패턴을 기반으로 미래 예측
텍스트 마이닝(Text Mining)
- 전통적인 데이터 마이닝의 한계를 벗어난 방법
- 인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리 방식을 이용하여 대규모 문서에서 데이터의 숨겨진 의미를 발견하는 기법
- 정보 추출, 연계성 파악, 분류 및 군집화, 요약 등의 의미 도출
- 텍스트 마이닝 절차
- 입력
- 준비 : 입력되는 여러 가지 텍스트 문서의 데이터들을 문제 범위에 적절한 것으로 확립
- 전처리 : 조직화된 텍스트들을 정형화된 표현 양식으로 변경
- 지식추출 : 정형 데이터에서 의미 있는 패턴이나 관계와 같은 지식 발견 (예: 분류, 클러스터링 등)
- 처리
- 출력
- 입력
자연어 처리(Natural Language Processing)
- 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사할 수 있도록 연구하고 구현하는 인공지능 분야
- 언어 자체를 연구하는 언어학, 언어현상의 내적 기재를 탐구하는 언어인지 과학과 연관이 깊음
- 연구대상이 언어이기 때문
- 구현을 위해 수학/통계적 도구를 많이 활용하며 특히 기계학습 도구를 많이 사용하는 대표적인 분야
- 예) 정보검색, QA 시스템, 문서 자동분류, 신문기사 클러스터링, 대화형 Agent 등
웹 마이닝(Web Mining)
- 데이터 마이닝 기술의 응용분야
- 인터넷을 통해 웹자원으로부터 의미있는 패턴, 프로파일, 추세 등을 발견하는 것
- 추가적인 분석 기법 필요
- 데이터의 속성이 반정형/비정형이고, 링크(Link) 구조를 가지고 있기 때문
- 예) 정보필터링, 경쟁자와 특허, 기술개발 등의 감시, 이용도 분석을 위한 웹 액세스 로그의 마이닝 등
오피니언 마이닝(Opinion Mining)
- 원천 데이터에서 주관적인 정보를 식별하고 추출하는 것
- 원천 데이터 : 어떤 사안이나 인물, 이슈, 이벤트 등
- 주관적인 정보 : 의견이나 평가, 태도, 감정 등
- 즉, 사람들의 주관적인 의견을 통계/수치화하여 객관적인 정보로 바꾸는 기술
- 어떤 사안이나 인물에 대한 사람들의 의견뿐만 아니라 감정과 태도도 분석하기 때문에 감정 분석이라고도 지칭
- 텍스트 마이닝에서 활용하는 자연어 처리 방법 사용
- 분석 대상이 텍스트이기 때문
- 예) 포털 게시판, 블로그, 쇼핑몰 등
리얼리티 마이닝(Reality Mining)
- 사람들이 매일 사용하는 기계나 모션센서 등의 행동에서 비정형 데이터를 추출하는 방법
- 스마트폰 등
- 수집 목적 데이터 : 커뮤니케이션 데이터, 위치 데이터
- 커뮤니케이션 데이터 : 통화, 메시징 등
- 위치 데이터 : GPS, WIFI
- 사회적 행위를 마이닝하고 사용자 행동 모델링이나 라이프 로그도 얻어내는 것을 목표로 함
참고
반응형