반응형
데이터 확보를 위한 사전 검토사항
- 필요 데이터
- 분석 목적에 맞는 데이터 정의
- 필요한 데이터를 확보할 수 있는지 확인
- 확보할 수 없다면 대안 고려
- 보유 데이터 현황파악
- 사전에 정의한 데이터의 존재 여부
- 분석 품질이 보장된 우수한 데이터
- 충분한 데이터 존재하는지 확인
- 분석 데이터의 유형
- 분석 데이터 확보를 위해 수집 대상 데이터의 유형 고려
- 어떤 데이터를 어떤 기법을 이용하여 분석할 것인지 수립된 계획에 따라 데이터 유형을 선택하고 변수 정의
- 편향되지 않고 충분한 양의 데이터 규모
- 데이터 분석 기법에 따라 훈련 데이터셋, 검증 데이터 셋, 테스트 데이터셋 필요
- 신뢰성 높은 데이터 분석 모델 개발과 정확한 데이터 분석을 위함
- 데이터 분석 기법에 따라 훈련 데이터셋, 검증 데이터 셋, 테스트 데이터셋 필요
- 내부 데이터의 사용
- 필요 데이터에 대한 데이터 목록 작성
- 변수 명칭, 설명, 형태, 기간, 용량, 권한 등
- 필요 데이터에 대한 관련 법률이나 보안적인 요소 확인
- 개인정보일경우 비식별 조치방안 고려
- 필요 데이터에 대한 데이터 목록 작성
- 외부 데이터의 수집
- 필요 데이터에 대한 데이터 목록을 데이터를 보유한 기업의 이름과 데이터 제공 방법까지 고려하여 작성
- Open API, 복제 등
- 필요 데이터의 수집이 관련 법률이나 제도상 제약이 없는지 검토
- 필요 데이터에 대한 데이터 목록을 데이터를 보유한 기업의 이름과 데이터 제공 방법까지 고려하여 작성
분석에 필요한 변수 정의
- 데이터 분석 요건에 따라 도출된 활용 시나리오에 적합한 데이터의 유형 및 분석 변수 정의
데이터 수집 기획
- 데이터 수집 기법 활용, 필요 데이터를 배치 자동화로 수집
- 데이터 수집 타깃 시스템 또는 사이트 선별
- 수집 대상 화면, 텍스트를 위해 인덱스 생성 기획
- 대상 시스템별 데이터 수집을 위한 크롤러 준비 및 저장소 기획
- 크롤링 주기, 대상 범위를 확정하고 데이터 수집 기획
분석 변수 정의
- 빅데이터의 특징을 고려한 분석 변수 생성 기획
- 상관관계 분석을 위한 데이터 연속성 범주 등을 고려, 분석 변수 정의
- 분석 변수 유형과 형성 알고리즘 이용, 분석 유형 도출
- 변수의 분포를 구별하는 정도에 따라 순수도(purity) 또는 불순도(impurity)에 의해 측정 구간별 순수돌르 가장 높이는 분석 변수 도출
분석 변수 생성 프로세스 정의
- 분석 대상에 대해 객관적으로 인식하고 논리적 인과관계 분석 및 데이터 간 상관관계 분석을 위한 분석 변수 생성 프로세스 정의
변수 분석 | 내용 |
객관적 사실(Fact) 기반의 문제 접근 |
명확한 문제 인식을 위해 분석적이고 가정(Why)에 의한 접근 방법과 함께 무엇(What)이 문제인지를 파악하여 객관적 관찰 데이터 유형 식별 |
데이터의 상관 분석 | 빅데이터 분석 대상의 연관성 분석을 통해 데이터 집합 간 통계적 관련성을 분석할 수 있는 변수를 생성하고 변수의 척도 분류 |
프로토타입을 통한 분석 변수 접근 |
의미 있는 분석 변수를 생성하기 위하여 프로토타이핑 접근법을 통해 결과를 확인하며, 반복적으로 개선하여 필요한 데이터를 식별하고 구체화하여 비정형 데이터가 갖는 문제 해소 |
생성된 분석 변수의 정제를 위한 점검항목 정의
- 분석 기획 단계에서 도출된 문제 인식, 해결을 위한 개념적 대안 설계를 통해 도출된 데이터에 대해 가용성을 평가하고 점검항목 정의
- 데이터의 가용성과 적정성이 부족할 경우 문제 해결 및 활용 시나리오 적용을 통해 가치 가치 있는 결과 도출 어려움
- 실행 전 분석 변수를 논리적 지표에 따라 점검
분류 | 점검 항목 | 내용 |
데이터 수집 |
데이터 적정성 | 문제 해결에 적절한 분석 변수인가? |
데이터 가용성 | 수집 가능한 데이터인가? | |
대체 분석 데이터 유무 | 수집 불가능한 데이터인 경우 간접적으로 연관성 있는 데이터로 대체 가능한가? | |
데이터 적합성 |
데이터 중복 | 중복이나 노이즈 제거, 데이터값 존재 유무 등 기초 데이터 클렌징 수행 가능한가? |
분석 변수별 범위 | 분석 변수별 측정될 수 있는 min/max를 확인하였는가? | |
분석 변수별 연관성 | 수집된 데이터 간 충분 간격으로 연고나성이 있는가? | |
데이터 내구성 | 데이터 노이즈, 왜곡이 발생하였을 때 예측 성능을 보장할 수 있는가? | |
특징 변수 | 특징 변수 사용 | 분석 변수 중 바로 특징 변수로 사용할 수 있는 가능성이 있는가? |
변수 간 결합 가능 여부 | 분석 변수를 결합하여 교차 검증을 할 수 있는가? | |
타당성 | 편익/비용 검증 | 분석 비용과 분석 후 결과가 추가적 매출, 수익 등에 기여할 수 있는가? |
기술적 타당성 | 다양한 분석 툴을 호라용할 수 있는 분석 변수를 도출하였는가? |
생성된 분석 변수의 전처리 방법 수립
- 데이터 정제를 위한 점검항목 정의 후 이에 맞게 논리적 모델 설계를 위한 데이터 전처리 방법 수립
데이터 전처리 수행
* 전처리(Preprocessing) : 데이터를 분석 목적과 방법에 맞는 형태로 처리하기 위해서 불필요한 정보를 분리하거나 제거하고 가공하는 예비적 조작
처리 기법 | 내용 |
데이터 정제 (Cleaning) |
결측값을 채우거나 이상치를 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업 |
데이터 통합 (Integration) |
다수의 정제된 데이터를 통합하여 표현하는 작업 |
데이터 축소 (Reduction) |
데이터 집합의 크기는 더 작지만 분석 결과는 같은 데이터 집합으로 만드는 작업 |
데이터 변환 (Transformation) |
데이터 마이닝의 효율을 높이기 위한 변환 및 변형 작업 |
빅데이터 분석 프로세스 수행
- 다양한 업무와 도메인이 포함되어 있어 완전히 자동화하여 처리하는 것은 어려움
- 데이터 전처리 과정은 정제와 통합을 통해 약 60~80% 처리
생성 변수의 검증 방안 수립
- 빅데이터의 특징에 따라 주요 품질 요소 도출
- 생성된 분석 변수의 데이터 검증 방안 수립
분석 변수의 데이터 검증 방안 수립
- 개별 데이터에 대한 타당성 보장보다는 빅데이터 개념 및 특성 측면에서 품질 검증 정의
구분 | 품질 관리 접근 방법 |
대량 데이터 | - 데이터 사용자 오류 무시 - 데이터 타당성에 치명적인 예외 상황만 탐지 |
정밀 데이터 | - 개별 데이터에 대한 타당성 검증은 환경 및 상황에 따라 판단 - 데이터 전체가 나타내는 의미를 중심으로 검증 기준 정의 |
데이터 출처 불명확 | - 명확한 목적이나 사전 통제 없이 생산된 데이터에 대한 별도 품질 기준 정의 |
- 빅데이터 품질 관리 및 검증은 정확성보다 데이터의 양이 충분한지에 대한 조직의 비즈니스 영역 및 목적에 따라 검증
구분 | 품질 검증 전략 |
정확성 (Accuracy) |
- 데이터 사용 목적에 따라 데이터 정확성의 기준 상이하게 적용 |
완전성 (Completeness) |
- 필요한 데이터인지 식별하는 수준으로 품질 요소 적용 |
적시성 (Timeliness) |
- 소멸성이 강한 데이터에 대한 품질 기준 판단 - 웹로그 데이터, 트윗 데이터 등 지속적으로 생성 소멸하는 데이터에 대한 품질 기준 수립 |
일관성 (Consistency) |
- 동일한 데이터의 경우에도 사용 목적에 따라 데이터의 의미가 달라지기 때문에 분석 요건에 따른 검증 요소 적용 |
데이터 검증 체계 수립
- 수집한 데이터의 출처가 명확한지 검증
- 중복 데이터가 존재하는지, 정보 활용에 컴플라이언스 이슈가 없는지 데이터 관리 대상 선별 검증
- 데이터의 다양성이 확보되었는지, 데이터셋이 충분한지 검증
- 주요 품질 지표의 조건을 만족하는지, 분석, 검증, 테스트 데이터가 분리되어 있는지 주요 품질 지표 분석 및 검증
* 컴플라이언스(Compliance) : 사업 추진 과정에서 기업이 자발적으로 관련 법규를 준수하도록하기 위한 일련의 시스템
참고
반응형