반응형
데이터 관련 정의
- 데이터(Data)
- 관심의 대상이 되는 사물이나 사건의 속성을 일정한 규칙에 의해 측정, 조사, 관찰하여 습득한 것
- 이론을 세우는 기초가 되는 사실 또는 자료
- 컴퓨터와 연관되어 프로그램을 운용할 수 있는 형태로 기호화/수치화한 자료
- 단위(Unit)
- 관찰되는 항목 또는 대상
- 관측값(Observation)
- 각 조사 단위별 기록정보 또는 특성
- 변수(Variable)
- 각 단위에서 측정된 특성 결과
- 원자료(Raw Data)
- 표본에서 조사된 최초의 자료
데이터 종류
- 단변량 자료(Univariate Data)
- 자료의 특성을 대표하는 특성 변수가 하나인 자료
- 다변량 자료(Multivariate Data)
- 자료의 특성을 대표하는 특성 변수가 두가지 이상인 자료
- 질적 자료(Qualitative Data)
- 정성적 또는 범주형 자료라고도 부름
- 자료를 범주의 형태로 분류
- 분류의 편의상 부여된 수치의 크기 자체에는 의미 부여 하지 않는 자료
- 명목 자료, 서열 자료 등이 질적 자료로 분류
질적 자료 | 설명 |
명목 자료 (Nominal Data) |
측정대상이 범주나 종류에 대해 구분되어지는 것을 수치 또는 기호로 분류 예) 전화번호상의 국번/지역번호 |
서열 자료 (Ordinal Data) |
명목 자료와 비슷하나 수치나 기호가 서열을 나타내는 자료 예) 기록경기의 순위 |
- 수치 자료(Quantitative Data)
- 정량적 또는 연속형 자료라고도 부름
- 숫자 크기에 의미를 부여할 수 있는 자료
- 구간 자료, 비율 자료 등이 수치 자료로 분류
수치 자료 | 설명 |
구간 자료 (Interval Data) |
명목자료, 서열자료의 의미를 포함하면서 숫자로 표현된 변수에 대해 변수 간 관계가 산술적인 의미를 가지는 자료 예) 온도 |
비율 자료 (Ratio Data) |
명목자료, 서열자료, 구간자료의 의미를 다 포함하면서 수치화된 변수에 비율의 개념을 도입할 수 있는 자료 예) 무게 |
- 시계열 자료(Time Series Data)
- 일정한 시간간격 동안에 수집된, 시간개념이 포함되어 있는 자료
- 예) 일별 주식 가격
- 횡적 자료(Cross Sectional Data)
- 횡단면자료라고도 부름
- 한 개의 시점에서 여러 대상으로부터 취합된 자료
- 종적 자료(Longitudinal Data)
- 시계열자료와 횡적자료의 결합으로 여러 개체를 여러 시점에서 수집한 자료
데이터 정제
- 데이터 정제의 정의
- 수집된 데이터를 대상으로 분석에 필요한 데이터를 추출하고 통합하는 과정
- 데이터 정제의 필요성
- 데이터로부터 원하는 결과나 분석을 얻기 위함
- 분석 처리에 어려움 발생 (일관성이 없는 데이터 구성 시)
- 도출된 결과의 신뢰성 저하 발생
- 데이터 정제의 과정(Processing)
- 데이터 수집
- 데이터의 입수 방법 및 정책 결정
- 입수 경로의 구조화
- 집계(Aggregation)
- 저장소 결정
- 데이터 변환
- 데이터 유형의 변화 및 분석 가능한 형태로 가공
- ETL
- 일반화
- 정규화
- 데이터 교정
- 결측치의 처리, 이상치 처리, 노이즈 처리
- 비정형 데이터 수집 시 필수사항
- 데이터 통합
- 데이터 분석이 용이하도록 기존 또는 유사 데이터와의 연계 통합
- 레거시 데이터(Legacy Data)와 함께 분석이 필요할 경우 수행
- 레거시 데이터 : 과거로부터 물려 내려온 데이터
- 데이터 수집
- 데이터 정제의 전처리 및 후처리
- 전처리(Pre Processing)
- 데이터 저장 전 처리과정
- 대상 데이터와 입수 방법 결정 및 저장방식 장소 선정 (데이터 수집단계에서 수행)
- 후처리(Post Processing)
- 데이터 저장 후의 처리과정
- 저장 데이터의 품질관리 등의 과정 포함
- 전처리(Pre Processing)
참고
반응형