반응형
반응형
차원 축소의 정의 분석하는 데이터의 종류의 수를 의미 어떤 목적에 따라서 변수(데이터의 종류)의 양을 줄이는 것 차원 축소의 필요성 복잡도의 축소(Reduce Complexity) 분석시간과 저장변수 양을 고려 분석시간의 증가 (시간복잡도, Time Complexity) 저장변수 양의 증가 (공간복잡도, SpaceComplexity) 동일한 품질을 나타낼 수 있다면 효율성 측면에서 데이터 종류의 수 축소 과적합(Overfit)의 방지 과적합 : 학습 데이터를 너무 과하게 학습하는 것 차원 증가로 발생하는 고려사항 분석모델 파라메터의 증가 및 파라메터 간 복잡한 관계의 증가 분석결과의 과적합 발생 가능성이 커짐 분석 모델의 정확도(신뢰도) 저하 발생 작은 차원만으로 안정적인(robust) 결과를 도출할 수..
변수별 모델 분류 전체 모델(FM, Full Model) 모든 독립변수를 사용한 모델 축소 모델(RM, Reduced Model) 전체 모델에서 사용된 변수의 개수를 줄여서 얻은 모델 영 모델(NM, Null Model) 독립변수가 하나도 없는 모델 변수 선택 방법 전진 선택법(Forward Selection) 가장 단순한 회귀모델에서 출발하여 가장 중요한 변수들을 고르며 차례대로 모델에 포함시키는 방법 영 모델에서 시작 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 큰 변수를 분석 모델에 포함 부분 F 검정(F test)을 통해 유의성 검증 시행 유의한 경우 : 가장 큰 F 통계량을 가지는 모델 선택 유의하지 않은 경우 : 변수 선택 없이 과정 중단 한번 추가된 변수는 제거하지 않는 것이 원..
데이터 이상값 정의 이상치, Outlier 라고도 부름 정상의 범주(데이터의 전체적 패턴)에서 벗어난 값을 의미 데이터 전처리 과정에 발생 가능한 문제 데이터 수집과정에서 이상치 포함 극단적인 값의 발생으로 인한 이상치 즉, 분석결과의 왜곡 발생 가능성 존재 이상치의 종류 단변수 이상치(Univariate Outlier) 하나의 데이터 분포에서 발생하는 이상치를 의미 다변수 이상치(Multivariate Outlier) 복수의 연결된 데이터 분포공간에서 발생하는 이상치를 의미 이상치의 발생 원인 비자연적 이상치 발생(Artificial/Non-Natural Outlier) 입력 실수(Data Entry Error) 데이터 수집과정에서 발생하는 에러 입력의 실수 등을 지칭 측정 오류(Measurement ..
결측치의 정의 결측값, Missing Data, 손실 데이터라고도 부름 데이터가 없음을 의미 어떠한 자료값도 관측 대상 변수에 저장되지 않을 때 발생 결측치 처리 시 발생 가능 문제점 결측치 임의 제거 시 발생 가능 문제점 분석 데이터의 직접 손실로 분석에 필요한 데이터 수집에 실패할 가능성 발생 결측치 임의 대체 시 발생 가능 문제점 데이터 편향(bias)이 발생, 분석 결과의 신뢰성 저하 가능성 존재 임의 제거, 대체 방법을 사용함에 있어 상기의 문제를 피하는 데이터에 기반한 방법으로 처리 진행 결측 데이터의 종류 완전 무작위 결측(MCAR) Missing Completely At Random의 약자 어떤 변수상에서 결측 데이터가 관측된 혹은 관측되지 않는 다른 변수와 아무런 연관이 없는 경우 즉, ..
데이터 관련 정의 데이터(Data) 관심의 대상이 되는 사물이나 사건의 속성을 일정한 규칙에 의해 측정, 조사, 관찰하여 습득한 것 이론을 세우는 기초가 되는 사실 또는 자료 컴퓨터와 연관되어 프로그램을 운용할 수 있는 형태로 기호화/수치화한 자료 단위(Unit) 관찰되는 항목 또는 대상 관측값(Observation) 각 조사 단위별 기록정보 또는 특성 변수(Variable) 각 단위에서 측정된 특성 결과 원자료(Raw Data) 표본에서 조사된 최초의 자료 데이터 종류 단변량 자료(Univariate Data) 자료의 특성을 대표하는 특성 변수가 하나인 자료 다변량 자료(Multivariate Data) 자료의 특성을 대표하는 특성 변수가 두가지 이상인 자료 질적 자료(Qualitative Data) ..
빅데이터 저장시스템 대용량 데이터 집합을 저장하고 관리하는 시스템 사용자에게 데이터 제공 신뢰성과 가용성을 보장하는 시스템 파일 시스템 저장방식 빅데이터를 확장 가능한 분산 파일의 형태로 저장하는 방식 대표적으로 아파치 HDFS, 구글의 GFS 등 저사양 서버들을 활용 대용량, 분산, 데이터 집중형의 애플리케이션 지원 사용자들에게 고성능 장애 허용 시스템(fault-tolerance) 환경 제공 * 장애 허용 시스템(fault-tolerance) : 결함 감내 시스템이라고도 하며, 시스템을 구성하는 부품의 일부에서 결함(fault) 또는 고장(failure)이 발생하여도 정상적 혹은 부분적으로 기능을 수행할 수 있는 시스템 데이터베이스 저장방식 전통적인 RDBMS 시스템과 NoSQL DBMS 시스템 이용..