반응형
반응형
차원 축소의 정의 분석하는 데이터의 종류의 수를 의미 어떤 목적에 따라서 변수(데이터의 종류)의 양을 줄이는 것 차원 축소의 필요성 복잡도의 축소(Reduce Complexity) 분석시간과 저장변수 양을 고려 분석시간의 증가 (시간복잡도, Time Complexity) 저장변수 양의 증가 (공간복잡도, SpaceComplexity) 동일한 품질을 나타낼 수 있다면 효율성 측면에서 데이터 종류의 수 축소 과적합(Overfit)의 방지 과적합 : 학습 데이터를 너무 과하게 학습하는 것 차원 증가로 발생하는 고려사항 분석모델 파라메터의 증가 및 파라메터 간 복잡한 관계의 증가 분석결과의 과적합 발생 가능성이 커짐 분석 모델의 정확도(신뢰도) 저하 발생 작은 차원만으로 안정적인(robust) 결과를 도출할 수..
비트가 대체 무엇일까? 컴퓨터에서 정보는 나타내는 최소 단위 0 또는 1의 값을 가지는 것 즉, 컴퓨터는 모든 데이터를 2진수로 표현 비트를 조합하여 다양한 정보를 나타낼 수 있음 비트의 수가 많을수록 데이터의 처리 속도나 용량 등이 향상 용량은 일반적으로 메모리를 의미 32비트 컴퓨터는 32비트로 구성된 CPU 사용 64비트 컴퓨터는 64비트로 구성된 CPU 사용 즉, 비트 수가 더 많기 때문에 데이터의 처리 속도가 높아 한 번에 더 많은 데이터 처리 가능 그럼 바이트는? 데이터를 처리하는 단위 중 하나 8비트(bit)로 이루어진 데이터 묶음을 의미 즉, 1바이트는 256(2의 8승)가지의 서로 다른 값을 가짐 + 2바이트는 65,356(2의 16승)가지의 서로 다른 값을 가짐 간단히 말해서 바이트가 ..
변수별 모델 분류 전체 모델(FM, Full Model) 모든 독립변수를 사용한 모델 축소 모델(RM, Reduced Model) 전체 모델에서 사용된 변수의 개수를 줄여서 얻은 모델 영 모델(NM, Null Model) 독립변수가 하나도 없는 모델 변수 선택 방법 전진 선택법(Forward Selection) 가장 단순한 회귀모델에서 출발하여 가장 중요한 변수들을 고르며 차례대로 모델에 포함시키는 방법 영 모델에서 시작 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 큰 변수를 분석 모델에 포함 부분 F 검정(F test)을 통해 유의성 검증 시행 유의한 경우 : 가장 큰 F 통계량을 가지는 모델 선택 유의하지 않은 경우 : 변수 선택 없이 과정 중단 한번 추가된 변수는 제거하지 않는 것이 원..
데이터 이상값 정의 이상치, Outlier 라고도 부름 정상의 범주(데이터의 전체적 패턴)에서 벗어난 값을 의미 데이터 전처리 과정에 발생 가능한 문제 데이터 수집과정에서 이상치 포함 극단적인 값의 발생으로 인한 이상치 즉, 분석결과의 왜곡 발생 가능성 존재 이상치의 종류 단변수 이상치(Univariate Outlier) 하나의 데이터 분포에서 발생하는 이상치를 의미 다변수 이상치(Multivariate Outlier) 복수의 연결된 데이터 분포공간에서 발생하는 이상치를 의미 이상치의 발생 원인 비자연적 이상치 발생(Artificial/Non-Natural Outlier) 입력 실수(Data Entry Error) 데이터 수집과정에서 발생하는 에러 입력의 실수 등을 지칭 측정 오류(Measurement ..
결측치의 정의 결측값, Missing Data, 손실 데이터라고도 부름 데이터가 없음을 의미 어떠한 자료값도 관측 대상 변수에 저장되지 않을 때 발생 결측치 처리 시 발생 가능 문제점 결측치 임의 제거 시 발생 가능 문제점 분석 데이터의 직접 손실로 분석에 필요한 데이터 수집에 실패할 가능성 발생 결측치 임의 대체 시 발생 가능 문제점 데이터 편향(bias)이 발생, 분석 결과의 신뢰성 저하 가능성 존재 임의 제거, 대체 방법을 사용함에 있어 상기의 문제를 피하는 데이터에 기반한 방법으로 처리 진행 결측 데이터의 종류 완전 무작위 결측(MCAR) Missing Completely At Random의 약자 어떤 변수상에서 결측 데이터가 관측된 혹은 관측되지 않는 다른 변수와 아무런 연관이 없는 경우 즉, ..
데이터 관련 정의 데이터(Data) 관심의 대상이 되는 사물이나 사건의 속성을 일정한 규칙에 의해 측정, 조사, 관찰하여 습득한 것 이론을 세우는 기초가 되는 사실 또는 자료 컴퓨터와 연관되어 프로그램을 운용할 수 있는 형태로 기호화/수치화한 자료 단위(Unit) 관찰되는 항목 또는 대상 관측값(Observation) 각 조사 단위별 기록정보 또는 특성 변수(Variable) 각 단위에서 측정된 특성 결과 원자료(Raw Data) 표본에서 조사된 최초의 자료 데이터 종류 단변량 자료(Univariate Data) 자료의 특성을 대표하는 특성 변수가 하나인 자료 다변량 자료(Multivariate Data) 자료의 특성을 대표하는 특성 변수가 두가지 이상인 자료 질적 자료(Qualitative Data) ..