반응형
반응형
적합도 검정 정의 데이터가 가정된 확률에 적합하게 따르는지, 즉 데이터 분포가 특정 분포함수와 얼마나 맞는지를 검정하는 방법 모집단의 분포를 정규분포로 가정하는 분석기법 적용될 시 데이터가 분포를 따르는가를 확인할 때 사용 정규분포로 가정하는 분석기법 : t-Test, ANOVA, 회귀분석 일반적인 적합도 검정 방법 정규성 검정 그 외 카이제곱 검정, 콜모고로프 스미르노프 검정 카이제곱 검정(Chi Squared Test) 기대값과 관측값을 이용한 검정 방법 k개의 범주별로 나뉘어진 관측치들과 동일한 범주의 가정된 분포 사이의 적합도를 검정 범주형 k가 나와야 할 횟수의 기댓값과 실제 나온 횟수의 차이를 이용하여 검정 통계량 산출 기댓값 : m 실제 나온 횟수 : x 콜모고로프 스미르노프 검정(K-S T..
k-폴드 교차 검증의 정의 테스트 데이터셋에 과적합 되어버리는 결과를 방지하고자 나온 교차검증 기법 고정된 훈련 데이터셋과 테스트 검증 데이터셋으로 반복적 평가를 진행하여 튜닝할 경우 과적합 가능성 존재 장점 모든 데이터 셋을 평가에 활용하여 과적합 방지 단점 반복횟수 증가에 따른 모델 훈련과 평가/검증 시간 오래 소요 k-폴드 교차 검증 절차 전체 데이터셋을 k개의 서브셋으로 분리 k-1개를 훈련 데이터로 사용, 1개의 서브셋은 테스트 데이터로 사용 테스트를 중복없이 병행 진행한 후 평균 확인 최종적 모델 성능 평가 홀드아웃 기법(Holdout Method) 훈련 데이터, 검증 데이터, 테스트 데이터를 일정 비율로 지정 훈련 데이터로 학습 훈련 데이터 내에 일정 부문 검증 데이터를 두어 학습과정에서 모..
정규성 가정 분석을 진행하기 전에 데이터가 정규분포를 따르는지 검정하는 것 데이터 자체의 정규성을 확인하는 과정 통계적 검정, 회귀분석 등 중심극한정리(Central Limit Theorem) 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 이론 표본분포의 평균 모집단의 모평균과 동일 표준편차 모집단의 모표준편차를 표본 크기의 제곱근으로 나눈 것 정규성 검정 종류 샤피로-윌크 검정(Shaprio-Wilks Test) 표본수(n)가 2000개 미만인 데이터 셋에 적합 콜모고로프 스미르노프 검정(Kolmogorove-Smirnov Test) 표본수(n)가 2000개 초과인 데이터 셋에 적합 Q-Q 플롯(Quantile-Quantile Plot) 데이터 ..
지도학습 - 분류 모델 평가 지표 분석 모델의 답과 실제 답과의 관계 오차행렬을 통해 평가 오차행렬(혼동행렬, Confusion Matrix) 훈련을 통한 예측 성능을 측정하기 위해 예측 값과 실제 값을 비교하기 위한 표 True Positive(TP) : 실제 True인 답을 True라고 예측(정답) False Positive(FP) : 실제 False인 답을 True라고 예측(오답) False Negative(FN) : 실제 True인 답을 False라고 예측(오답) True Negative(TN) : 실제 False인 답을 False라고 예측(정답) 정확도(Accuracy) : 실제 데이터와 예측 데이터를 비교하여 같은 지 판단 정밀도(Precision) : Positive로 예측한 대상 중 실제와..
모수(매개변수, 파라미터, Parameter) 정의 수학과 통계학에서 어떠한 시스템이나 함수의 특정한 설징을 나타내는 변수 일반적으로 θ라고 표현, 다른 표시는 각각 독특한 뜻을 지님 함수의 수치를 정해진 변역에서 구하거나 시스템의 반응을 결정할 때, 독립변수는 변하지만 매개변수는 일정 다른 매개변수를 이용해 함수의 다른 수치를 다시 구하거나 시스템의 다른 반응 확인 가능 비모수 통계(Non-Parametric Statistics) 개념 통계학에서 모수에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계없이 주어진 데이터에서 직접 확률을 계산하여 통계학적 검정을 하는 분석 상대적으로 모수 통계는 데이터의 분포를 알거나 모수(평균이나 분산) 등을 안다고 가정하고 통계적 검정 및 추론을 하는 것 비모수 통..
앙상블 분석 정의 주어진 자료로부터 여러 개의 학습 모델을 만든 후 학습 모델들을 조합하여 하나의 최종 모델을 만드는 개념 모델의 분산을 줄여주는 효과를 가짐 입력값의 작은 차이에도 민감하게 반응하는 문제에 유용 동일한 학습 알고리즘 이용 시, 한 개의 단일학습기에 의한 분석보다 더 나은 분석성능을 이끌어 낼 수 있음 다양한 약학습기를 통해 강학습기를 만들어가기 때문 약학습기(약분류기, Weak Learner) 무작위 선정이 아닌 성공확률이 높은, 즉 오차율이 일정 이하(50% 이하)인 학습 규칙 가능성 있는 다양한 복수의 학습 규칙 예) 스팸 메일 처리 방법 스팸 여부를 판단하는 기준 제목에 광고가 붙은 경우 : 스팸(Yes) 본문에 보험/대출이 들어간 경우 : 스팸(Yes) 보낸이가 내 주소록에 있는..