320x100
반응형
320x100
반응형
평가 지표에 대한 자세한 더 포스팅 확인하기 2023.03.22 - [이론/빅데이터 분석 기사] - 빅데이터 결과 해석 - 모형 평가 및 개선 - 평가 지표 회귀모델에 대한 주요 성능평가지표 SSE(Sum Squared Error) : 제곱의 합, 실제값과 예측값의 차이를 제곱하여 더한 값 결정계수 R² : 회귀모델이 실제값에 대해 얼마나 잘 적합하는지에 대한 비율 MAE(Mean Absolute Error) : 실제값과 예측값 차이의 절대값을 합한 평균간 MAPE(Mean Absolute Percentage Error) : MAE를 퍼센트로 변환한 값 분류모델에 대한 주요 성능평가지표 True Positive(TP) : 실제 True인 답을 True라고 예측(정답) False Positive(FP) :..
분석 시나리오 작성 데이터 분석 대상 및 범위를 요구사항에 맞게 정의 분석을 통해 해결할 수 있는 문제와 목표 그리고 분석 목표별 구현 모델과 예상 결과 작성 분석 과정에 필요한 데이터, 절차, 분석 기법 등의 세부사항 정의 데이터의 경우 사전 확보 및 유형 분석 필요 기존에 잘 구현되어 활용되는 경우 유사 분석 시나리오 및 솔루션 고려 분석 모델 설계 분석 모델 설계시 사전 확인 사항 필요한 데이터 항목이 정해졌는가? 데이터 단위를 고려, 항목에 따른 표준화 방법을 정하였는가? 데이터를 수집한 항목에 따라, 단계별로 모델이 설계되었는가? 분석 검증 통계 기법을 선정하였는가? 분석 모델링 설계와 검정 분석 목적에 기반한 가설 검정 방법 수립 추정방법에 대한 기술 검토 분석 모델링 설계와 검정 방법 수립 ..
분석 모델 선정 필요성 의사 결정 여러 대안 중 하나의 행동을 고르는 일을 해내는 정신적 지각 활동 최종적으로 하나의 선택을 가지게 되고 이로 인한 결과 도출 불확실성 해소 불확실성은 의사결정의 가장 큰 문제 분석을 통해 불확실성을 제어하면 시장 대응에 큰 도움을 줌 요약 현 상황을 쉽고 빠르게 파악 가능 다음 대응할 방안 등 대비 인과관계 파악 데이터 간 연관관계 분석으로 원인과 결과를 파악 인과관계 파악으로 세부적인 판단 가능 예측 원인과 결과로 어떤 패턴을 파악하게 되면 다음에 생길 결과에 대한 예측 또한 가능 반드시 같은 패턴으로 이어지는 결과는 아니지만 미래에 생길 결과에 대한 대비 가능 빅데이터 분석 근본 목적 과거의 데이터를 토대로 원인에 대해 분석하고 그 결과로 미래 에측 데이터는 후행성 ..
기초통계량 자료를 수집하여 요약/정리하는 기초통계 또는 기술통계 자료의 특성을 정량적인 수치에 의해서 나타내는 방법 자료의 특성을 수치적 결과로 표현 중심화 경향(Central Tendency) 퍼짐 정도(산포도/분산도) 자료의 분포 형태(Shape of distribution) 등 중심화 경향 기초통계량 산술평균(Arithmetic Mean) 모든 자료들을 합한 후 전체 자료수로 나누어 계산하는 일반적인 평균을 의미 즉, 우리가 알고있는 평균 모평균(Population Mean)모집단 전체 자료의 산술평균 표본평균(Sample Mean) : 모집단의 부분집합인 추출된 표본 전체의 산술평균 즉, 간략히 하면 다음의 수식과 같음 예시) 50과 100의 산술 평균은? 50+100/2 = 75 기하평균(Geo..
변수 간의 상관성 분석 두 변수 간 어떤 선형적 관계를 갖고 있는지 분석하는 방법 * 상관관계(correlation) : 두 변수는 서로 독립적인 관계이거나 상관된 관계 일 수 있으며, 이 때 두 변수 간 관계의 강도를 나타낸 것을 의미 단순상관분석(Simple Correlation Analysis) 단순히 두 개의 변수가 어느 정도 강한 관계에 있는가 측정 다중상관분석(Multiple Correlation Analysis) 3개 이상의 변수 간의 관계강도 측정 편상관관계분석(Partial Correlation Analysis) 다중상관분석에서 다른 변수와의 관계를 고정하고 두 변수의 관계강도를 측정 상관분석의 기본가정 선형성 두 변인 X와 Y의 관계가 직선적인지 알아보는 것 분포를 나타내는 산점도를 통..
불균형 데이터의 정의 한 클래스의 샘플 수가 다른 클래스에 비해 월등히 많거나 적은 데이터 셋을 의미 즉, 어떤 데이터에서 데이터의 양에 차이가 큰 경우를 의미 예) 병원에서 질병이 있는 사람과 질병이 없는 사람의 데이터 수집 일반적 데이터 : 질병이 있는 사람이 질병이 없는 사람에 비해 적음 불균형 데이터 : '병원의 데이터' 클래스가 '일반적 데이터' 클래스와의 월등히 많은 차이 존재 불균형 데이터의 문제점 모델이 단순히 우세한 클래스를 택하여 정확도를 높이기 때문에 모델의 성능판별이 어려워짐 즉, 정확도(accuracy)가 높아도 데이터 개수가 적은 클래스의 재현율(recall-rate)이 급격히 작아지는 현상 발생 사실 참(Positive) 거짓(Negative) 실험 결과 참(Positive) ..