반응형
반응형
기초통계량 자료를 수집하여 요약/정리하는 기초통계 또는 기술통계 자료의 특성을 정량적인 수치에 의해서 나타내는 방법 자료의 특성을 수치적 결과로 표현 중심화 경향(Central Tendency) 퍼짐 정도(산포도/분산도) 자료의 분포 형태(Shape of distribution) 등 중심화 경향 기초통계량 산술평균(Arithmetic Mean) 모든 자료들을 합한 후 전체 자료수로 나누어 계산하는 일반적인 평균을 의미 즉, 우리가 알고있는 평균 모평균(Population Mean)모집단 전체 자료의 산술평균 표본평균(Sample Mean) : 모집단의 부분집합인 추출된 표본 전체의 산술평균 즉, 간략히 하면 다음의 수식과 같음 예시) 50과 100의 산술 평균은? 50+100/2 = 75 기하평균(Geo..
변수 간의 상관성 분석 두 변수 간 어떤 선형적 관계를 갖고 있는지 분석하는 방법 * 상관관계(correlation) : 두 변수는 서로 독립적인 관계이거나 상관된 관계 일 수 있으며, 이 때 두 변수 간 관계의 강도를 나타낸 것을 의미 단순상관분석(Simple Correlation Analysis) 단순히 두 개의 변수가 어느 정도 강한 관계에 있는가 측정 다중상관분석(Multiple Correlation Analysis) 3개 이상의 변수 간의 관계강도 측정 편상관관계분석(Partial Correlation Analysis) 다중상관분석에서 다른 변수와의 관계를 고정하고 두 변수의 관계강도를 측정 상관분석의 기본가정 선형성 두 변인 X와 Y의 관계가 직선적인지 알아보는 것 분포를 나타내는 산점도를 통..
탐색적 데이터 분석(EDA) Exploratory Data Analysis의 약자 다양한 방법을 통해서 자료를 관찰하고 이해하는 과정을 의미 본격적인 데이터 분석 전 자료를 직관적인 방법으로 통찰하는 과정 탐색적 데이터 분석을 통해 데이터에 대한 이해도를 높이고 더 정교한 모델 개발 탐색적 데이터 분석의 필요성 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상 이해 내재된 잠재적 문제를 인식하고 해결안 도출 문제 발견시 분석 전 데이터의 수집 의사 결정할 수 있음 문제정의 단계에서 인지 못한 새로운 양상 및 패턴 발견 새로운 양상 발견 시 초기설정 문제의 가성 수정, 새로운 가설 설립 분석과정 및 절차 변수 확인 분석의 목적과 변수가 무엇인지 개별변수의 이름이나 설명을 가지는지 데이터 문제성 확..
불균형 데이터의 정의 한 클래스의 샘플 수가 다른 클래스에 비해 월등히 많거나 적은 데이터 셋을 의미 즉, 어떤 데이터에서 데이터의 양에 차이가 큰 경우를 의미 예) 병원에서 질병이 있는 사람과 질병이 없는 사람의 데이터 수집 일반적 데이터 : 질병이 있는 사람이 질병이 없는 사람에 비해 적음 불균형 데이터 : '병원의 데이터' 클래스가 '일반적 데이터' 클래스와의 월등히 많은 차이 존재 불균형 데이터의 문제점 모델이 단순히 우세한 클래스를 택하여 정확도를 높이기 때문에 모델의 성능판별이 어려워짐 즉, 정확도(accuracy)가 높아도 데이터 개수가 적은 클래스의 재현율(recall-rate)이 급격히 작아지는 현상 발생 사실 참(Positive) 거짓(Negative) 실험 결과 참(Positive) ..
변수 변환의 개념 데이터를 분석하기 좋은 형태로 바꾸는 작업 어떤 변수를 나타낸 식을 다른 변수로 바꿔 나타내는 기법 데이터의 전처리 과정 중 하나로 간주 해석이 용이해지거나 취급이 단순해지는 장점 존재 변수 변환의 방법 범주형 변환 연속형 변수 중, 분석결과의 명료성 및 정확성을 배가시키기 위해 범주형으로 바꾸는 것 예) 연속형 변수 : '소득이 100만원 늘 때마다 사교육비의 지출이 10만원 증가' 범주형 변환 : '상위 10% 소득가정의 사교육비 지출이 하위 10%보다 10배 많다' 연속형 데이터를 순위형(rank) 데이터로 범주를 나누어 상대비교를 하는 방법 즉, 연속형 데이터를 범주형 데이터로 나누는 설명이 효과적일 수 있음 정규화 데이터가 가진 스케일이 심하게 차이나는 경우 상대적 특성이 반영..
파생변수와 요약변수의 필요성 데이터 분석 시 목표에 적합하게 데이터 형태 수정 보완 필요 분석모델 구축에 있어 핵심인 환경과 문제를 잘 해석할 수 있는 변수를 찾는 데 의의 즉, 데이터 마트에서 분석을 위해 생성된 개념 데이터 마트(Data Mart) 요약변수와 파생변수들의 집합 데이터 웨어하우스로부터 복제 또는 자체 수집된 데이터 모임의 중간층 분석을 위한 기본단계 변수가 모여지는 단계 파생변수 파생변수의 정의 기존의 변수를 조합하여 새로운 변수를 만들어 내는 것을 의미 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여하는 변수 매우 주관적일 수 있으므로 논리적 타당성 필요 세분화 고객행동 에측, 캠페인반응예측 등에 활용 특정상황에만 유의미하지 않는 대표성 필요 파생변수 생성방..