반응형
반응형
탐색적 데이터 분석(EDA) Exploratory Data Analysis의 약자 다양한 방법을 통해서 자료를 관찰하고 이해하는 과정을 의미 본격적인 데이터 분석 전 자료를 직관적인 방법으로 통찰하는 과정 탐색적 데이터 분석을 통해 데이터에 대한 이해도를 높이고 더 정교한 모델 개발 탐색적 데이터 분석의 필요성 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상 이해 내재된 잠재적 문제를 인식하고 해결안 도출 문제 발견시 분석 전 데이터의 수집 의사 결정할 수 있음 문제정의 단계에서 인지 못한 새로운 양상 및 패턴 발견 새로운 양상 발견 시 초기설정 문제의 가성 수정, 새로운 가설 설립 분석과정 및 절차 변수 확인 분석의 목적과 변수가 무엇인지 개별변수의 이름이나 설명을 가지는지 데이터 문제성 확..
임시 파일이란? 프로그램이 실행되는 동안 일시적으로 사용되는 파일 보통 프로그램에서 필요로 하는 데이터를 저장하기 위해 사용 프로그램 실행이 끝나면 삭제 됨 임시 경로 확인(GetTempPath) Path.GetTempPath : 현재 사용자의 임시 폴더 경로를 반환 string result = Path.GetTempPath(); Console.WriteLine(result); // C:\Users\UserName\AppData\Local\Temp\ 임시 파일 생성하기 Path.Combine() : 새로운 임시 경로 생성 Path.Combine(Path.GetTempPath, "파일이름") : 현재 사용자의 임시 폴더 경로와 파일 이름 반환 File.WriteAllText(파일경로, "텍스트") : 임시..
OpenFileDialog 파일 선택 대화 상자를 표시하는 데 사용 WindowsForms 네임스페이스에서 제공 수행 절차 System.Windows.Forms 네임스페이스를 사용하여 OpenFileDialog 클래스 호출 OpenFileDialog 객체 생성 필요한 속성 설정 (예: InitialDirectory 속성 사용, 기본 디렉토리 설정) ShowDialog 메서드 호출(파일 대화 상자 표시) 사용자가 파일을 선택하면 DialogResult 값이 OK로 설정 DialogResult 값을 확인하여 파일 처리 사용 예시 // 버튼 클릭 이벤트 private void button1_Click(object sender, EventArgs e) { // 파일 대화 상자 객체 생성 OpenFileDialo..
불균형 데이터의 정의 한 클래스의 샘플 수가 다른 클래스에 비해 월등히 많거나 적은 데이터 셋을 의미 즉, 어떤 데이터에서 데이터의 양에 차이가 큰 경우를 의미 예) 병원에서 질병이 있는 사람과 질병이 없는 사람의 데이터 수집 일반적 데이터 : 질병이 있는 사람이 질병이 없는 사람에 비해 적음 불균형 데이터 : '병원의 데이터' 클래스가 '일반적 데이터' 클래스와의 월등히 많은 차이 존재 불균형 데이터의 문제점 모델이 단순히 우세한 클래스를 택하여 정확도를 높이기 때문에 모델의 성능판별이 어려워짐 즉, 정확도(accuracy)가 높아도 데이터 개수가 적은 클래스의 재현율(recall-rate)이 급격히 작아지는 현상 발생 사실 참(Positive) 거짓(Negative) 실험 결과 참(Positive) ..
변수 변환의 개념 데이터를 분석하기 좋은 형태로 바꾸는 작업 어떤 변수를 나타낸 식을 다른 변수로 바꿔 나타내는 기법 데이터의 전처리 과정 중 하나로 간주 해석이 용이해지거나 취급이 단순해지는 장점 존재 변수 변환의 방법 범주형 변환 연속형 변수 중, 분석결과의 명료성 및 정확성을 배가시키기 위해 범주형으로 바꾸는 것 예) 연속형 변수 : '소득이 100만원 늘 때마다 사교육비의 지출이 10만원 증가' 범주형 변환 : '상위 10% 소득가정의 사교육비 지출이 하위 10%보다 10배 많다' 연속형 데이터를 순위형(rank) 데이터로 범주를 나누어 상대비교를 하는 방법 즉, 연속형 데이터를 범주형 데이터로 나누는 설명이 효과적일 수 있음 정규화 데이터가 가진 스케일이 심하게 차이나는 경우 상대적 특성이 반영..
파생변수와 요약변수의 필요성 데이터 분석 시 목표에 적합하게 데이터 형태 수정 보완 필요 분석모델 구축에 있어 핵심인 환경과 문제를 잘 해석할 수 있는 변수를 찾는 데 의의 즉, 데이터 마트에서 분석을 위해 생성된 개념 데이터 마트(Data Mart) 요약변수와 파생변수들의 집합 데이터 웨어하우스로부터 복제 또는 자체 수집된 데이터 모임의 중간층 분석을 위한 기본단계 변수가 모여지는 단계 파생변수 파생변수의 정의 기존의 변수를 조합하여 새로운 변수를 만들어 내는 것을 의미 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여하는 변수 매우 주관적일 수 있으므로 논리적 타당성 필요 세분화 고객행동 에측, 캠페인반응예측 등에 활용 특정상황에만 유의미하지 않는 대표성 필요 파생변수 생성방..