반응형
반응형
통계학의 개념 통계학 불확실한 상황에서 불확실성을 감소시키고 현명한 의사결정을 하기 위한 이론과 방법의 체계 수치화된 자료의 수집, 분류, 분석과 해석의 체계를 갖춘 학문 기술통계 분석에 필요한 데이터를 요약하고 묘사/설명하는 통계기법 추측(추론)통계 표본에 내포되어 있는 정보를 이용하여 모집단에 대한 과학적인 추론을 하는 통계기법 확률과 확률분포 모집단에 대한 추측 및 추론이 얼마나 정확한지에 대한 논리적 타당성을 제시하는 도구 확률의 개념 통계적 현상 고유의 법칙성을 찾아내는 것이 가능한 현상을 지칭 불확정 현상을 반복하여 관찰 집단 안에서 대량으로 관찰 확률 실험 같은 조건 아래에서 반복 시행 시행의 결과는 매번 우연적으로 변하므로 예측할 수 없음 그러나 가능한 모든 결과의 집합을 알 수 있음 반복..
데이터 요약 데이터의 분포가 가지는 특성을 찾아 본격적인 분석 이전에 기본적인 특징을 수치적으로 정량화하여 기술 주로 기초 통계량(=기술 통계을 산출하여 결과 도출 기술 통계(Descriptive Statistics) 분석에 필요한 데이터를 요약하여 묘사/설명하는 통계기법 분석 전 데이터의 특성을 찾아 그 특성의 정량화를 통해 체계적 요약 필요 기술통계의 종류 중심화 경향(Central Tendency) 관찰 또는 수집 데이터의 물리적 상대적 위치에 대한 정리 요약 분산도 경향(Degree of Dispersion) 데이터들이 흩어진 정도에 대한 기술 및 요약 자료의 분포 형태(Shape of Distribution, Skewness) 자료의 분포가 대칭인지 치우쳐 있는지에 대한 기술 및 요약 표본추출 ..
비정형 데이터 비정형 데이터란? 미리 정의된 데이터 모델이 없거나 미리 정의된 방식으로 정리되지 않은 정보 = 비구조화 데이터(Unstructured Data), 비구조적 데이터(Unstructured Information) 비정형 데이터의 특징 일반적으로 텍스트 중심으로 되어 있으며 날짜, 숫자, 사실과 같은 데이터 포함 변칙과 모호함이 발생하므로 데이터베이스의 칸 형식의 폼에 저장 문서에 주석화된(의미적으로 태그된) 데이터에 비해 전통적인 프로그램을 사용하여 이해하는 것을 불가능하게 만듬 데이터의 형태와 데이터 수집 간의 관계 정형 데이터(Structured Data) 내부 시스템인 경우가 대부분이라 수집이 쉬움 파일 형태의 스프레드시트라도 내부에 형식을 가지고 있어 처리가 쉬움 반정형 데이터(Sem..
다변량 데이터 탐색의 개념 기본적으로 변수들 간 인과관계의 규명과 분석을 하는 것 변수들 간의 상관관계를 이용하여 변수를 축약하거나 개체들을 분류 관련된 분석 방법등을 동원하여 데이터 분석을 하는 것 종속변수와 독립변수 사이의 인과 관계 다중 회귀(Multiple Regression) 독립변수가 2개 이상인 회귀 모형 각 독립변수는 종속변수와 선형관계에 있음을 가정 다중 회귀의 장점 변수를 추가하여 분석 내용의 직절 향상 도모 (단순 회귀 분석의 단점 극복) 종속변수를 설명하는 독립변수가 두개 일 때 편이(bias) 제거 일반 형식 종속변수 Y에 대해 X의 독립변수 k개가 존재하여 종속변수를 설명 기본 가정 선형성 : 회귀 모델은 모수에 대해 선형인 모델 등분산성 : 오차항의 분산은 모든 관찰치에 대해 ..
시공간 데이터 탐색의 개념 공간적 정보(데이터)에 시간의 흐름(이력정보 등)이 결합된 다차원 데이터를 다루는 것을 지칭 시간 데이터 어느 한 시점에 대한 스냅샷 정보 유효시간 : 데이터가 발생하거나 소멸된 시간 거래 시간 : 관리 시스템을 통해 처리된 시간 사용자 정의 시간 : 유효 시간이나 거래 시간이 없는 경우 사용자가 정의 스냅샷 데이터 : 시간 개념이 필요하지 않아 거래, 유효시간 미지원 거래 시간 데이터, 유효 시간 데이터 : 각각 거래, 유효시간만 지원 이원 시간 데이터 : 둘다 지원 공간 데이터 기존 데이터베이스보다 복잡하고 다양한 유형의 값을 가짐 효율적으로 관리, 저장, 이용하는데 초점을 맞춤 비공간 타입 : 기본적인 데이터 유형을 가진 속성 래스터 공간 타입 : 실세계에 존재하는 객체의..
통계적 시각화 도구 도수분포표(Frequency Table) 수집된 자료를 적절한 계급에 의해 분류하여 정리한 표 질적 자료의 경우, 각 자료값(범주)에 대하여 도수나 상대도수로 표현 도수(Frequency) : 질적 자료의 경우 각 범주별 빈도 상대도수(Relative Frequency) : 도수/전체 자료 수 양적 자료의 경우, 전체 자료를 그룹화(계급구간)하고 각 그룹별 속하는 자료의 수를 계산하여 도수 및 상대도수로 표현 예) 서울지역 초등학생 100명 대상의 빙과류 선호도 조사 도수분포표 상품 도수 상대도수 콘 형태 아이스크림 65 65/100=0.65 막대 형태 아이스크림 25 25/100=0.25 기타 10 10/100=0.1 합계 100 1.0 히스토그램(Histogram) 도수분포표를 이..