320x100
반응형
320x100
반응형
베르누이 분포(Bernoulli Distribution) 결과가 성공 아니면 실패, 두가지로 귀결되어 나오는 이산확률분포 이항분포(Binomial Distribution) 베르누이 시행을 n번 독립적으로 시행할 때 성공횟수를 X로 정의한 이산확률분포 p : 성공확률 q : 실패확률 = 1-p 예) 동전을 3번 던졌을 때 앞면이 나오는 횟수를 X라고 할 때 앞면이 두번 나올 확률? 확률은 3/8 기댓값은 np, 즉 3 * 1/2 = 3/2 분산은 npq, 즉 3 * 1/2 * 1/2 = 3/4 다항분포(Multinomial Distribution) 여러 개의 값을 가질 수 있는 독립 확률변수들에 대한 확률분포 여러 번의 독립적 시행에서 각각의 값이 특정 횟수가 나타날 확률을 정의하는 분포 예) 어느 공항의..
확률변수(Random Variable) 확률변수의 개념 사건의 시행의 결과(확률)를 하나의 수치로 대응시킬 때의 값(확률) 일반적으로 대문자 X로 표기 예) 동전 두 개를 던져 앞면이 나오는 횟수를 확률변수 X라고 가정 4가지의 경우 발생 { (뒤,뒤), (앞,뒤), (뒤,앞), (앞,앞) } 확률변수 X의 값 X(뒤,뒤) = 0 X(앞,뒤) = 1 X(뒤,앞) = 1 X(앞,앞) = 2 { 0,1,2 } 총 3가지 확률변수 X가 특정한 값 x를 가질 때 그에 대한 확률 P(X=x)로 표기 앞면이 2개 나올 확률 P(X=2) 확률변수의 종류 이산확률변수(Discrete Random Variable) 확률변수가 취할 수 있는 값의 수가 유한한 변수 확률변수 X가 X={0,1,2,3} 같이 셀 수 있는 값을..
통계학의 개념 통계학 불확실한 상황에서 불확실성을 감소시키고 현명한 의사결정을 하기 위한 이론과 방법의 체계 수치화된 자료의 수집, 분류, 분석과 해석의 체계를 갖춘 학문 기술통계 분석에 필요한 데이터를 요약하고 묘사/설명하는 통계기법 추측(추론)통계 표본에 내포되어 있는 정보를 이용하여 모집단에 대한 과학적인 추론을 하는 통계기법 확률과 확률분포 모집단에 대한 추측 및 추론이 얼마나 정확한지에 대한 논리적 타당성을 제시하는 도구 확률의 개념 통계적 현상 고유의 법칙성을 찾아내는 것이 가능한 현상을 지칭 불확정 현상을 반복하여 관찰 집단 안에서 대량으로 관찰 확률 실험 같은 조건 아래에서 반복 시행 시행의 결과는 매번 우연적으로 변하므로 예측할 수 없음 그러나 가능한 모든 결과의 집합을 알 수 있음 반복..
비정형 데이터 비정형 데이터란? 미리 정의된 데이터 모델이 없거나 미리 정의된 방식으로 정리되지 않은 정보 = 비구조화 데이터(Unstructured Data), 비구조적 데이터(Unstructured Information) 비정형 데이터의 특징 일반적으로 텍스트 중심으로 되어 있으며 날짜, 숫자, 사실과 같은 데이터 포함 변칙과 모호함이 발생하므로 데이터베이스의 칸 형식의 폼에 저장 문서에 주석화된(의미적으로 태그된) 데이터에 비해 전통적인 프로그램을 사용하여 이해하는 것을 불가능하게 만듬 데이터의 형태와 데이터 수집 간의 관계 정형 데이터(Structured Data) 내부 시스템인 경우가 대부분이라 수집이 쉬움 파일 형태의 스프레드시트라도 내부에 형식을 가지고 있어 처리가 쉬움 반정형 데이터(Sem..
다변량 데이터 탐색의 개념 기본적으로 변수들 간 인과관계의 규명과 분석을 하는 것 변수들 간의 상관관계를 이용하여 변수를 축약하거나 개체들을 분류 관련된 분석 방법등을 동원하여 데이터 분석을 하는 것 종속변수와 독립변수 사이의 인과 관계 다중 회귀(Multiple Regression) 독립변수가 2개 이상인 회귀 모형 각 독립변수는 종속변수와 선형관계에 있음을 가정 다중 회귀의 장점 변수를 추가하여 분석 내용의 직절 향상 도모 (단순 회귀 분석의 단점 극복) 종속변수를 설명하는 독립변수가 두개 일 때 편이(bias) 제거 일반 형식 종속변수 Y에 대해 X의 독립변수 k개가 존재하여 종속변수를 설명 기본 가정 선형성 : 회귀 모델은 모수에 대해 선형인 모델 등분산성 : 오차항의 분산은 모든 관찰치에 대해 ..
시공간 데이터 탐색의 개념 공간적 정보(데이터)에 시간의 흐름(이력정보 등)이 결합된 다차원 데이터를 다루는 것을 지칭 시간 데이터 어느 한 시점에 대한 스냅샷 정보 유효시간 : 데이터가 발생하거나 소멸된 시간 거래 시간 : 관리 시스템을 통해 처리된 시간 사용자 정의 시간 : 유효 시간이나 거래 시간이 없는 경우 사용자가 정의 스냅샷 데이터 : 시간 개념이 필요하지 않아 거래, 유효시간 미지원 거래 시간 데이터, 유효 시간 데이터 : 각각 거래, 유효시간만 지원 이원 시간 데이터 : 둘다 지원 공간 데이터 기존 데이터베이스보다 복잡하고 다양한 유형의 값을 가짐 효율적으로 관리, 저장, 이용하는데 초점을 맞춤 비공간 타입 : 기본적인 데이터 유형을 가진 속성 래스터 공간 타입 : 실세계에 존재하는 객체의..