빅데이터 모델링 - 통계기법 이해 - 확률분포 - 연속확률분포의 종류

반응형

 

연속균등분포(Continuous Uniform Distribution)

  • 연속확률분포로, 분포가 특정 범위 내에서 균등하게 나타나 있는 경우를 지칭
    • 연속확률분포 : 확률변수가 취할 수 있는 값의 수가 무한한 확률분포
  • 두 개의 매개변수 a, b를 받으며, 이 때 [a,b] 범위에서 균등한 확률을 가짐
  • 보통 기호로 U(a,b)로 표시

<확률밀도함수, 출처 위키백화>

  • 예시) 어떤 마을버스는 정류장에서 정확히 5분 간격으로 출발한다. 한 학생이 정류장에 임의로 도착하여 버스가 발차할 때까지 기다리는 평균 시간과 3분 이상 기다릴 확률을 구하라.
    • X : 학생이 도착한 시간


지수분포(Exponential Distribution)

  • 사건이 서로 독립적일 때, 일정 시간 동안 발생하는 사건의 횟수가 포아송분포를 따른다면, 다음 사건이 일어날 때까지의 대기시간(b)에 대한 확률이 따르는 분포
  • 즉, 포아송과정에서 한 개의 사건이 발생할 때까지의 대기 시간을 의미

* 포아송은 평균과 분산이 동일하다.

  • 예시) 확률변수 X가 소방서에 화재신고 등 구조요청이 걸려오는데 기다리는 시간이라 하고 평균적으로 전화오는데 걸리는 시간이 20분일 경우

  • 분포의 특징
    • 포아송분포와의 관계
      • 포아송분포 : 단위 시간당 발생하는 사건의 횟수를 관측
      • 지수분포 : 사건이 일어날 때까지의 대기 시간을 관측
      • 즉, 지수분포는 대기시간, 포아송분포는 횟수
    • 지수분포의 무기억성질(Memoryless Property)
      • 예를 들어, 300시간(s) 이상 수명이 지속된 부품의 수명이 추가적으로 100시간(t) 이상을 더 지속할 확률은, 지금까지 살아온 시간을 무시하고(Memoryless), 새 부품이 처음부터 400시간 이상 수명을 지속할 확률과 동일하다는 것
      • 위의 경우 부품의 수명분포의 모형으로(무기억성을 만족하는) 지수분포가 사용될 수 있음
      • 지수분포는 무기억 성질을 가지는 유일한 연속형확률분포


정규분포(Normal Distribution)

  • 표본을 통한 통계적 추정 및 가설검정이론의 핵심
  • 실제로 우리가 사회적, 자연적 현상에서 접하는 여러 자료들의 분포가 정규분포를 띰

  • 정규분포의 특징
    • 평균을 중심으로 대칭이며 종모양(bell-shaped)인 확률밀도함수의 그래프를 가짐
    • 모양과 위치는 평균과 표준편차에 의해 완전히 결정된다
    • 분포의 평균과 표준편차가 어떤 값을 갖더라도, 정규곡선과 X축 사이의 전체 면적은 1이다
    • 정규분포를 가지는 확률변수, 즉 정규확률변수는 평균 주위의 값을 많이 취하며 평균으로부터 좌우로 표준편차의 3배 이상 떨어진 값은 거의 취하지 않는다
    • 정규분포곡선은 X축에 맞닿지 않으므로 확률변수 X가 취할 수 있는 값의 범위는 -∞ < X < +∞ 이다

<정규분포 그래프 예시, 적색: 정규 분포 곡선, 청색: 누적 분포 곡선, 출처 나무위키>


표준정규분포(Standard Normal Distribution)

  • 모든 정규확률변수를 적당한 변환을 취하여 수많은 가능한 정규분포에 모두 적용할 수 있는 표준정규분포를 이용하여 분포의 모양을 통일한 다음, 확률을 계산하는 방법
    • 정규확률변수가 어떤 범위의 값을 취할 확률을 계산할 때 매번 확률밀도함수 그래프의 밑부분에서 그 범위에 해당하는 넓이를 구하는 일은 매우 번거로우며, 정규분포의 위치는 평균과 표준편차에 따라 달라지게 됨
  • 표준정규분포는 평균 μ=0, 표준편차 σ=1이 되도록 한 정규분포
  • 정규화 : 어떤 관측치 X의 값이 그 분포의 평균에서 표준편차 대비 얼마나 떨어져 있는지를 표준화된 정규분포 변환식에 의해 확인

  • 표준정규분포표에 의해서 해당 확률변수의 확률값 계산 가능
  • 예시) 어느 과목 수강생들의 점수는 평균이 80, 분산이 100인 정규분포를 보인다고 한다. 총 100명의 수강생중에서 어떤 학생이 80점에서 85점 사이의 점수를 받았을 확률은 얼마인가? 그리고 82점 이하를 받을 학생은 몇 명인가?


감마분포(Gamma Distribution)

  • 연속확률분포로, 두 개의 매개변수를 받으며 양의 실수를 가질 수 있음
  • 지수분포나 포아송분포 등의 매개변수와 연관이 있는 분포
  • 포아송과정에서 k개의 사건이 발생할 때까지의 대기시간으로 확률변수 X를 정의
  • 감마 함수 : 팩토리얼을 실수 영역으로 확장한 것
  • 확률밀도함수 (감마함수를 써서 표현)

  • 감마분포의 특징
    • 다음 조건을 만족하면 지수분포가 되거나, 카이제곱분포가 됨
      • 카이제곱분포의 v는 자유도를 의미


참고

 

반응형