빅데이터 탐색 - 통계기법 이해 - 확률분포 - 확률

반응형

 

통계학의 개념

  • 통계학
    • 불확실한 상황에서 불확실성을 감소시키고 현명한 의사결정을 하기 위한 이론과 방법의 체계
    • 수치화된 자료의 수집, 분류, 분석과 해석의 체계를 갖춘 학문
  • 기술통계
    • 분석에 필요한 데이터를 요약하고 묘사/설명하는 통계기법
  • 추측(추론)통계
    • 표본에 내포되어 있는 정보를 이용하여 모집단에 대한 과학적인 추론을 하는 통계기법
  • 확률과 확률분포
    • 모집단에 대한 추측 및 추론이 얼마나 정확한지에 대한 논리적 타당성을 제시하는 도구

확률의 개념

  • 통계적 현상
    • 고유의 법칙성을 찾아내는 것이 가능한 현상을 지칭
      • 불확정 현상을 반복하여 관찰
      • 집단 안에서 대량으로 관찰
  • 확률 실험
    • 같은 조건 아래에서 반복 시행
    • 시행의 결과는 매번 우연적으로 변하므로 예측할 수 없음
      • 그러나 가능한 모든 결과의 집합을 알 수 있음
    • 반복할 때 낱낱의 결과는 불규칙하게 나타남
      • 반복의 수를 늘리면 어떤 규칙성이 나타나는지 특징을 가질 수 있음

확률

  • 통계적 현상의 확실함의 정도를 나타내는 척도
  • 랜덤 시행에서 어떠한 사건이 일어날 정도를 나타내는 사건에 할당된 수

수학적 확률(Mathematical Probability)

  • 표본공간 S의 각 사건이 일어날 가능성이 동등 할 때, 사건 A에 대하여 n(A)/n(S)를 사건 A의 수학적 확률이라고 함
    • n(A) : 사건 A가 일어날 경우의 수
    • n(S) : 전체 사건에 대한 경우의 수

  • 즉, 간단히 표현한 수식은 다음과 같음

  • 예) 주사위를 던질때 1이 나올 확률은 1/6
    • n(A) : 1이 나올 경우의 수
    • n(S) : 전체 사건(총 6의 수)에 대한 경우의 수

통계적 확률(Statistical Probability)

  • 사건이 일어나는 확률을 상대도수에 의해 추정
  • n회의 시행에서 문제의 사건이 r회 일어났다고 하면 상대도수는 r/n으로 정의

  • 예) 출생한 남자 500명이 30세에 생존자 수가 440명일 경우의 살아 있을 확률은?
    • 440/500 = 88%, 통계적으로 0세부터 30세까지의 생존률은 88%

사건(Event)

  • 시행 : 동일한 상태로 여러 차례 반복할 수 있는 실험이나 관측
  • 사건 : 시행의 결과로서 나타나는 것
    • 사건은 개별적으로 발생할 결과일 수도 있고, 몇 가지의 복합된 결과의 집합일 수도 있음
    • 어떤 사건의 확률은 그 사건에 포함되어 있는 각 결과의 발생 확률의 합으로 표현
  • 예) 두 개의 동전을 던졌을 때, 하나만 앞면만 나올 사건의 확률은?
    • [앞,뒤]가 나올 사건의 확률(1/4)
    • [뒤,앞]이 나올 사건의 확률(1/4)
    • 합(2/4) = 1/2 

표본공간(Sample Space)

  • 통계적 실험에서 모든 발생 가능한 실험결과들의 집합을 의미
    • 전사건 : 표본공간 자체
    • 공사건 : 아무것도 포함되지 않은 사건
    • 근원사건 : 하나의 결과를 포함하는 사건
  • 표본공간이 S인 확률 실험에서 사건은 S의 부분집합
  • 예) 두 개의 동전을 던졌을 때, 표본공간 S의 정의
    • S = { (앞,앞), (앞,뒤), (뒤,앞), (뒤,뒤) }
    • 이때, 앞면이 적어도 한 번 나오는 사건 A의 정의
    • A = { (앞,앞), (앞,뒤), (뒤,앞) }

확률의 기본성질

  • 어떤 사건 A가 발생할 확률은 항상 0이상이다.
    • 모든 사건의 확률은 0에서 1사이에 있다.
    • 존재하지 않는 사건이 일어날 확률은 0이다.
  • 표본공간 S 사건이 발생할 확률은 1이다.
    • 모든 가능한 사건의 확률의 합은 1이다.
  • 서로 배반사건인 경우(Ai ∩ Aj = ∅)는 각 사건의 발생 확률을 더한다.
    • 배반사건 : 한쪽이 일어나면 다른 쪽이 일어나지 않을 때의 두 사건
  • 여사건의 확률은 1에서 해당 사건의 확률을 뺀 값과 같다.
    • 여사건은 발생하지 않을 사건을 말한다.
  • Ai가 Aj의 부분집합이면 Ai가 발생할 확률은 Aj가 발생할 확률보다 작거나 같다.

조건부 확률

  • 사건 B가 일어났다는 조건하에서 다른 사건 A가 일어날 확률

<B 사건 하에 A가 일어날 조건부 확률 예시>

  • 비슷하게 사건 A가 일어났다는 조건하에서 다른 사건 B가 일어날 확률

  • 예) 주사위를 던져서 2의 눈이 나올 확률과 짝수라는 조건하에서의 확률
    • 표본공간 : { 1,2,3,4,5,6 }
    • 2의 눈이 나올 확률: { 2 }, 1/6
    • 짝수가 나올 확률 : { 2,4,6 }, 1/3


결합 확률(확률의 곱셈)

  • 사건 A와 B가 동시에 발생하는 확률, 이를 확률의 곱셈 법칙이라고 지칭

  • 예) 어떤 회사가 제작하는 기계가 1년내 고장 가능성이 20%이고, 2대의 기계를 구입할 때, 1년 내에 두 기계가 모두 고장날 확률과 정확히 한 기계만 고장날 확률은?
    • 모두 고장날 확률
      • 두 사건은 서로 독립이므로 P(A)=0.2, P(B)=0.2
      • P(A∩B) = P(A) * P(B) = 0.2 * 0.2 = 0.04
      • 모두 고장날 확률 4%
    • 정확히 한 기계만 고장날 확률
      • P(A여사건 ∩ B) + P(A ∩ B여사건)
      • = P(A여사건) * P(B)  +  P(A) * P(B여사건)
      • = 0.8 * 0.2  +  0.2 * 0.8 = 0.32
      • 정확히 한 기계만 고장날 확률 32%

총확률정리(Total Probability Rule)

  • 임의의 사건 B의 확률을 k개의 조건부 확률을 이용해서 구하는 것
  • 임의의 사건 P(B)는 다음과 같이 표현 가능


베이지안 정리(베이즈 정리, Baye's Theorem)

  • 총확률정리를 이용하여 임의의 사건 B의 확률을 k개의 조건부 확률을 이용해 계산
  • 베이지안 법칙을 이용하여 표본공간을 분할하는 k개의 상호 배타적인 사건 Ai에 대한 사후확률을 구할 수 있음
    • 사전 확률 : P(Ai), 미리 주어진 사건 A가 발생할 확률
    • 사후 확률 : 사건 B라는 새로운 사건 발생시 P(Ai | B)의 확률
  • 사전에 어떤 사건 A에 대한 사전확률이 부여된 상태에서 어떤 사건 B에 관한 정보가 알려진 후, 그 사건 A에 대한 사후확률은 다음과 같이 정리 가능

  • 예) 직장 남성의 30%는 지나친 흡연으로 기관지 이상이 있다고 알려져 있다. 실제 기관지 검사를 했을 때, 검사 결과 90%가 이상이 있고, 기관지에 이상이 없는 경우에도 이상반응이 나타날 수 있는 확률이 10%, 임의의 직장 남성이 기관지 검사를 하였을 때 이상반응이 나타났지만 실제로 이상이 없을 확률은?
    • P(A1) = 0.3, P(A2) = 0.7
      • A1 : 기관지에 이상이 있을 사건, 30%
      • A2 : 기관지에 이상이 없을 사건, 70%
    • P(B|A1) = 0.9, P(B|A2) = 0.1
      • B : 검사결과 이상반응이 나타날 사건, 10%
    • 0.9 * 0.3  +  0.1 * 0.7 = 0.34
      • 0.9 * 0.3 : 기관지 이상이 있고, 검사 결과 이상이 있는 경우
      • 0.1 * 0.7 : 기관지 이상이 없고, 검사 결과 이상이 있는 경우
    • 임의의 직장 남성이 기관지 검사를 하였을 때 이상을 보일 확률 34%
    • 0.07 / 0.34 = 0.2058..., 20.56%
    • 검사결과 이상이 있는것으로 나타난 사람에게 실제로 기관지에 이상이 없을 사후 확률은 20.6%

참고

 

 

 

 

반응형