빅데이터 탐색 - 통계기법 이해 - 기술 통계, 표본 추출

반응형

 

데이터 요약

  • 데이터의 분포가 가지는 특성을 찾아 본격적인 분석 이전에 기본적인 특징을 수치적으로 정량화하여 기술
  • 주로 기초 통계량(=기술 통계을 산출하여 결과 도출

기술 통계(Descriptive Statistics)

  • 분석에 필요한 데이터를 요약하여 묘사/설명하는 통계기법
  • 분석 전 데이터의 특성을 찾아 그 특성의 정량화를 통해 체계적 요약 필요

기술통계의 종류

  • 중심화 경향(Central Tendency)
    • 관찰 또는 수집 데이터의 물리적 상대적 위치에 대한 정리 요약
  • 분산도 경향(Degree of Dispersion)
    • 데이터들이 흩어진 정도에 대한 기술 및 요약
  • 자료의 분포 형태(Shape of Distribution, Skewness)
    • 자료의 분포가 대칭인지 치우쳐 있는지에 대한 기술 및 요약

표본추출

표본추출의 개념

  •  모집단(Population)
    • 연구/실험의 결과가 일반화된 큰 집단, 정보를 얻고자 하는 관심 대상의 전체 집합으로 정의
    • 우리가 무엇을 알려고하느냐에 따라 다르게 정의되기 때문에 모집단을 명확하게 정의
  • 표본(Sample)
    • 여러 자료를 포함하는 모집단 속에서 그 일부를 끄집어 내어 조사한 결과
    • 원래 집단의 성질을 추측할 수 있는 자료로 정의
  • 표본추출(Sampling)
    • 모집단으로부터 표본을 선택하는 행위(과정)

전수조사와 표본조사

  • 전수조사
    • 관심의 대상이 되는 모집단 전체를 대상으로 조사하는 것
    • 정확한 결과를 도출할 수 있으나 비용문제 등의 제약사항 존재
    • 즉, 인력(manpower)과 예산(budget)이 비교적 많이 소요
      • 예) 인구조사 등
      • 현실적으로 집단 내 모든 단위를 조사하는 것은 불가능한 경우가 많음
      • 때문에 대부분의 통계조사는 표본조사에 의해 이루어짐
  • 표본조사
    • 관심의 대상이 되는 모집단에서 표본을 추출하여 표본을 대상으로 조사를 시행하는 것
      1. 모집단의 일부가 전체를 대표할 수 있다는 근거 확인
      2. 근거가 명확하면 일부의 표본으로 조사분석 시행
      3. 모집단 전체의 분석결과로 사용 가능
    • 표본조사의 특징
      • 전수조사에 비해 비용 절감
      • 조사결과의 신속성
      • 조사규모가 크지 않기 때문에 심도 있는 조사 가능
      • 관리가 비교적 잘 되어 정확성 높음

표본추출 오차(Sampling Bias, Sampling Error)

  • 표본을 이용하여 모집단 특성을 추정함으로써 발생하는 모집단과 표본의 오차 범위
  • 표본에서 선택된 대상이 모집단의 특성을 과잉 대표하거나 최소 대표할 때 발생
  • 과잉 대표 : 중복선택 등의 원인으로 모집단이 반복/중복된 데이터만으로 규정되는 현상
  • 최소 대표 : 실제모집단의 대표성을 나타낼 표본이 아닌 다른 데이터가 표본이 되는 현상
  • 표본추출 시 표본의 크기보다 대표성을 가지는 표본을 추출하는 것이 중요

확률 표본추출 기법

  • 모집단에 속하는 모든 추출단위에 대해 사전에 일정한 추출확률이 주어지는 표본 추출법
  • 확률 표본추출 기법의 특징
    • 모든 표본들의 추출확률 사전 확인
    • 표본자료로부터 얻어지는 추정량의 통계적 정확도를 확률로 표시

단순무작위 추출(Simple Random Sampling)

  • 통계조사에서 가장 기본이 되는 표본추출법
  • 모집단으로부터 무작위 추출하고 독립적 선택으로 펀향성을 제거하여 난수를 이용하는 것
  • 모집단내의 조사단위수를 파악한 다음 원하는 표본수만큼 난수를 발생시키고 그 수에 해당되는 조사단위를 표본으로 선택하는 방법
  • 추출 모집단에 대해 사전지식이 많지 않은 경우 시행하는 방법

계통추출(Systematic Sampling)

  • 모집단에서 추출간격을 설정하여 간격 사이에서 무작위로 추출하는 방법

<계통추출의 예시, 출처 qualtrics>

층화추출(Stratified Sampling)

  • 모집단을 서로 겹치지 않게 여러 층으로 나누어 분할된 층별로 배정된 표본을 단순 임의 추출법에 따라 추출하는 방법
  • 층화추출의 필요성
    • 각 집단별 분석이 필요한 분석의 경우
    • 모집단 전체의 대한 특성치의 효율적 추론이 필요한 경우
    • 예) 모집단의 남녀 성비가 3:2이면 표본의 성비도 3:2가 되도록 뽑는 경우
  • 층화추출의 특징
    • 단순임의추출법에 비해 추정의 정도 상승
    • 전체 모집단에 대한 추정뿐 아니라 각 층별 추정결과 도출
    • 모집단을 효과적으로 층화할 경우 임의표본에서 구한 추정량보다 오차가 적게 되어 추정의 정도 상승
    • 표본의 대표성 제고
    • 조사관리의 편리, 조사비용 절감
  • 층화변수(Stratification Variable)
    • 모집단을 몇 개의 층으로 나누려고 할 때 각 추출단위가 어느 층에 속하는지를 구분하기 위해 기준으로 사용되는 변수
    • 사전에 모집단 단위들의 정보를 쉽게 알 수 있으면서도 조사하고자 하는 주변수가 밀접한 관련이 있는 보조 변수가 되어야 함
    • 질적 층화변수 : 변수값에 따라 층 구분
    • 양적 층화변수 : 층의 경계점을 나누는 방법 필요
    • 층화변수가 양적 변수인 경우 층의 최적 경계점
      • 모집단을 n개의 층으로으로 나누려면 n-1개의 경계점을 결정해야 함
      • 추정값의 분산을 최소화시킬 수 있도록 경계점 결정
    • 예) 여론조사에서 층화변수 선택시 성별, 지역, 연령, 학력등을 기준으로 할 수 있음

표본의 배분

  • 각 층 내의 추출단위들의 수 : 많으면 크게 늘림
  • 각 층 내에서 변동의 정도 : 변동의 정도가 커지면 크게 늘림
  • 각 층에서 추출단위를 조사하는데 드는 비용 : 비용증가 시 줄임
  • 표본 배분의 방법 예시
    • 비례배분법
      • 각 층 내의 추출단위 수에 비례하여 표본 크기를 배분하는 방법
      • 예) 여론조사를 위해 한지역의 유권자의 성비에 맞춰 추출 표본의 성비도 같은 수준으로 추출
    • 네이만배분법
      • 각 층의 크기와 층별 변동의 정도를 동시에 고려한 표본배정 방법
      • 변동이 큰 층에 대해서는 상대적으로 많은 표본 배정
    • 최적배분법
      • 추정량의 분산을 최소화 시키거나 주어진 분산의 범위 하에서 비용을 최소화 시키는 방법

군집추출(Cluster Sampling)

  • 모집단을 차이가 없는 여러 개 군집으로 나누어 군집의 단위의 일부또는 전체에 대한 분석 시행
  • 모집단에 대한 구체적인 추출 방법론을 정하기 어려운 경우 사용하면 편리
  • 표본크기가 같은 경우 단순 임의추출에 비해 표본 오차가 증대할 가능성 존재

비확률 표본추출 기법

  • 각 추출단위들이 표본에 추출될 확률을 객관적으로 나타낼 수 없는 표본추출법
  • 비확률 표본추출 기법의 필요성
    • 모집단을 정확하게 규정지을 수 없는 경우
    • 표본오차가 큰 문제가 되지 않는 경우
    • 본 조사에 앞서서 진행되는 새로운 개념에 대한 탐색적 연구가 필요한 경우
    • 비용, 시간, 조사의 편리함

간편추출법(편의추출법, Convenience Sampling)

  • 응답자를 선정하는 데 있어서 조사원 개인의 자의적인 판단에 따라 간편한 방법으로 표본을 추출하는 방법
  • 얻어진 표본이 목표모집단을 얼마나 잘 대표하는지 알 수 없음
  • 얻어진 통계치에 대한 통계적 정확성 평가 불가
    • 예) 어떤 특정장소를 지나가는 사람들을 대상으로 여론조사를 하는 경우

판단추출법(Judgement Sampling)

  • 조사자가 나름의 지식과 경험에 의해 모집단을 가장 잘 대표한다고 여겨지는 표본을 주관적으로 선정하는 방법
  • 표본을 통해 얻은 추정치의 정확성에 대해 객관적으로 평가 불가
  • 표본의 크기가 작은 경우 조사의 오차를 좌우하는 요인의 추정량의 분산 될 수 있음
    • 예) 어느 교육연구소의 연구원이 전체 학생들의 평균성적을 알아보기 위해 전체 학생들의 성적을 대표한다고 생각되는 몇 학교를 나름대로 선택하는 경우

할당추출법(Quota Sampling)

  • 조사목적과 밀접하게 관련되어 있는 조사대상자의 연령이나 성별과 같은 변수값에 따라 모집단을 부분집단으로 구분
  • 모집단의 부분집단별 구성비율과 표본의 부분집단별 구성비율이 유사하도록 표본 선정
  • 비용이 적게 들고 손쉽기 때문에 단기간에 조사해야하는 경우 사용
    • 예) 어느 대학에서 학생 서비스 만족도를 조사한다면 기존의 자료에 의거하여 각 학과별, 학년별, 성별 구성비율을 알아보고 그 비율에 따라 표본을 학과별, 학년별, 성별로 할당

눈덩이추출법(snowball Sampling)

  • 접근이 어렵거나 추출틀 작성이 곤란한 특정한 집단에 대한 조사에서 사용
  • 해당 집단에 속하는 것을 사전에 알 고 있는 사람들을 우선 대상
  • 해당 집단에 속하는 다른 사람들을 소개받아 조사를 진행
    • 예) 폭력조직원들의 약물사용 실태 조사를 할 경우

참고

 

반응형