SQL - 카디널리티(Cardinality)의 이해, 개념

 

카디널리티란? (Cardinality)

  • 데이터베이스 테이블의 특정 열(속성)에 포함된 데이터 값의 고유성을 의미
  • 즉, 데이터베이스의 테이블에 있는 컬럼의 고유 값의 수를 의미

카디널리티 값

  • 값이 높을수록 중복 요소가 적고, 값이 낮을수록 중복 요소가 많음

높은 카디널리티 (High Cardinality)

  • 카디널리티의 값이 높음
  • 고유한 값을 가진 데이터가 많음
  • 즉, 특정 열에서 중복되는 값이 거의 없는 경우를 나타냄
  • 예시) 이메일 주소, 사용자 아이디, 고유 식별 번호 등

중간 카디널리티 (Medium Cardinality)

  • 낮은 카디널리티와 높은 카디널리티의 중간 수준의 고유값을 가진 데이터가 많음
  • 즉, 중복값은 있지만 완전히 중복되지 않은 경우 중간 카디널리티를 가짐
  • 예시) 지역 코드, 제품 카테고리 등

낮은 카디널리티 (Low Cardinality)

  • 카디널리티의 값이 낮음
  • 고유한 값을 가진 데이터가 적음
  • 값이 낮아질수록 동일한 값을 가진 열이 많아짐
  • 즉, 특정 열에서 중복되는 값이 많은 경우를 나타냄
  • 예시) 성별, 예/아니오의 불린(Boolean) 값 등

 

+ 이해가 잘 되지 않는다면...

카디널리티와 중복요소는 반비례한다고 외우는게 속 편한 것 같다.