빅데이터 - 분석 기획 - 데이터 수집 및 저장 계획 - 데이터 비식별화

반응형

 

비식별화란?

  • 개인정보 비식별화는 개인정보를 식별할 수 있는 값들을 몇가지 정해진 규칙으로 대체하거나 사람의 판단에 따라 가공하여 개인을 알아볼 수 없도록 하는 조치
  • 정보주체를 알아볼 수 없도록 비식별 조치를 적정하게 한 비식별 정보는 개인정보가 아닌 것으로 추정되며, 빅데이터 분석 등에 활용 가능

식별자(Identifier)

  • 개인 또는 개인과 관련된 사물에 고유하게 부여된 값 또는 이름
  • 데이터셋에 포함된 식별자는 원칙적으로 삭제조치
  • 데이터 이용 목적상 필요한 식별자는 비식별 조치 후 활용
식별자에 해당하는 사항
- 고유식별정보(주민등록번호, 여권번호, 외국인등록번호, 운전면허번호)
- 성명(한자/영문 성명, 필명 등 포함)
- 상세 주소(구 단위 미만까지 포함된 주소)
- 날짜정보(생일 양/음력, 기념일(결혼, 돌, 환갑 등), 자격증 취득일 등
- 전화번호 (휴대전화번호, 집전화, 회사전화, 팩스번호)
- 의료기록번호, 건강보험번호, 복지 수급자 번호
- 통장계좌번호, 신용카드번호
- 각종 자격증 및 면허 번호
- 자동차 번호, 각종 기기의 등록번호&일련번호
- 사진(정지사진, 동영상, CCTV 영상)
- 신체 식별정보(지문, 음성, 홍채 등)
- 이메일 주소, IP 주소, Mac 주소, 홈페이지 URL 등
- 식별코드(아이디, 사원번호, 고객번호 등)
- 기타 유일 식별번호(군번, 개인사업자의 사업자 등록번호 등)

속성자(Attribute value)

  • 개인과 관련된 정보로 다른 정보와 쉽게 결합하는 경우 특정 개인을 알아볼 수도 있는 정보
  • 데이터셋에 포함된 속성자는 관련이 없는 경우 원칙적으로 삭제조치
  • 데이터 이용 목적과 관련이 있을 경우 가명처리, 총계처리, 등의 기법을 활용하여 비식별화 조치

속성자 예시

특성 분류 속성자의 예
개인 특성 - 성별, 연령(나이), 국적, 고향, 시/군/구명, 우편번호, 병역, 결혼, 종교, 동호회/클럽 등
- 흡연, 음주, 채식, 관심사항 등
신체 특성 - 혈액형, 신장, 몸무게, 허리둘레, 혈압, 눈동자 색깔 등
- 신체검사 결과, 장애유형, 장애등급 등
- 병명, 상병코드, 투약코드, 진료내역 등
신용 특성 - 세급 납부액, 신용등급, 기부금 등
- 건강보험료 납부액, 소득분위, 의료 급여자 등
경력 특성 - 학교명, 학과명, 학년, 성적, 학력 등
- 경력, 직업, 직종, 직장명, 부서명, 진급, 전직장명 등
전자적 특성 - 쿠키정보, 접속일시, 방문일시, 서비스 이용 기록, 접속로그 등
- 인터넷 접속기록, 휴대전화 사용기록, GPS 데이터 등
가족 특성 배우자/자녀/부모/형제 등 가족 정보, 법정대리인 정보 등

개인정보 해당 여부 판단 기준

  • 개인정보 보호법 등 관련 법률에서 규정하고 있는 개인정보의 개념
    • 살아 있는 자의 정보
    • 개인에 관한 정보
    • 정보 (종류의 형태, 성격, 형식 등에 관하여는 특별한 제한 없음)
    • 개인을 알아볼 수 있는 정보
    • 다른 정보와 쉽게 결합하여 알아볼 수 있는 정보
  • 해당하지 않는 경우
    1. 살아 있는 자의 정보 : 사망한 자, 자연인이 아닌 법인, 단체 또는 사물 등에 관한 정보
    2. 개인에 관한 정보 : 여럿이 모여서 이룬 집단의 통계값 등
    3. 개인을 알아볼 수 있는 정보 : 정보를 처리하는 자의 입장에서 개인을 알아볼 수 없는 정보
    4. 다른 정보와 쉽게 결합하여 알아볼 수 있는 정보 : 합법적으로 정보를 수집할 수 없거나 결합을 위해 불합리한 정도의 시간, 비용 등이 필요한 정보

비식별 조치 방법

  • 가명처리, 총계처리, 데이터 삭제, 데이터 범주화, 데이터 마스킹 등 여러가지 기법을 단독 또는 복합적으로 활용
    • '가명처리' 기법만 단독 활용된 경우 충분한 비식별 조치로 보기 어려움
  • 데이터 이용 목적과 기법별 장/단점 등을 고려하여 적절한 기법/세부기술 선택/활용
처리기법 설명 및 예시 세부기술
가명처리
(Pseudonymization)
- 개인정보 중 주요 식별요소를 다른 값으로 대체하는 방법
- 값을 대체 시 규칙이 노출되어 역으로 쉽게 식별할 수 없도록 주의
예) 홍길동, 35세, 서울 거주, 한국대 재학
>> 임꺽정, 30대, 서울 거주, 국제대 재학
- 휴리스틱 가명화
- 암호화
- 교환 방법
총계처리
(Aggregation)
- 데이터의 총합 값을 보여주고 개별 값을 보여주지 않는 방법
- 특정 속성을 지닌 개인으로 구성된 단체의 속성 정보를 공개하는 것은 그 집단에 속한 개인의 정보를 공개하는 것과 마찬가지이므로 주의
예) 임꺽정 180cm, 홍길동 170cm
>> 물리학과 학생 키 합 : 350cm, 평균키 175cm
- 총계처리
- 부분총계
- 라운딩
- 재배열
데이터 삭제
(Data Reduction)
- 데이터 공유나 개방 목적에 따라 데이터 셋에 구성된 값 중 필요 없는 값 또는 개인식별에 중요한 값을 삭제하는 방법
예) 주민등록번호 900123-1234567
>> 90년대 생, 남자
- 식별자 삭제
- 식별자 부분삭제
- 레코드 삭제
- 식별요소 전부삭제
데이터 범주화
(Data Suppression)
- 데이터의 값을 범주의 값으로 변환하여 값을 숨기는 방법
예) 홍길동, 35세
>> 홍씨, 30~40세
- 감추기
- 랜덤 라운딩
- 범위 방법
- 제어 라운딩
데이터 마스킹
(Data masking)
- 개인을 식별하는데 기여할 확률이 높은 주요 식별자를 보이지 않도록 처리하는 방법
- 남아 있는 정보만으로 개인을 식별할 수 없어야 하며, 공개된 다른 정보와 결합하더라도 특정 개인을 식별할 수 없도록 주의
예) 홍길동, 35세, 서울 거주, 한국대 재학
>> 홍ㅇㅇ, 35세, 서울 거주, ㅇㅇ대 재학
- 임의 잡음 추가
- 공백과 대체

* 라운딩 : 반올림, 올림, 내림 등 숫자의 자리수를 정리하는 것


가명처리(Pseudonymization)

  • 장점 :데이터의 변형 또는 변질 수준이 적음
  • 단점 : 대체 값 부여 시에도 식별 가능한 고유 속성 유지

휴리스틱 가명화(Heuristic Pseudonymization)

  • 몇 가지 정해진 규칙 혹은 사람의 판단에 따라 가공하여 자세한 개인정보를 숨기는 방법
  • 모든 데이터를 동일한 방법으로 가공하기 때문에 사용자가 쉽게 이해하고 활용 가능
  • 고려사항
    • 활용할 수 있는 대체 변수에 한계 존재
    • 일정한 규칙이 노출되는 취약점 존재
  • 적용정보
    • 성명, 사용자ID, 소속(직장명), 기관번호, 주소, 신용등급, 휴대전화번호, 우편번호, 이메일 주소 등
    • 예) 회사 이름을 화성, 금성 등으로 대체

암호화(Encryption)

  • 일정한 규칙의 알고리즘 적용하여 암호화
  • 복호화 키를 가지고 있어 다시 복호 가능
  • 일방향 암호화 사용시 이론상 복호화는 원천적으로 불가능
    • 비식별 기술을 기준으로 일방향 암호화는 식별성을 완전히 제거하므로 양방향 암호화에 비해 더욱 안전하고 효과적
  • 고려사항
    • 복호화 키에 대한 보안방안 필요
  • 적용정보
    • 주민등록번호, 여권번호, 의료보험번호, 외국인등록번호, 사용자ID, 신용카드번호, 생체정보 등

교환방법(Swapping)

  • 사전에 정해진 외부의 변수(항목)값과 연계하여 교환
  • 적용정보
    • 사용자ID, 요양기관번호, 기관번호, 나이, 성별, 신체정보(신장, 혈액혈 등), 소득, 휴대전화번호, 주소 등

총계처리(Aggregation)

  • 장점 : 민감한 수치 정보에 대하여 비식별 조치 가능, 통계분석용 데이터셋 작성에 유리
  • 단점 : 정밀 분석의 어려움, 집계 수량이 적을 경우 추론에 의한 식별 가능성 존재

부분총계(Micro Aggregation)

  • 일정부분 레코드만 총계 처리
  • 오차 범위가 큰 항목을 통계값(평균 등)으로 변환
  • 적용 예시
    1. 다양한 연령대의 소득 분포 비교
    2. 특히 40대의 소득 분표 편차가 큼 (혹은 특정 소득 구성원 포함)
    3. 40대의 소득만 선별하여 평균 확인
    4. 각 개인의 소득 값을 해당 평균값으로 대체

라운딩(Rounding)

  • 올림, 내림, 반올림 기준을 적용하여 최종 집계 처리
  • 일반저그로 전체 통계정보가 필요한 경우 많이 사용
  • 적용 예시
    1. 23세, 41세, 57세, 33세의 각 나이 값 확인
    2. 20대, 30대, 40대, 50대 각 대표 연령대로 표기

재배열(Rearrangement)

  • 기존 정보 값은 유지하면서 데이터를 재배열 하는 방법
  • 적용 예시
    1. 포함된 나이 소득 등의 정보를 서로 재배치
    2. 개인별 실제 나이와 소득과 다른 비식별 자료를 얻지만, 전체적인 통계 분석에서는 자료 손실 없이 분석 가능

데이터 삭제(Data Reduction)

  • 장점 : 개인 식별요소의 전부 및 일부 삭제 처리 가능
  • 단점 : 분석의 다양성과 분석 결과의 유효성/신뢰성 저하

식별자 삭제(혹은 식별자 부분삭제)

  • 식별자를 단순 삭제시키는 방법과 일부만 삭제하는 방법
  • 정보 유효성에 대한 고려사항
    • 개인 식별 불가
    • 다른 정보와 결합하였을 시 개인 식별 불가
  • 적용 예시
    1. 생년월일 정보(yy-mm-dd)
    2. 분석 목적에 따라 yy로 대체 가능하면 mm-dd 값 삭제

레코드 삭제(Reducing Records)

  • 뚜렷하게 구별되는 레코드 전체를 삭제하는 방법
  • 통계분석에 있어서 전체 평균에 비해 오차범위를 벗어나는 자료를 제거 할 때 사용
  • 적용 예시
    1. 다른 사람에 비해 뚜렷이 구별되는 소득 정보
    2. 해당 정보 전체 삭제

식별요소 전부삭제

  • 잠재적으로 개인을 식별할 수 있는 속성자까지 전부 삭제
  • 프라이버시 침해 위험을 줄이는 방법
  • 개인정보 유출 가능성 최소화
  • 고려사항
    • 필요한 정보까지 삭제, 데이터 유용성 낮아지는 문제 발생
  • 적용 예시
    1. 연예인/정치인 등 가족정보
    2. 잠재적 식별자까지 사전에 삭제
    3. 연관성 있는 정보의 식별 및 결합 예방

데이터 범주화(Data Suppression)

  • 장점 : 통계형 데이터 형식이므로 다양한 분석 및 가공
  • 단점 : 정확한 분석결과 도출의 어려움, 데이터 범위 구간이 좁혀질 경우 추론 가능성 존재

감추기

값을 감추기 위해 데이터의 평균 또는 범주 값으로 변환하는 방식


랜덤 라운딩(Random Rounding)

  • 임의의 수 기준으로 올림 또는 내림하는 기법
  • 수치 데이터 이외의 경우에도 확장 적용 가능
  • 적용 예시
    • 42세와 45세의 나이 정보
    • 40대로 표현

범위 방법(Data Range)

  • 임의의 수 기준의 범위로 설정하는 기범
  • 해당 값의 범위 또는 구간으로 표현
  • 적용 예시
    1. 3300만원의 금액 정보
    2. 3000~4000만원으로 대체 표기

제어 라운딩(Controlled Rounding)

  • 랜덤 라운딩 방법에서 어떠한 특정 값을 변경할 경우 행과 열의 합이 일치하지 않는 단점 해결을 위해 행과 열이 맞지 않는 것을 제어하여 일치시키는 기법
  • 컴퓨터 프로그램으로 구현하기 어렵고 복잡한 통계표에는 적용하기 어려움
  • 아직 현장에서는 잘 사용하지 않는 방법

데이터 마스킹(Data Masking)

  • 장점 : 개인 식별 요소 제거 가능, 원 데이터 구조의 적은 변형
  • 단점 : 데이터 필요 목적 활용의 어려움, 특정한 값에 대한 추론 가능

임의 잡음 추가(Adding Random Noise)

  • 개인 식별 가능한 정보에 임의의 숫자 등 잡음을 추가하는 방법
  • 고려사항
    • 잡음 값은 데이터 값과 무관
    • 잡음은 유효 데이터로 활용하기 곤란
  • 적용 예시
    1. 실제 생년월일 정보
    2. 6개월의 잡음 추가
      • 1일부터 최대 6개월의 날짜 추가
    3. 기존의 자료와 오차가 날 수 있도록 적용

공백(Blank)과 대체(Import)

  • 특정 항목의 일부 또는 전부를 공백 또는 대체문자로 바꾸는 기법
  • 적용 예시
    1. 생년월일 1990-04-13의 정보
    2. 19**-**-**로 대체 표기

참고

반응형