빅데이터 - 분석 기획 - 데이터 수집 및 저장 계획 - 프라이버시 보호 모델

반응형

 

적정성 평가

  • 개인정보 비식별 조치가 충분하지 않을 경우
    1. 공개 정보 등 다른 정보와의 결합, 다양한 추론 기법등을 통해 개인이 식별될 우려 존재
    2. 개인정보 보호책임자 책임 하에 외부 전문가가 참여하는 '비식별 조치 적정성 평가단' 구성
    3. 개인식별 가능성에 대한 엄격한 평가 필요
  • 적정성 평가 시 프라이버시 보호 모델 중 최소한의 수단으로 k-익명성 활용
  • 필요시 추가적인 평가모델(l-다양성, t-접근성) 활용

* k-익명성 : 동일한 값을 가진 레코드를 k개 이상으로 하여 특정 개인을 식별할 확률을 1/k로 함

* l-다양성 : 각 레코드는 최소 1개 이상의 다양성을 가지도록 하여 동질성 또는 배경지식 등에 의한 추론을 방지

* t-근접성 : 전체 데이터 집합의 정보 분포와 특정 정보의 분포 차이를 t 이하로 하여 추론 방지


프라이버시 보호 모델

k-익명성(k-anonymity)

  • 공개된 데이터에 대한 연결공격 등 취약점을 방어하기 위해 제안된 개인정보 보호 모델
    • 연결공격 : 활용 정보의 일부가 공개되어 있는 다른 정보와 결합하여 개인을 식별하는 문제 발생
  • 비식별화 조치를 위한 최소의 기준으로 사용
  • 주어진 데이터 집합에서 같은 값이 적어도 k개 이상 존재, 다른 정보와 결합 불가하게 설계

적용 예시

  • 선거인 명부
구분 이름 지역코드 연령 성별
1 김민준 13053 28
2 박지훈 13068 21
3 이지민 13068 29
4 최현우 13053 23
5 정서연 14853 50
6 송현준 14850 47
7 남예은 14853 55
8 성민재 14850 49
9 윤건우 13053 31
10 손윤서 13053 37
11 민우진 13068 36
12 허수빈 13068 35
  • 비식별화된 의료 데이터
구분 지역코드 연령 성별 질병 비고
1 130** < 30 * 전립선염 다양한 질병이혼재되어 안전
2 130** < 30 * 전립선염
3 130** < 30 * 고혈압
4 130** < 30 * 고혈압
5 1485* > 40 * 위암 다양한 질병이혼재되어 안전
6 1485* > 40 * 전립선염
7 1485* > 40 * 고혈압
8 1485* > 40 * 고혈압
9 130** 3* * 위암 모두가 동일질병으로 취약
10 130** 3* * 위암
11 130** 3* * 위암
12 130** 3* * 위암

k-익명성의 취약점

  • 동질성 공격
    • 지역코드가 130으로 시작하는 30대 윤건우, 손윤서, 민우진, 허수민은 모두 '위암'인 것을 알 수 있음
  • 배경지식에 의한 공격
    • '여자는 전립선염에 걸릴 수 없다.'라는 배경지식에 의해 '이지민'은 고혈압이라는 것을 알 수 있음

l-다양성

  • k-익명성에 대한 두 가지 공격을 방어하기 위한 모델 (동질성 공격, 배경지식에 의한 공격)
  • 주어진 데이터 집합에서 함께 비식별되는 레코드들은 적어도 l개의 서로 다른 정보를 가지도록 설계

적용 예시

  • ℓ-다양성(ℓ=3)을 적용하여 추가 비식별조치한 데이터
  • 동질 집합을 재조정 함으로써 지역코드에 대한 식별성은 올라가되, 개인의 질병은 유추할 수 없게 됨
구분 지역코드 나이 성별 질병 비고
1 1305* ≤ 40 * 전립선염 다양한 질병이혼재되어 안전
4 1305* ≤ 40 * 고혈압
9 1305* ≤ 40 * 위암
10 1305* ≤ 40 * 위암
5 1485* > 40 * 위암 다양한 질병이혼재되어 안전
6 1485* > 40 * 전립선염
7 1485* > 40 * 고혈압
8 1485* > 40 * 고혈압
2 1306* ≤ 40 * 전립선염 다양한 질병이혼재되어 안전
3 1306* ≤ 40 * 고혈압
11 1306* ≤ 40 * 위암
12 1306* ≤ 40 * 위암

l-다양성의 취약점

  • 쏠림 공격 (skewness attack)
    • 정보가 특정한 값에 쏠려 있을 경우 l-다양성 모델이 프라이버시를 보호하지 못함
  • 유사성 공격 (similarity attack)
    • 비식별 조치된 레코드의 정보가 서로 비슷하다면 l-다양성 모델을 통해 비식별 된다 할지라도 프라이버시가 노출될 수 있음

l-다양성 모델의 유사성 공격에 취약한 사례

  • k-익명성 및 l-다양성 모델에 의해 비식별화된 의료 데이터
  • 레코드 1,2,3이 속한 동질 집합의 병명이 서로 다르지만 의미가 서로 유사함(위궤양, 급성 위염, 만성 위염)
  • 공격자는 공격 대상의 질병이 ‘위’에 관련된 것이라는 사실을 알아낼 수 있음
  • 또 다른 민감한 정보인 급여에 대해서도 공격 대상이 다른 사람에 비해 상대적으로 낮은 급여 값을 가짐을 쉽게 알아낼 수 있음(300~ 500만원)
구분 속성자 민감한 정보 비고
지역코드 연령 원급 질병
1 476** 2* 300 위궤양 모두가 '위'와관련한 유사
질병으로 취약
2 476** 2* 400 급성 위염
3 476** 2* 500 만성 위염
4 4790* > 40 600 급성 위염 다양한 질병이혼재되어 안전
5 4790* > 40 1100 감기
6 4790* > 40 800 기관지염
7 476** 3* 700 기관지염 다양한 질병이혼재되어 안전
8 476** 3* 900 폐렴
9 476** 3* 1000 만성 위염

t-근접성

  • l-다양성의 취약점을 보완하기 위한 모델 (쏠림 공격, 유사성 공격)
  • 값의 의미를 고려하는 모델
  • 동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t이하의 차이를 보여야 함
  • 각 동질 집합에서 '특정 정보의 분포'가 전체 데이터 집합의 분포와 비교하여 너무 특이하지 않도록 설계
  • 정보의 분포를 조정하여 정보가 특정 값으로 쏠리거나 유사한 값이 뭉치는 경우를 방지하는 방법

적용 예시

  • t-근접성 모델을 적용하여 정보의 분포를 조절한 예
구분 속성자 민감한 정보 비고
지역코드 연령 원급 질병
1 4767* < 40 300 위궤양 급여의 분포와다양한 질병
으로 안전
3 4767* < 40 500 만성 위염
8 4767* < 40 900 폐렴
4 4790* > 40 600 급성 위염 급여의 분포와다양한 질병
으로 안전
5 4790* > 40 1100 감기
6 4790* > 40 800 기관지염
4 4760* 3* 400 급성 위염 급여의 분포와다양한 질병
으로 안전
7 4760* 3* 700 기관지염
9 4760* 3* 1000 만성 위염
  • 레코드 1, 3, 8의 급여의 분포는 (30 ~ 90)으로 전체적인 급여의 분포(30 ~ 110)와 큰 차이가 나지 않음
  • 레코드 1, 3, 8의 질병 분포는 위궤양, 만성위염, 폐렴으로 병명이 서로 다르고 질병이 ‘위’와 관련된 것 이외에 ‘폐’와 관계된 것도 있어 특정 부위의 질병임을 유추하기 어려움
  • 조치전과 비교하여 공격자가 공격 대상의 정보를 추론하기가 더욱 어려워짐

참고

반응형