반응형
적정성 평가
- 개인정보 비식별 조치가 충분하지 않을 경우
- 공개 정보 등 다른 정보와의 결합, 다양한 추론 기법등을 통해 개인이 식별될 우려 존재
- 개인정보 보호책임자 책임 하에 외부 전문가가 참여하는 '비식별 조치 적정성 평가단' 구성
- 개인식별 가능성에 대한 엄격한 평가 필요
- 적정성 평가 시 프라이버시 보호 모델 중 최소한의 수단으로 k-익명성 활용
- 필요시 추가적인 평가모델(l-다양성, t-접근성) 활용
* k-익명성 : 동일한 값을 가진 레코드를 k개 이상으로 하여 특정 개인을 식별할 확률을 1/k로 함
* l-다양성 : 각 레코드는 최소 1개 이상의 다양성을 가지도록 하여 동질성 또는 배경지식 등에 의한 추론을 방지
* t-근접성 : 전체 데이터 집합의 정보 분포와 특정 정보의 분포 차이를 t 이하로 하여 추론 방지
프라이버시 보호 모델
k-익명성(k-anonymity)
- 공개된 데이터에 대한 연결공격 등 취약점을 방어하기 위해 제안된 개인정보 보호 모델
- 연결공격 : 활용 정보의 일부가 공개되어 있는 다른 정보와 결합하여 개인을 식별하는 문제 발생
- 비식별화 조치를 위한 최소의 기준으로 사용
- 주어진 데이터 집합에서 같은 값이 적어도 k개 이상 존재, 다른 정보와 결합 불가하게 설계
적용 예시
- 선거인 명부
구분 | 이름 | 지역코드 | 연령 | 성별 |
1 | 김민준 | 13053 | 28 | 남 |
2 | 박지훈 | 13068 | 21 | 남 |
3 | 이지민 | 13068 | 29 | 여 |
4 | 최현우 | 13053 | 23 | 남 |
5 | 정서연 | 14853 | 50 | 여 |
6 | 송현준 | 14850 | 47 | 남 |
7 | 남예은 | 14853 | 55 | 여 |
8 | 성민재 | 14850 | 49 | 남 |
9 | 윤건우 | 13053 | 31 | 남 |
10 | 손윤서 | 13053 | 37 | 여 |
11 | 민우진 | 13068 | 36 | 남 |
12 | 허수빈 | 13068 | 35 | 여 |
- 비식별화된 의료 데이터
구분 | 지역코드 | 연령 | 성별 | 질병 | 비고 |
1 | 130** | < 30 | * | 전립선염 | 다양한 질병이혼재되어 안전 |
2 | 130** | < 30 | * | 전립선염 | |
3 | 130** | < 30 | * | 고혈압 | |
4 | 130** | < 30 | * | 고혈압 | |
5 | 1485* | > 40 | * | 위암 | 다양한 질병이혼재되어 안전 |
6 | 1485* | > 40 | * | 전립선염 | |
7 | 1485* | > 40 | * | 고혈압 | |
8 | 1485* | > 40 | * | 고혈압 | |
9 | 130** | 3* | * | 위암 | 모두가 동일질병으로 취약
|
10 | 130** | 3* | * | 위암 | |
11 | 130** | 3* | * | 위암 | |
12 | 130** | 3* | * | 위암 |
k-익명성의 취약점
- 동질성 공격
- 지역코드가 130으로 시작하는 30대 윤건우, 손윤서, 민우진, 허수민은 모두 '위암'인 것을 알 수 있음
- 배경지식에 의한 공격
- '여자는 전립선염에 걸릴 수 없다.'라는 배경지식에 의해 '이지민'은 고혈압이라는 것을 알 수 있음
l-다양성
- k-익명성에 대한 두 가지 공격을 방어하기 위한 모델 (동질성 공격, 배경지식에 의한 공격)
- 주어진 데이터 집합에서 함께 비식별되는 레코드들은 적어도 l개의 서로 다른 정보를 가지도록 설계
적용 예시
- ℓ-다양성(ℓ=3)을 적용하여 추가 비식별조치한 데이터
- 동질 집합을 재조정 함으로써 지역코드에 대한 식별성은 올라가되, 개인의 질병은 유추할 수 없게 됨
구분 | 지역코드 | 나이 | 성별 | 질병 | 비고 |
1 | 1305* | ≤ 40 | * | 전립선염 | 다양한 질병이혼재되어 안전 |
4 | 1305* | ≤ 40 | * | 고혈압 | |
9 | 1305* | ≤ 40 | * | 위암 | |
10 | 1305* | ≤ 40 | * | 위암 | |
5 | 1485* | > 40 | * | 위암 | 다양한 질병이혼재되어 안전 |
6 | 1485* | > 40 | * | 전립선염 | |
7 | 1485* | > 40 | * | 고혈압 | |
8 | 1485* | > 40 | * | 고혈압 | |
2 | 1306* | ≤ 40 | * | 전립선염 | 다양한 질병이혼재되어 안전 |
3 | 1306* | ≤ 40 | * | 고혈압 | |
11 | 1306* | ≤ 40 | * | 위암 | |
12 | 1306* | ≤ 40 | * | 위암 |
l-다양성의 취약점
- 쏠림 공격 (skewness attack)
- 정보가 특정한 값에 쏠려 있을 경우 l-다양성 모델이 프라이버시를 보호하지 못함
- 유사성 공격 (similarity attack)
- 비식별 조치된 레코드의 정보가 서로 비슷하다면 l-다양성 모델을 통해 비식별 된다 할지라도 프라이버시가 노출될 수 있음
l-다양성 모델의 유사성 공격에 취약한 사례
- k-익명성 및 l-다양성 모델에 의해 비식별화된 의료 데이터
- 레코드 1,2,3이 속한 동질 집합의 병명이 서로 다르지만 의미가 서로 유사함(위궤양, 급성 위염, 만성 위염)
- 공격자는 공격 대상의 질병이 ‘위’에 관련된 것이라는 사실을 알아낼 수 있음
- 또 다른 민감한 정보인 급여에 대해서도 공격 대상이 다른 사람에 비해 상대적으로 낮은 급여 값을 가짐을 쉽게 알아낼 수 있음(300~ 500만원)
구분 | 속성자 | 민감한 정보 | 비고 | ||
지역코드 | 연령 | 원급 | 질병 | ||
1 | 476** | 2* | 300 | 위궤양 | 모두가 '위'와관련한 유사 질병으로 취약 |
2 | 476** | 2* | 400 | 급성 위염 | |
3 | 476** | 2* | 500 | 만성 위염 | |
4 | 4790* | > 40 | 600 | 급성 위염 | 다양한 질병이혼재되어 안전 |
5 | 4790* | > 40 | 1100 | 감기 | |
6 | 4790* | > 40 | 800 | 기관지염 | |
7 | 476** | 3* | 700 | 기관지염 | 다양한 질병이혼재되어 안전 |
8 | 476** | 3* | 900 | 폐렴 | |
9 | 476** | 3* | 1000 | 만성 위염 |
t-근접성
- l-다양성의 취약점을 보완하기 위한 모델 (쏠림 공격, 유사성 공격)
- 값의 의미를 고려하는 모델
- 동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t이하의 차이를 보여야 함
- 각 동질 집합에서 '특정 정보의 분포'가 전체 데이터 집합의 분포와 비교하여 너무 특이하지 않도록 설계
- 정보의 분포를 조정하여 정보가 특정 값으로 쏠리거나 유사한 값이 뭉치는 경우를 방지하는 방법
적용 예시
- t-근접성 모델을 적용하여 정보의 분포를 조절한 예
구분 | 속성자 | 민감한 정보 | 비고 | ||
지역코드 | 연령 | 원급 | 질병 | ||
1 | 4767* | < 40 | 300 | 위궤양 | 급여의 분포와다양한 질병 으로 안전 |
3 | 4767* | < 40 | 500 | 만성 위염 | |
8 | 4767* | < 40 | 900 | 폐렴 | |
4 | 4790* | > 40 | 600 | 급성 위염 | 급여의 분포와다양한 질병 으로 안전 |
5 | 4790* | > 40 | 1100 | 감기 | |
6 | 4790* | > 40 | 800 | 기관지염 | |
4 | 4760* | 3* | 400 | 급성 위염 | 급여의 분포와다양한 질병 으로 안전 |
7 | 4760* | 3* | 700 | 기관지염 | |
9 | 4760* | 3* | 1000 | 만성 위염 |
- 레코드 1, 3, 8의 급여의 분포는 (30 ~ 90)으로 전체적인 급여의 분포(30 ~ 110)와 큰 차이가 나지 않음
- 레코드 1, 3, 8의 질병 분포는 위궤양, 만성위염, 폐렴으로 병명이 서로 다르고 질병이 ‘위’와 관련된 것 이외에 ‘폐’와 관계된 것도 있어 특정 부위의 질병임을 유추하기 어려움
- 조치전과 비교하여 공격자가 공격 대상의 정보를 추론하기가 더욱 어려워짐
참고
반응형