데이터 비식별화란?

데이터에 포함된 개인정보를 삭제하거나 다른 정보로 대체하여 데이터 내에서 특정 개인을 식별하지 못하게 하는 데이터 검증작업입니다. 

 

데이터를 안전하게 활용하기 위해서는 수집된 데이터의 개인정보 일부 또는 전부를 삭제하거나 다른 정보로 대체함으로써 다른 정보와 결합하여도 특정 개인을 식별하기가 어렵도록 하는 데이터 비식별화 조치를 해야 합니다. 

 

 

 

1. 데이터 비식별화 대상

적용대상 대상 설명
그 자체로 개인을 식별할 수 있는 정보 개인을 식별할 수 있는 정보 이름, 전화번호, 주소, 생년월일, 사진 등
고유식별 정보 주민등록번호, 운전면허번호, 외국인번호, 여권번호
생체 정보 지문, 홍채, DNA 정보 등
기관, 단체 등의 이용자 계정 등록번호, 계좌번호, 이메일 주소 등

 

적용대상 대상 설명
다른 정보와 함께 결합하여 개인을 알아볼 수 있는 정보 개인 특성 성별, 생년, 생일, 나이, 국적, 고향, 거주지, 시군구명, 우편번호, 결혼여부
신체 특성 혈액형, 신장, 몸무게, 허리둘레, 혈압, 장애여부, 장애등급, 병명 
신용 특성 세금 납부액, 신용등급, 기부금, 소득분위 등
경력 특성 학교명, 학과명, 학년, 성적, 직업
전자적 특성 PC사양, 비밀번호, 쿠키정보, 접속일시
가족 특성 배우자, 자녀, 형제여부, 가족정보
위치 특성 GPS 데이터, 핸드폰사용기록, 사진, 인터넷 접속, RFID리더 접속기록

 

 

 

2. 데이터 비식별화 절차

 

1단계

사전검토

개인정보 해당 여부 검토, 개인정보(식별정보)가 아닌 것이 명백한 경우 법적 규제 없이 자유롭게 활용

 

 

2단계

비식별조치

정보 집합물에서 개인을 식별할 수 있는 요소를 전부 또는 일부를 삭제하거나 대체하는 등의 방법 등을 활용, 개인을 알아볼 수 없도록 하는 조치

 

 

3단계

적정성 평가

다른 정보와 쉽게 결합하여 개인을 식별할 수 있는 지를 비식별 조치, 적성 평가단을 통해 평가

 

 

4단계

사후관리

비식별 정보 안전조치, 재식별 가능성 모니터링 등 비식별 정보 활용 과정에서 재식별 방지를 위해 필요한 조치 수행

 

 

3. 데이터 비식별화 처리기법

  • 가명처리
  • 총계처리
  • 데이터값삭제
  • 범주화
  • 데이터마스킹

 

*2022년 8월, 데이터 3 법(개인정보보호법, 정보통신망법, 신용정보법)이 개정되어 시행되었습니다. 가명 정보 개념이 도입됨에 따라 데이터 품질이 높아질 것으로 기대됩니다. 

 

 

◎가명처리(Pseudonymisation)

-개인 식별이 가능한 데이터에 대하여 직접 식별할 수 없는 다른 값으로 대체하는 기법

-완전 비식별화가 가능하며 데이터의 변형, 변칙 수준이 낮음

-일반화된 대체값으로 가명 처리함으로써 성명을 기준으로 하는 분석에 한계 존재

 

 

◎총계처리(Aggregation)

-개인정보에 대하여 통계값을 적용하여 특정 개인을 판단할 수 없도록 하는 기법

-민감한 정보에 대하여 비식별화 가 가능하며 다양한 통계분석(전체, 부분)용 데이터 세트 적성에 유리함

-집계 처리된 데이터를 기준으로 정밀한 분석이 어려우며 집계 수량이 적을 경우 데이터 결합 과정에서 개인정보 추출 또는 예측이 가능

 

 

◎데이터값 삭제(Date Reduction)

-개인정보 식별이 가능한 특정 데이터값 삭제 처리 기법 

-민감한 개인 식별 정보에 대하여 완전한 삭제 처리가 가능하여 예측, 추론이 어렵도록 함

-데이터 삭제로 인한 분석의 다양성, 분석 결과의 유효성, 분석 정보의 신뢰성을 저하시킬 수 있음

 

◎범주화(Date Suppression)

-단일 식별 정보를 해당 그룹의 대푯값으로 변환하거나 구간 값으로 변환하여 고유 정보 추적 및 식별 방지 기법

-범주나 범위는 통계형 데이터 형식이므로 다양한 분석 및 가공이 가능

-범주, 범위로 표현됨에 따라 정확한 수치에 따른 분석, 특정한 분석 결과 도출이 어려우며, 데이터 범위 구간이 좁혀질 경우 추적, 예측이 가능

 

 

◎데이터 마스킹(Date Masking)

-개인 식별 정보에 대하여 전체 또는 부분적으로 대체 값(공백, '*', 노이즈 등)으로 변환 기법

-완전 비식별화가 가능하며 원시 데이터의 구조에 대한 변형이 적음

-과도한 마스킹 적용 시 필요한 정보로 활용하기 어려우며, 마스킹의 수준이 낮을 경우 특정한 값의 추적 예측 가능함

 

 

 

 

[빅데이터] 데이터 유형별 수집기술

빅데이터 데이터 유형별 수집기술 1) 데이터 유형별 수집 기술 정형 데이터 : ETL, FTP, API, DBtoDB, Rsync, Sqoop 비정형 데이터 : 크롤링, RSS, Open API, Scrapy 등 반정형 데이터 : Sensing, Streming, Flum..

12370.tistory.com

 

 

[빅데이터] 데이터 품질검증

1.데이터 검증 절차 ○ 데이터 품질관리 비즈니스 목표에 부합한 데이터 분석을 위해 가치성, 정확성, 유용성 있는 데이터를 확보하고, 신뢰성 있는 데이터를 유지하는 데 필요한 관리 활동 ○

12370.tistory.com

 

  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기