testworks

1.데이터 검증 절차

 

○ 데이터 품질관리

비즈니스 목표에 부합한 데이터 분석을 위해 가치성, 정확성, 유용성 있는 데이터를 확보하고, 신뢰성 있는 데이터를 유지하는 데 필요한 관리 활동

 

 

○ 빅데이터 품질관리의 중요성

  • 데이터 분석결과의 신뢰성 확보
  • 일원화된 프로세스
  • 데이터 활용도 향상
  • 양질의 데이터 확보

 

○ 데이터 품질관리 요소 (데이터 품질을 판단하는 기준)

구분 관리요소
정확성 데이터 사용목적별로 데이터의 정확성의 기준을 다르게 적용
예를들어 전자상거래 사이트에서 고객의 click steam을 분석하는 경우와 부정, 사기 탐지를 분석하는 경우 데이터 정확성에 대한 품질 기준을 서로 다르게 설정하여 적용함
완전성 분석에 요구되는 데이터 식별 수준의 적용
적시성 소멸성이 높은 데이터에 대한 품질기준
예를들어 web log, 위치 데이터 등 하루 중 특정시간 동안에만 그 의미를 가짐
일관성 사용 목적별로 데이터 수집 기준을 설정하여 일관성 유지

 

○ 데이터 무결성 검증

다수의 사용자가 데이터 베이스에 접근해서 조회, 삽입, 삭제, 수정 등의 작업을 수행할 때 데이터가 불일치하지 않는 특성

 

○ 데이터 무결성 품질검증 요건

  • 개체 무결성: 기본키는 반드시 값을 가지며 그 값은 유일하고 중복되지 않음
  • 참조 무결성: 외래키 값을 참조하는 테이블의 기본키 값 또는 빈 값 중 하나
  • 속성 무결성: 속성값은 지정된 데이터 형식 만족
  • 키 무결성: 하나의 테이블에 적어도 하나의 키 존재
  • 도매인 무결성: 속성값은 사전에 정의된 도매인 범위의 값
  • 사용자 정의 무결성: 모든 데이터는 업무 규칙 준수

 

 

 

2. 데이터 유형별 품질검증 방법

빅데이터의 품질기준은 데이터 유형별로 구분하여 정의되며, 품질 측정은 정형 데이터의 경우 데이터 프로파일링 기법을 통해 진단하고, 비정형 데이터의 경우 품질 측정에 사용할 측정기준을 별도로 설정하여 항목별로 체크리스트를 작성하여 진단합니다.

 

 

데이터 품질검증 및 진단계획 수립

  1. 프로젝트 정의
  2. 조직 정의 및 편성
  3. 품질 진단 절차 정의
  4. 세부시행 계획 확정
  5. 품질기준 및 진단대상 정의

 

 

[정형데이터의 품질기준]

①정확성

-선후관계

-계산,집계

-최신성

-업무규칙

 

②완전성

-개별완정성

-조건완전성

 

③일관성

-참조

-기준코드

-데이터 흐름

-컬럼

 

④유일성

-단독 유일성

-조건 유일성

 

⑤유효성

-범위

-날짜

-형식

 

 

 

[비정형 데이터의 품질기준]

①기능성

-정확

-적절

-상호운영

-기능순용

 

②신뢰성

-성숙

-신뢰순용

 

③사용성

-이해

-친밀

-사용순용

 

④효율성

-시간

-자원

-효율순용

 

⑤이식성

-적응

-공존

-이식순용

 

 

 

[빅데이터] 데이터 유형별 수집기술

빅데이터 데이터 유형별 수집기술 1) 데이터 유형별 수집 기술 정형 데이터 : ETL, FTP, API, DBtoDB, Rsync, Sqoop 비정형 데이터 : 크롤링, RSS, Open API, Scrapy 등 반정형 데이터 : Sensing, Streming, Flum..

12370.tistory.com

 

[빅데이터] 데이터 비식별화란? 대상·절차·처리기법

데이터 비식별화란? 데이터에 포함된 개인정보를 삭제하거나 다른 정보로 대체하여 데이터 내에서 특정 개인을 식별하지 못하게 하는 데이터 검증작업입니다. 데이터를 안전하게 활용하기 위

12370.tistory.com

 

  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기