빅데이터 - 분석 기획 - 데이터 수집 및 저장 계획 - 데이터 품질 검증

반응형

 

데이터 품질 관리

  • 비즈니스 목표에 부합한 데이터 분석을 위해 가치성, 정확성, 유용성 있는 데이터 확보
  • 신뢰성 있는 데이터를 유지하는 데 필요한 관리 활동
  • 분석 결과의 신뢰성은 분석 데이터의 신뢰성과 직접 연계
  • 빅데이터의 특성을 반영한 데이터 품질 관리 쳬계 구축, 효과적인 분석결과 도출
구분 내용
분석 결과의 신뢰성 확보 데이터 품질은 분석의 품질을 결정
일원화된 프로세스 업무 처리, 데이터 관리의 효율화 도모
데이터 활용도 향상 고품질 데이터 확보로 데이터 이용률 향상
양질의 데이터 확보 불필요한 데이터 제거를 통한 고품질 데이터 준비도 향상

데이터 품질

정형 데이터 품질 기준

  • 완전성 : 필수항목에 누락이 없어야 함
  • 유일성 : 데이터 항목은 유일해야 하며 중복되어서는 안됨
  • 유효성 : 데이터 항목은 정해진 데이터 유효범위 및 도메인을 충족해야 함
  • 일관성 : 데이터가 지켜야할 구조, 값, 표현되는 형태가 일관되게 정의되고 일치해야 함
  • 정확성 : 실세계에 존재하는 객체의 표현 값이 정확히 반영되어야 함
<정형 데이터 품질 기준, 출처 한국데이터베이스진흥원>

비정형 데이터 품질 기준

  • 비정형 컨텐츠 자체에 대한 품질 기준은 컨텐츠 유형에 따라 다소 다를 수 있음
<비정형 데이터 품질 기준, 출처 한국데이터베이스진흥원>

데이터 품질 진단 기법

정형 데이터 품질 진단

  • 데이터 프로파일링 기법을 통해 진단
기법 설명
메타데이터 수집 및 분석 테이블 정의서, 칼럼 정의서, 도메인 정의서, 데이터 사전, ERD, 관계 정의서를 수집하여 테이블명 누락, 불일치, 칼럼 누락, 칼럼명 불일치, 자료형 불일치 내역 추출
칼럼 속성 분석 대사 칼럼의 총 건수, 유일값 수, NULL값 수, 공백값 수, 최대값, 최소값, 최대 빈도, 최소 빈도 등을 추출하여 유효범위 내의 존재여부 판단
누락 값 분석 반드시 입력되어야 하는 값의 누락이 발생한 칼럼을 발견하는 절차
값의 허용 범위분석 속성값이 가져야 할 범위 내에 속성값이 있는지 파악
허용 값 목록 분석 해당 칼럼의 허용 값 목록이나 집합에 포함되지 않는 값 발견
문자열 패턴 분석 칼럼 속성값의 특성을 문자열로 도식화하여 패턴 오류 검출
날짜 유형 분석 날짜 유형 적용의 일관성 여부 분석
기타 특수 도메인 분석 사업자등록번호, 주민등록번호의 유효성 분석
유일 값 분석 유일해야 하는 칼럼의 중복 발생 여부 분석
구조 분석 관계분석, 참조 무결성 분석, 구조 무결성 분석

비정형 데이터 품질 진단

  • 품질 세부 기준을 정하여 항목별 체크 리스트를 작성하여 진단
  • 비정형 데이터의 품질 기준은 상황에 따라 매우 다르게 적용
  • 어떤 기준을 적용 할 수 있는지 정도만 이해!!!
품질 기준 품질 세부 기준 측정항목 체크리스트
기능성 정확성 부가요소 정확성 등 1. 자막은 맞춤법 표기에 따라 작성되었는가?
2. 내레이션 시나리오와 사운드 내용은 일치하는가?
적절성 운용 적절성 등 3. 비디오 압축 코덱은 표준을 준수하는가?
상호 운용성 사운드/자막동기화 등 4. 사운드와 자막은 일치하는가?
기능 순응성 규격화 여부 등 5. 기능성 관련 항목에 대한 표준 지침이 있는가?
신뢰성 성숙성 결함 발생 정도 등 6. 결함 발생 횟수는 얼마인가?
신뢰 순응성 규격 준수 정도 등 7. 신뢰성 관련 항목에 대한 표준 지침이 있는가?
사용성 이해성 영상 인식 만족도 등 8. 영상과 자막은 선명한가?
친밀성 포맷 친숙성 등 9. 영상 포맷에 대한 표준을 준수하는 가?
사용 순응성 규격화 여부 10. 사용성 항목에 대한 표준 지침이 있는가?
효율성 시간 효율성 응답 속도 11. 선택한 동영상이 기준 시간 내에 로딩되는가?
효율 순응성 규격화 여부 12. 효율성 항목에 대한 표준 지침이 있는가?
이식성 적응성 운영 환경 호환성 13. 운영 환경 및 플레이어 호환성이 있는가?
공존성 타 SW 영향 여부 14. 실행중인 타 SW 성능에 영향을 미치는가?
이식 순응성 규격화 여부 15. 이식성 관련 항목에 대한 표준 지침이 있는가?

데이터 품질 검증 수행

  1. 수집 데이터 품질보증체계 수립
  2. 품질 점검 수행
    • 데이터 오류수정 용이하지 않을 경우 데이터 재수집
  3. 품질 검증 결과서 작성

참고

 

반응형