반응형
반응형
데이터 적재 도구 수집 데이터는 빅데이터 분석을 위한 저장 시스템에 적재 RDMBS, HDFS, NoSQL 등 데이터 수집 도구 이용 플루언티드(Fluentd) 크로스 오픈 소스 데이터 수집 소프트웨어 사용자의 로그를 다양한 형태로 입력받아 JSON 포맷으로 변환한 뒤 다양한 형태로 출력 플럼(Flume) 많은 양의 로그 데이터를 효율적으로 수집, 취합, 이동하기 위한 분산형 소프트웨어 로그 데이터 수집과 네트워크 트래픽 데이터, 소셜 미디어 데이터, 이메일 메시지 데이터 등 대량의 이벤트 데이터 전송을 위해 사용 스크라이브(Scribe) 수많은 서버로부터 실시간으로 스트리밍되는 로그 데이터를 집약시키기 위한 서버 클라이언트 사이드의 수정 없이 스케일링 및 확장 가능 로그스태시(Logstash) 다양한 ..
데이터 품질 관리 비즈니스 목표에 부합한 데이터 분석을 위해 가치성, 정확성, 유용성 있는 데이터 확보 신뢰성 있는 데이터를 유지하는 데 필요한 관리 활동 분석 결과의 신뢰성은 분석 데이터의 신뢰성과 직접 연계 빅데이터의 특성을 반영한 데이터 품질 관리 쳬계 구축, 효과적인 분석결과 도출 구분 내용 분석 결과의 신뢰성 확보 데이터 품질은 분석의 품질을 결정 일원화된 프로세스 업무 처리, 데이터 관리의 효율화 도모 데이터 활용도 향상 고품질 데이터 확보로 데이터 이용률 향상 양질의 데이터 확보 불필요한 데이터 제거를 통한 고품질 데이터 준비도 향상 데이터 품질 정형 데이터 품질 기준 완전성 : 필수항목에 누락이 없어야 함 유일성 : 데이터 항목은 유일해야 하며 중복되어서는 안됨 유효성 : 데이터 항목은 정..
적정성 평가 개인정보 비식별 조치가 충분하지 않을 경우 공개 정보 등 다른 정보와의 결합, 다양한 추론 기법등을 통해 개인이 식별될 우려 존재 개인정보 보호책임자 책임 하에 외부 전문가가 참여하는 '비식별 조치 적정성 평가단' 구성 개인식별 가능성에 대한 엄격한 평가 필요 적정성 평가 시 프라이버시 보호 모델 중 최소한의 수단으로 k-익명성 활용 필요시 추가적인 평가모델(l-다양성, t-접근성) 활용 * k-익명성 : 동일한 값을 가진 레코드를 k개 이상으로 하여 특정 개인을 식별할 확률을 1/k로 함 * l-다양성 : 각 레코드는 최소 1개 이상의 다양성을 가지도록 하여 동질성 또는 배경지식 등에 의한 추론을 방지 * t-근접성 : 전체 데이터 집합의 정보 분포와 특정 정보의 분포 차이를 t 이하로 하..
비식별화란? 개인정보 비식별화는 개인정보를 식별할 수 있는 값들을 몇가지 정해진 규칙으로 대체하거나 사람의 판단에 따라 가공하여 개인을 알아볼 수 없도록 하는 조치 정보주체를 알아볼 수 없도록 비식별 조치를 적정하게 한 비식별 정보는 개인정보가 아닌 것으로 추정되며, 빅데이터 분석 등에 활용 가능 식별자(Identifier) 개인 또는 개인과 관련된 사물에 고유하게 부여된 값 또는 이름 데이터셋에 포함된 식별자는 원칙적으로 삭제조치 데이터 이용 목적상 필요한 식별자는 비식별 조치 후 활용 식별자에 해당하는 사항 - 고유식별정보(주민등록번호, 여권번호, 외국인등록번호, 운전면허번호) - 성명(한자/영문 성명, 필명 등 포함) - 상세 주소(구 단위 미만까지 포함된 주소) - 날짜정보(생일 양/음력, 기념일..
데이터 변환(Data Transformation) 데이터를 하나의 표현 형식에서 다른 형식으로 변형하는 과정 데이터 변환 방식의 종류 비정형 데이터를 정형 데이터 형태로 저장하는 방식 (관계형 데이터베이스) MySQL, Oracle, DB2, PostgreSQL 등 수집 데이터를 분산파일시스템으로 저장하는 방식 (HDFS 등) 주제별, 시계열적으로 저장하는 방식 (데이터 웨어하우스) 네티자, 테라데이타, 그린플럼의 DW 솔루션 키-값 형태로 저장하는 방식 (NoSQL) Hbase, Cassandra, MongDB 데이터 변환 수행 자료 데이터 수집 계획서 수집 솔루션 매뉴얼 데이터 변환 솔루션 하둡 오퍼레이션 매뉴얼 소프트웨어 아키텍처 개념도 데이터베이스 구조 설계 수집 데이터를 저장하기 위한 데이터베이..
데이터 수집 세부 계획 작성 세부 계획 작성 절차 데이터 유형, 위치, 크기, 보관방식, 수집주기, 확보비용, 데이터 이관 절차를 조사하여 세부 계획서 작성 데이터 적절성 검증 방식 수립 및 세부계획 반영 데이터 재수집 또는 데이터 가공 데이터 위치 및 비용 수집 데이터의 원천에 따라 내부 데이터와 외부데이터로 구분 여러 요소를 고려하여 비용 산정 비용 요소 설명 데이터의 종류 RDB, 파일, HTML 데이터의 크기 및 보관주기 데이터 수집, 저장 크기, 수집 데이터의 저장 주기 데이터의 수집 주기 실시간, 매시, 매일, 매주, 매달 데이터의 수집 방식 자동 수집, 수동 수집 데이터의 수집 기술 ETL, FTP, 크롤러, DBtoDB 데이터의 가치성 분석 수행을 위한 목적성 있는 대상 데이터 수집되는 데..