본문 바로가기

자격증 준비

빅데이터 분석기획 + 빅데이터 탐색 short

728x90

빅데이터의 이해

* 빅데이터의 특징

 

데이터 수집 및 저장 계획

* 분석 데이터 확보 

분석 데이터 확보

* 분석 변수 정의

빅데이터의 특징과 분석 요건 정의에 따라 도출된 분석 항목을 고려하여 분석 변수를 정의

 

  • 명확한 문제 인식을 위하여 분석적 관점과 가정에 의한 접근(Why) 방법
  • 문제를 그대로 인식하고 무엇(What)이 문제인지를 파악하여 객관적 관찰 데이터 유형을 식별

 

데이터 분석 계획

* 분석 유형 도출 

목표 변수의 분포를 구별하는 정도에 따라 순수도(purity) 또는 불순도(impurity)에 의해서 측정 구간별 순수도를 가장 높이는 분석 변수를 도출

 

* 분석 변수 생성 프로세스 정의

  • 목적에 맞는 분석 변수를 생성할 수 있는 프로세스를 정의
  • 분석 대상의 연관성 분석을 통해 데이터 집합 간 통계적 관련성을 분석할 수 있는 변수를 생성
  • 변수의 척도를 분류
  • 데이터 검증 항목 : 정확성, 적시성, 일관성, 완전성

* 분석 변수 점검 항목

  • 데이터 수집 시 분석에 적합한 데이터 여부 분석 데이터의 확보 유무를 고려하여 기획
  • 데이터 적합성을 고려하여 수행할 수 있는 분석 검증 방법을 기획한다.
    • 데이터의 중복, 범위, 연관성 등을 도출할 수 있는 방법을 기획한다.
  • 수집 데이터에 존재할 수 있는 데이터의 특징 변수 도출 방법을 기획한다.
  • 수집 데이터 변수 간 결합 가능 여부를 검증할 수 있는 방법을 기획한다.
  • 수집 데이터의 타당성 검증 방법을 기획한다.
    • 데이터 수집에 투입되는 비용 및 시간을 조사한다.
    • 데이터 수집 기법의 기술적 타당성 검증 방법을 기획한다.

 

데이터 전처리

데이터 정제, 통합, 변환, 정리

 

데이터 탐색

  • 데이터 수집 출처를 검증
    • 수집한 데이터의 출처가 명확한지
  • 데이터 관리 대상 선별을 검증
    • 중복된 데이터가 존재하는지, 정보 활용에 컴플라이언스 이슈가 없는지
  • 데이터 다양성을 검증
    • 데이터의 다양성이 확보되었는지, 데이터 세트가 충분한지
  • 주요 품질 지표를 분석 및 검증
    • 주요 품질 지표의 조건을 만족하는지, 분석, 검증, 테스트 데이터가 분리되어 있는지