본문 바로가기

자격증 준비

빅데이터 분석기사 준비(1) - 분석 요건/데이터 확보

728x90

Ⅰ. 빅데이터 분석 요건 정의

빅데이터 분석 요건 정의를 위한 요구 사항 도출의 이해

① 도메인 이슈와 비즈니스를 이해하고

② 이해관계자의 요구 사항과 기대 사항 사이의 갭(gap)을 식별하고 정의

 → 고객 요구 사항 기반 가설 수립, 이를 분석 변수로 활용하여 검증

 

1. 빅데이터 요구 사항 분석 절차

명세서가 생성되기 이전에 불완전하고 비정형적인 추상적 요구 사항완전하고 일관성 있는 요구 사항으로 구체화하여 분석 변수를 도출하고 작성

빅데이터 분석 요구사항 도출 절차

(1) 빅데이터 요구 사항 개발 프로세스

 요구 사항 추출, 분석, 평가를 통해 이해관계자의 비정형적 요구 사항을 정형화

 

(2) 빅데이터 분석 변수 개발 상세 구성 요소


빅데이터 분석 변수 도출의 이해

1. 빅데이터 분석 변수의 개념

고객의 요구 사항과 분석 목표를 분석하여 ① 증명할 가설을 도출하고 ② 요구 사항을 정의하고 ③ 문서화하는 프로세스

정의서 작성 기반 문서요구 사항 관리 계획, 요구 사항 추적 매트릭스를 작성

 

2. 빅데이터 분석 변수 도출 분석

정형, 비정형 인터뷰 접근 방법을 통해 이해관계자의 요구 사항을 도출하고 구조화하며, 고객이 실질적으로 필요한 것을 알려 주는 과정

 

(1) 분석 변수 도출 활동

요구 사항을 통한 분석 변수 추출, 분석, 평가를 통해 이해관계자의 비정형적 요구 사항을 수집하고 의미 있는 정보로 가공

 

(2) 분석 변수 분석 기법

대면, 비대면 설문, 집단 토론 등을 거쳐 도메인의 이슈와 고객이 원하는 요구 사항을 수집하고, 기능적, 비기능적, 상호 관계, 제약 사항 등을 도출하고 구조화한다.

요구 사항 분석 기법
고객 요구 사항 주요 수집 기법


전략적 시나리오 작성의 이해

1. 전략적 시나리오 작성의 개념

 ① 비즈니스 요건을 이해

 ② 요구 사항을 분석

 ③ 경쟁 요소를 구체적으로 정의

 ④ Event-Activity Map을 통해 활동 간의 상관관계를 분석

 ⑤ 기대 수준을 충족할 수 있는 실행 전략 수립

2. 전략적 시나리오 작성 기법

(1) 전략적 시나리오 작성 프로세스

전략적 리스크를 최소화할 목적으로 변화의 동인을 통해 불확실성을 파악 후 여러 가지 시나리오 도출을 통해 대응책을 준비

전략적 시나리오 작성 프로세스

(2) 전략적 시나리오 작성 기법

전략, 실행, 활동 등의 관계를 분석하여 ‘비즈니스 전략 모델’을 구체화하고, 비즈니스 운영에 대한 다양한 시나리오를 작성

시나리오 작성 및 전략 수립

(3) 시나리오 개발 절차

시나리오 개발 절차

 


Ⅱ. 빅데이터 분석 데이터 확보 기획

분석 데이터 확보에 대한 이해

분석 데이터 확보를 위해 우선적으로 고려해야 할 사항은 수집 대상 데이터의 유형

 ① 분석 요건 정의에 의해 도출된 목표에 맞추어

 ② 어떤 데이터를 가지고 어떤 분석 기법을 통해 수행할 것인지

 ③ 수립된 계획에 따라 데이터의 유형을 선택하고 분석 변수를 정의

 

1. 분석 데이터의 유형

데이터의 형태에 따라 유형을 분류

  • 전통적 정보 시스템에서 활용하는 정형 데이터
  • 모든 비즈니스 분야의 디지털화로 비정형·반정형 데이터

(1) 정형 데이터의 개념

관계형 데이터베이스 시스템의 테이블과 같이 고정된 필드에 저장되어 활용되는 구조화된(Structured) 데이터

  • 정형 데이터의 특징
    • 데이터의 스키마를 가지고 있으며
    • RDB/스프레드시트 등에 저장되어 활용
    • 데이터베이스를 설계자가 정의한 제한적인 구조로 정보가 저장
  • 정형 데이터의 구조
    • 컬럼(Column)로우(Row) 구조
    • 설계된 구조 기반, 목적에 맞는 정보들(예: 구매, 판매 및 사용자의 정보, 인기 품목 등)을 저장하고 분석

(2) 반정형 데이터의 개념

데이터 내부에 메타데이터(Metamata)를 갖고 있는 반구조적(semi-structed) 형태를 가지는 데이터

  • 반정형 데이터의 특징과 사례
    • 인터넷의 발달
    • 비즈니스 대 비즈니스 또는 프로세스 간 상호 정보 교환이 증가
    • 일정 규약을 가지는 XML 또는 HTML 형태의 반정형 데이터가 방대하게 존재
    • 이를 통한 정보 분석 요구 사항이 빅데이터 분석의 중요한 요건
    • 반정형 데이터 특징 및 사례
  • 반정형 데이터의 구조
    • 데이터 내부의 메타 정보에 대해 어떤 형태로 구성되어 있는 데이터인지 파악
    • 규칙에 따라 데이터를 추출할 수 있는 파싱 규칙을 적용
    • 반정형 데이터 구조
  • 비정형 데이터의 개념
    • 고정된 필드가 아닌 구조화되지 않은(Unstructured) 데이터
    • Data-Set가 아닌 하나의 데이터가 수집 데이터로 객체화

비정형 데이터의 유형

※ 비정형 데이터와 반정형 데이터의 유사성
- SNS, 포털 등 웹에 존재하는 데이터는 HTML 또는 XML 형태로 구성되어 있어 반정형 데이터로 분류
- Well-Formed되지 않은 데이터의 유형도 많고, 특정한 경우 마이닝 기법(텍스트, 데이터 등)을 통해 수집되는 경우도 있어 명확하게 구분하기 어려움

빅데이터 분석 데이터에 대한 이해

효과적 빅데이터 분석을 위해서 요구 정의에 의해 도출된 활용 시나리오에 적용할 수 있는 다양한 분석 데이터 세트(Data-Set)를 수집하고 분석에 활용하여 의미 있는 분석 결과를 도출할 수 있도록 준비한다.

1. 빅데이터 분석 데이터 세트의 개념

빅데이터 분석을 위한 분석 변수 데이터들과 분석 결과 검증을 위한 데이터 집합

 

(1) 분석 데이터 세트

- 일반적으로 2개의 데이터 집합을 통해 분석하고 결과를 검증

- 빅데이터 분석의 인공 지능 학습과 융합하여 사용 시 Training Set를 같이 활용한다.

빅데이터 분석 데이터 세트 유형

(2) 분석 데이터 세트의 활용

- 분석 결과의 일반화 오류를 예방하기 위하여 Cross Validation 기법을 적용

- Test Set, Validation Set, Training Set를 혼합하여 빅데이터 분석 변수로 활용

 

2. 빅데이터 분석 데이터 수집 기법

단순 데이터베이스 데이터 추출 외에도 데이터 트래킹, 데이터 조합 등을 활용한 수집 기법을 사용

 

(1) 데이터 유형별 수집 기법

소스 데이터의 유형에 따라 수집 기술을 선정하고 분석 데이터 수집 시 다음과 같은 내용을 반영하여 수집

데이터 유형별 수집 기법

(2) 빅데이터 수집 기법

포털 또는 소셜 네트워크 등 디지털 가상 공간에 존재하면서, 실시간으로 대량의 데이터가 지속적 생성되는 HTML, XML 형태의 모든 데이터에 대한 수집 기법

빅데이터 수집 기법


분석데이터 확보 시 유의 사항

수집되는 많은 데이터에는 산업 기밀, 개인 정보 등 비밀이 보장되어야 하는 데이터가 다수 포함되어 있기 때문에, 사전에 비식별 조치하여 정보의 유출을 방지 할 수 있도록 계획

1. 데이터 비식별화의 개요

정보의 일부 또는 전체를 삭제, 대체하거나 다른 정보로 쉽게 결합하지 못하도록 하는 특정 정보 비식별 조치 방법

 

(1) 비식별화 개념도

- 민감 또는 기밀 데이터에 대해 식별이 불가능하도록 처리

- 재식별되지 않도록 비식별 데이터에 다양성을 적용하여 보안 사고를 사전에 방지하는 기법

 

(2) 비식별화 기법

프라이버시 보호를 위해 식별성을 제거하여 누구의 어떤 정보인지 모르게 함으로써 어느 정보가 처리되는지 구분할 수 없도록 하는 데이터 보호 기법

개인 정보 비식별화 기법

2. 비식별화 후 사후 관리 방안

시간 경과에 따라 재식별 위험이 증가하므로 “모니터링 → 위험 발견 → 비식별 보완 조치”의 단계를 거치도록 하여 지속적 보완 조치를 수행