본문 바로가기

STATISTICS/ADsP

2-1. 데이터 분석 기획의 이해

[분석 기획 방향성 도출]

1. 분석 기획의 특징

1) 분석 기획: 실제 분석을 수행하기에 앞서 분석을 수행할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업

2) 데이터 사이언티스트의 역량: 수학/통계학적 지식, 정보기술(IT 기술, 해킹기술, 통신기술 등), 비즈니스에 대한 이해와 전문성

 

2. 분석 대상과 방법

분석 주제 유형 분석 대상 (What)
known unknown
분석방법
How
known Optimization Insight
unknown Solution Discovery

 

3. 목표 시점별 분석기획 방안

당면한 분석 주제의 해결
(과제 단위)
  지속적 분석 문화 내재화
(마스터 플랜 단위)
Speed & Test <---- 1차 목표----> Accuracy & Deploy
Quick-Win <---- 과제의 유형 ----> Long Term View
Problem Solving <----  접근방식 ----> Problem Definition

 

4. 분석 기획 시 고려사항

  • 분석의 기본인 가용 데이터(Available data)에 대한 고려 필요
  • 분석을 통해 가치가 창출될 수 있는 적절한 활용방안과 유스케이스(Process Business Case) 탐색 필요
  • 분석 수행시 발생하는 장애요소들에 대한 사전계획 수립 필요 (Low Barrier Of Execution)

 

[분석 방법론]

1. 분석 방법론 개요

1) 기업의 합리적 의사결정을 가로막는 장애요소: 고정관념(Stereotype), 편향된 생각(Bias), 프레이밍 효과(Framing Effect)

2) 방법론의 적용 업무의 특성에 따른 모델

  • 폭포수 모델 Waterfall Model: 단계를 순차적으로 진행하는 방법. 문제 발견 시 피드백 과정 수행 (기존의 SW 개발 방식)
  • 프로토타입 모델 Prototype model: 점진적 시스템 개발 방법. 일부분을 우선 개발하여 사용자에게 제공. 결과를 통한 대선 작업 시행
  • 나선형 모델 Spiral Model: 반복을 통한 점증적 개발 방법

 

2. KDD 분석 방법론

  • 데이터셋 선택 selection: 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정 필수
  • 데이터 전처리 preprocessing: Noise, Outlier, Missing Value 식별과 재처리 
  • 데이터 변환 transformation: 차원 축소, 학습용 데이터와 검증용 데이터 분리 
  • 데이터 마이닝 data mining: 분석목적에 맞는 기법 선택, 전처리 및 변환 프로세스 추가 
  • 결과 평가 interpretation evaluation: 분석 목적과이 일치성 확인. 업무 활용

 

3. CRISP-DM 분석방법론

1) CRISP-DM 4레벨 구조

Phases   -  Genetic Tasks           -           Specialized Tasks  -  Process Instances

CRISP Process Model     <--Mapping -->    CRISP Process 

2)  CRISP-DM 6단계 프로세스

업무 이해
Business Understanding
프로젝트의 목적과 요구사항을 이해하기 위한 단계
도메인 지식을 데이터 분석을 위한 문제정의로 변경하고 초기 프로젝트 계획을 수립하는 단계
업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
데이터 이해 
Data Understanding
데이터를 수집하고 속성을 이해하기 위한 단계
데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견
초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
데이터 준비 
Data Preparation
분석기법에 적합한 데이터를 편성하는 단계 데이터셋 선택/편성, 데이터 정제/통합/포맷팅
모델링 
Modeling
다양한 모델링 기법과 알고리즘 선택 및 파라미터 최적화
모델링 결과를 테스트용 데이터셋으로 평가하여 모델의 과적합 문제 확인
모델링 기법 선택, 모델 테스트 계획 설게, 모델 작성/평가
평가 
Evaluation
모델링 결과가 프로젝트 목적에 부합하는지 평가
데이터마이닝 결과를 최종적으로 수용할 것인지 판단
분석결과 평가, 모델링 과정 평가, 모델 적용성 평가
전개 
Deployment
완성된 모델을 실 업무에 적용하기 위한 계획 수립 단계
모니터링과 모델의 유지보수 계획 마련
CRISP-DM의 마지막 단계 - 프로젝트 마무리
전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰

 

4. KDD와 CRISP-DM의 비교

KDD CRISP-DM
분석대상 비즈니스 이해 업무 이해
데이터셋 선택 데이터의 이해
데이터 전처리
데이터 변환 데이터 준비
데이터 마이닝 모델링
데이터 마이닝 결과 평가 평가
데이터 마이닝 활용 전개

 

5. 빅데이터 분석 방법론

1) 빅데이터 분석의 계층적 프로세스

  • 단계 Phase - Process Group: 최상위 계층으로 프로세스 그룹을 통해 완성된 단계별 산출물 생성, 각 단계는 기준선으로 설정/관리, 버전 관리 등을 통한 통제
  • 테스크 Task - Mapping: 단계를 구성하는 단위 활동. 물리적 또는 논리적 단위로 품질검토의 항목
  • 스텝 Step - Unit Process: WBS (Work Breakdown Structure)의 워크 패키지에 해당. Input, Process&Tool, Output 로 구성된 단위 프로세스

2) 빅데이터 분석 방법론의 5단계

단계 프로세스 및 도구
분석 기획 비즈니스 이해 및 범위 설정

비즈니스 이해 자료 수집 및 비즈니스 이해
프로젝트 범위 설정 자료 수집 및 비즈니스 이해
프로젝트 범위 정의서(SOW) 작성 절차
프로젝트 정의 및 계획 수립 데이터 분석
프로젝트 정의
프로젝트 목표 구체화
모델 운영 이미지 설계
프로젝트 수행 계획수립 프로젝트 범위 정의서 SOW
WBS 작성
프로젝트 위험계획 수립 데이터 분석
위험 식별
위험 식별 절차 
위험 영향도 및 발생 가능성 분석
위험 우선순위 판단
위험대응 계획 수립 위험 정량적 /정성적 분석
위험관리 계획서
데이터 준비 필요 데이터 정의 데이터 정의 내/외부 데이터 정의
정형/비정형/반정형 데이터 정의
데이터 획득 방안 수립 데이터 획득 방안 수립 - 데이터 획득 계획서
데이터 스토어 설계 정형 데이터 스토어 설계 데이터베이스 논리, 물리 설계
데이터 매핑
비정형 데이터 스토어 설계 비정형/반정형 데이터 논리, 물리 설계
데이터 수집 및 적합성 점검 데이터 수집 및 저장 데이터 크롤링 도구
ETL도구
데이터 수집 스크립트
데이터 적합성 검정 데이터 품질 확인
정합성 점검 보고서
데이터 분석 분석용 데이터 준비 비즈니스 룰 확인 프로젝트 목표 확인
비즈니스 룰 확인
분석용 데이터셋 준비 데이터 선정
데이터 변환
ETL 도구
텍스트 분석 텍스트 데이터 확인 및 추출 분석용 텍스트 데이터 확인
텍스트 데이터 추출
텍스트 데이터 분석 분류체계 설계
형태소 분석
키워드 도출
토픽/감성/의견/네트워크 분석
탐색적 분석 탐색적 데이터 분석 EDA 도구
통계분석
연관성 분석
데이터 분포 확인
데이터 시각화 시각화 도구
인포그래픽
시각화 방법론
모델링 데이터 분할 데이터 분할 패키지
데이터 모델링 통계 모델링 기법
기계학습
모델 테스트
모델 적용 및 운영 방안 모니터링 방안 수립
알고리즘 설명서 작성
모델 평가 및 검증 모델 평가 모델 품질관리
모델 개선작업
모델 검증 모델 검증
시스템 구현 설계 및 구현 시스템 분석 및 설계 정보시스템 개발 방법론
시스템 구현 시스템 통합 개발 도구 (IDE)
프로그램 언어
시스템 테스트 및 운영 시스템 테스트 품질관리 활동
시스템 운영 계획 운영계획 수립
운영자 및 사용자 교육
평가 및 전개 모델 발전계획 수립 모델 발전 계획 모델 발전 계획서
프로젝트 평가 및 보고 프로젝트 성과평가 프로젝트 성과 평가서
프로젝트 종료 프로젝트 최종 보고서

 

 

[분석 과제 발굴]

1. 하향식 접근 방식 (Top Down Approach) : 분석 과제가 주어지고 이에 대한 해법을 찾기 위해 각 과정이 체계적으로 단계화되어 수행하는 방식

1) 문제 탐색 : 문제를 해결함으로써 발생하는 가치에 중점

  • 비즈니스 모델 캔버스 활용 과제 발굴 방법 5가지 영역: 업무 operation, 제품 product, 고객 customer, 규제 및 감사regulation & audit, 지원 인프라 IT & human resource 
  • 분석 기회 발굴 범위 확장
    • 거시적 관점: 사회, 기술, 경제, 환경, 정치
    • 경쟁자 확대: 대체제, 경쟁자, 신규 진입자
    • 시장니즈 탐색: 고객, 채널, 영향자들
    • 역량의 재해석: 내부역량, 파트너 네트워크
  • 외부 참조 모델 기반의 문제 탐색: 유사, 동종 사례를 벤치마킹을 통해 분석 기회 발굴
  • 분석 유즈 케이스 : 문제에 대한 상세한 설명 및 해당 문제 해결 시 발생 효과를 명시함으로써 데이터 분석 문제로의 전환 및 적합성 평가에 활용

2) 문제 정의 : 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계 - 데이터 기법 정의를 위해

3) 해결방안 탐색 : 분석역량 (Who), 분석기법 및 시스템 (How)으로 해결 방안 탐색 비즈니스 모델 기반 문제 탐색

4) 타당성 검토 : 경제적 타당성- 비용대비 편익 분석, 데이터 및 기술적 타당성 검토 - 분석역량

 

2. 상향식 접근 방식 (Bottom Up Approach) : 문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제를 지속적으로 개선하는 방식

  • 기업이 보유하고 있는 다양한 원천 데이터로부터 분석을 통하여 통찰력과 지식을 얻는 접근방법
  • 다양한 원천 데이터를 대상으로 분석을 수행하여 가치있는 모든 문제를 도출하는 일련의 과정
  • 하향식 접근법은 논리적 단계별 접근법으로 최근의 복잡하고 다양한 환경에서 발생하는 문제를 해결하기 어렵기 때문에 디자인적 사고 접근법을 통해 WHY -> WHAT 관점으로 존재하는 데이터 자체를 객관적으로 관찰하여 문제를 해결햐려는 접근법 사용
  • 비지도 학습방법으로 수행되며, 데이터 자체의 결합, 연관성, 유사성을 중심으로 접근
  • 시행착오를 통한 문제 해결: 프로토타이핑 접근법

 

3. 분석과제 정의 : 분석 과제 정의서를 통해 분석별 필요 소스 데이터, 분석 방법, 데이터 입수 및 분석의 난이도, 분석 수행주기, 검증 오너십, 상세 분석 과정 등을 정의

 

[분석 프로젝트 관리 방안]

1. 분석과제 관리를 위한 5가지 주요 영역: 분석프로젝트는 범위, 일정, 품질, 리스크, 의사소통 등 영역별 관리가 수행되어야 할 뿐 아니라 데이터에 기반한 분석 기법을 적용한다는 특성 때문에 5가지 주요 속성을 고려하여 추가적인 관리가 필요 - Data Complexity, Speed, Analytic Complexity, Accuracy & Precision, Data Size

2. 분석 프로젝트의 특성

  • 분석가의 목표: 개별적인 분석업무 수행 뿐만 아니라 전반적인 프로젝트 관리 또한 중요
  • 분석가의 입장: 데이터 영역과 비즈니스 영역의 현황을 이해하고, 프로젝트의 목표인 분석의 정확도 발성과 결과에 대한 가치 이해를 전달하는 조정자로서의 분석가 역할이 중요
  • 분석 프로젝트는 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되는 경우가 대부분이므로 프로토타이핑 방식의 애자일 Agile 프로젝트 관리방식에 대한 고려 필요