[분석 기획 방향성 도출]
1. 분석 기획의 특징
1) 분석 기획: 실제 분석을 수행하기에 앞서 분석을 수행할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업
2) 데이터 사이언티스트의 역량: 수학/통계학적 지식, 정보기술(IT 기술, 해킹기술, 통신기술 등), 비즈니스에 대한 이해와 전문성
2. 분석 대상과 방법
분석 주제 유형 | 분석 대상 (What) | ||
known | unknown | ||
분석방법 How |
known | Optimization | Insight |
unknown | Solution | Discovery |
3. 목표 시점별 분석기획 방안
당면한 분석 주제의 해결 (과제 단위) |
지속적 분석 문화 내재화 (마스터 플랜 단위) |
|
Speed & Test | <---- 1차 목표----> | Accuracy & Deploy |
Quick-Win | <---- 과제의 유형 ----> | Long Term View |
Problem Solving | <---- 접근방식 ----> | Problem Definition |
4. 분석 기획 시 고려사항
- 분석의 기본인 가용 데이터(Available data)에 대한 고려 필요
- 분석을 통해 가치가 창출될 수 있는 적절한 활용방안과 유스케이스(Process Business Case) 탐색 필요
- 분석 수행시 발생하는 장애요소들에 대한 사전계획 수립 필요 (Low Barrier Of Execution)
[분석 방법론]
1. 분석 방법론 개요
1) 기업의 합리적 의사결정을 가로막는 장애요소: 고정관념(Stereotype), 편향된 생각(Bias), 프레이밍 효과(Framing Effect)
2) 방법론의 적용 업무의 특성에 따른 모델
- 폭포수 모델 Waterfall Model: 단계를 순차적으로 진행하는 방법. 문제 발견 시 피드백 과정 수행 (기존의 SW 개발 방식)
- 프로토타입 모델 Prototype model: 점진적 시스템 개발 방법. 일부분을 우선 개발하여 사용자에게 제공. 결과를 통한 대선 작업 시행
- 나선형 모델 Spiral Model: 반복을 통한 점증적 개발 방법
2. KDD 분석 방법론
- 데이터셋 선택 selection: 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정 필수
- 데이터 전처리 preprocessing: Noise, Outlier, Missing Value 식별과 재처리
- 데이터 변환 transformation: 차원 축소, 학습용 데이터와 검증용 데이터 분리
- 데이터 마이닝 data mining: 분석목적에 맞는 기법 선택, 전처리 및 변환 프로세스 추가
- 결과 평가 interpretation evaluation: 분석 목적과이 일치성 확인. 업무 활용
3. CRISP-DM 분석방법론
1) CRISP-DM 4레벨 구조
Phases - Genetic Tasks - Specialized Tasks - Process Instances
CRISP Process Model <--Mapping --> CRISP Process
2) CRISP-DM 6단계 프로세스
업무 이해 Business Understanding |
프로젝트의 목적과 요구사항을 이해하기 위한 단계 도메인 지식을 데이터 분석을 위한 문제정의로 변경하고 초기 프로젝트 계획을 수립하는 단계 |
업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립 |
데이터 이해 Data Understanding |
데이터를 수집하고 속성을 이해하기 위한 단계 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견 |
초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인 |
데이터 준비 Data Preparation |
분석기법에 적합한 데이터를 편성하는 단계 | 데이터셋 선택/편성, 데이터 정제/통합/포맷팅 |
모델링 Modeling |
다양한 모델링 기법과 알고리즘 선택 및 파라미터 최적화 모델링 결과를 테스트용 데이터셋으로 평가하여 모델의 과적합 문제 확인 |
모델링 기법 선택, 모델 테스트 계획 설게, 모델 작성/평가 |
평가 Evaluation |
모델링 결과가 프로젝트 목적에 부합하는지 평가 데이터마이닝 결과를 최종적으로 수용할 것인지 판단 |
분석결과 평가, 모델링 과정 평가, 모델 적용성 평가 |
전개 Deployment |
완성된 모델을 실 업무에 적용하기 위한 계획 수립 단계 모니터링과 모델의 유지보수 계획 마련 CRISP-DM의 마지막 단계 - 프로젝트 마무리 |
전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰 |
4. KDD와 CRISP-DM의 비교
KDD | CRISP-DM |
분석대상 비즈니스 이해 | 업무 이해 |
데이터셋 선택 | 데이터의 이해 |
데이터 전처리 | |
데이터 변환 | 데이터 준비 |
데이터 마이닝 | 모델링 |
데이터 마이닝 결과 평가 | 평가 |
데이터 마이닝 활용 | 전개 |
5. 빅데이터 분석 방법론
1) 빅데이터 분석의 계층적 프로세스
- 단계 Phase - Process Group: 최상위 계층으로 프로세스 그룹을 통해 완성된 단계별 산출물 생성, 각 단계는 기준선으로 설정/관리, 버전 관리 등을 통한 통제
- 테스크 Task - Mapping: 단계를 구성하는 단위 활동. 물리적 또는 논리적 단위로 품질검토의 항목
- 스텝 Step - Unit Process: WBS (Work Breakdown Structure)의 워크 패키지에 해당. Input, Process&Tool, Output 로 구성된 단위 프로세스
2) 빅데이터 분석 방법론의 5단계
단계 | 프로세스 및 도구 | ||
분석 기획 | 비즈니스 이해 및 범위 설정 |
비즈니스 이해 | 자료 수집 및 비즈니스 이해 |
프로젝트 범위 설정 | 자료 수집 및 비즈니스 이해 프로젝트 범위 정의서(SOW) 작성 절차 |
||
프로젝트 정의 및 계획 수립 | 데이터 분석 프로젝트 정의 |
프로젝트 목표 구체화 모델 운영 이미지 설계 |
|
프로젝트 수행 계획수립 | 프로젝트 범위 정의서 SOW WBS 작성 |
||
프로젝트 위험계획 수립 | 데이터 분석 위험 식별 |
위험 식별 절차 위험 영향도 및 발생 가능성 분석 위험 우선순위 판단 |
|
위험대응 계획 수립 | 위험 정량적 /정성적 분석 위험관리 계획서 |
||
데이터 준비 | 필요 데이터 정의 | 데이터 정의 | 내/외부 데이터 정의 정형/비정형/반정형 데이터 정의 |
데이터 획득 방안 수립 | 데이터 획득 방안 수립 - 데이터 획득 계획서 | ||
데이터 스토어 설계 | 정형 데이터 스토어 설계 | 데이터베이스 논리, 물리 설계 데이터 매핑 |
|
비정형 데이터 스토어 설계 | 비정형/반정형 데이터 논리, 물리 설계 | ||
데이터 수집 및 적합성 점검 | 데이터 수집 및 저장 | 데이터 크롤링 도구 ETL도구 데이터 수집 스크립트 |
|
데이터 적합성 검정 | 데이터 품질 확인 정합성 점검 보고서 |
||
데이터 분석 | 분석용 데이터 준비 | 비즈니스 룰 확인 | 프로젝트 목표 확인 비즈니스 룰 확인 |
분석용 데이터셋 준비 | 데이터 선정 데이터 변환 ETL 도구 |
||
텍스트 분석 | 텍스트 데이터 확인 및 추출 | 분석용 텍스트 데이터 확인 텍스트 데이터 추출 |
|
텍스트 데이터 분석 | 분류체계 설계 형태소 분석 키워드 도출 토픽/감성/의견/네트워크 분석 |
||
탐색적 분석 | 탐색적 데이터 분석 | EDA 도구 통계분석 연관성 분석 데이터 분포 확인 |
|
데이터 시각화 | 시각화 도구 인포그래픽 시각화 방법론 |
||
모델링 | 데이터 분할 | 데이터 분할 패키지 | |
데이터 모델링 | 통계 모델링 기법 기계학습 모델 테스트 |
||
모델 적용 및 운영 방안 | 모니터링 방안 수립 알고리즘 설명서 작성 |
||
모델 평가 및 검증 | 모델 평가 | 모델 품질관리 모델 개선작업 |
|
모델 검증 | 모델 검증 | ||
시스템 구현 | 설계 및 구현 | 시스템 분석 및 설계 | 정보시스템 개발 방법론 |
시스템 구현 | 시스템 통합 개발 도구 (IDE) 프로그램 언어 |
||
시스템 테스트 및 운영 | 시스템 테스트 | 품질관리 활동 | |
시스템 운영 계획 | 운영계획 수립 운영자 및 사용자 교육 |
||
평가 및 전개 | 모델 발전계획 수립 | 모델 발전 계획 | 모델 발전 계획서 |
프로젝트 평가 및 보고 | 프로젝트 성과평가 | 프로젝트 성과 평가서 | |
프로젝트 종료 | 프로젝트 최종 보고서 |
[분석 과제 발굴]
1. 하향식 접근 방식 (Top Down Approach) : 분석 과제가 주어지고 이에 대한 해법을 찾기 위해 각 과정이 체계적으로 단계화되어 수행하는 방식
1) 문제 탐색 : 문제를 해결함으로써 발생하는 가치에 중점
- 비즈니스 모델 캔버스 활용 과제 발굴 방법 5가지 영역: 업무 operation, 제품 product, 고객 customer, 규제 및 감사regulation & audit, 지원 인프라 IT & human resource
- 분석 기회 발굴 범위 확장
- 거시적 관점: 사회, 기술, 경제, 환경, 정치
- 경쟁자 확대: 대체제, 경쟁자, 신규 진입자
- 시장니즈 탐색: 고객, 채널, 영향자들
- 역량의 재해석: 내부역량, 파트너 네트워크
- 외부 참조 모델 기반의 문제 탐색: 유사, 동종 사례를 벤치마킹을 통해 분석 기회 발굴
- 분석 유즈 케이스 : 문제에 대한 상세한 설명 및 해당 문제 해결 시 발생 효과를 명시함으로써 데이터 분석 문제로의 전환 및 적합성 평가에 활용
2) 문제 정의 : 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계 - 데이터 기법 정의를 위해
3) 해결방안 탐색 : 분석역량 (Who), 분석기법 및 시스템 (How)으로 해결 방안 탐색 비즈니스 모델 기반 문제 탐색
4) 타당성 검토 : 경제적 타당성- 비용대비 편익 분석, 데이터 및 기술적 타당성 검토 - 분석역량
2. 상향식 접근 방식 (Bottom Up Approach) : 문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제를 지속적으로 개선하는 방식
- 기업이 보유하고 있는 다양한 원천 데이터로부터 분석을 통하여 통찰력과 지식을 얻는 접근방법
- 다양한 원천 데이터를 대상으로 분석을 수행하여 가치있는 모든 문제를 도출하는 일련의 과정
- 하향식 접근법은 논리적 단계별 접근법으로 최근의 복잡하고 다양한 환경에서 발생하는 문제를 해결하기 어렵기 때문에 디자인적 사고 접근법을 통해 WHY -> WHAT 관점으로 존재하는 데이터 자체를 객관적으로 관찰하여 문제를 해결햐려는 접근법 사용
- 비지도 학습방법으로 수행되며, 데이터 자체의 결합, 연관성, 유사성을 중심으로 접근
- 시행착오를 통한 문제 해결: 프로토타이핑 접근법
3. 분석과제 정의 : 분석 과제 정의서를 통해 분석별 필요 소스 데이터, 분석 방법, 데이터 입수 및 분석의 난이도, 분석 수행주기, 검증 오너십, 상세 분석 과정 등을 정의
[분석 프로젝트 관리 방안]
1. 분석과제 관리를 위한 5가지 주요 영역: 분석프로젝트는 범위, 일정, 품질, 리스크, 의사소통 등 영역별 관리가 수행되어야 할 뿐 아니라 데이터에 기반한 분석 기법을 적용한다는 특성 때문에 5가지 주요 속성을 고려하여 추가적인 관리가 필요 - Data Complexity, Speed, Analytic Complexity, Accuracy & Precision, Data Size
2. 분석 프로젝트의 특성
- 분석가의 목표: 개별적인 분석업무 수행 뿐만 아니라 전반적인 프로젝트 관리 또한 중요
- 분석가의 입장: 데이터 영역과 비즈니스 영역의 현황을 이해하고, 프로젝트의 목표인 분석의 정확도 발성과 결과에 대한 가치 이해를 전달하는 조정자로서의 분석가 역할이 중요
- 분석 프로젝트는 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되는 경우가 대부분이므로 프로토타이핑 방식의 애자일 Agile 프로젝트 관리방식에 대한 고려 필요
'STATISTICS > ADsP' 카테고리의 다른 글
3-1. 데이터 분석 기법의 이해 (0) | 2020.08.22 |
---|---|
2-2. 분석 마스터 플랜 (0) | 2020.08.22 |
참고 - 빅데이터 (0) | 2020.08.19 |
1-3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2020.08.18 |
1-2. 데이터의 가치와 미래 (0) | 2020.08.17 |