본문 바로가기
Etc./IT Tip

ADsP 2과목 1장 데이터 분석 기획 이해 D-13

by 리밋T 2022. 2. 13.
반응형
2과목 1장
1절 분석기획 방향성 도출

 

분석 방법론, 분석 프로세스 이해 필요.

분석/ 기획과 관련된 다양한 용어를 꼼꼼히 기억.

 

1. 분석기획

과제 정의, 결과 도출을 위해 적절한 관리방안을 사전에 계획하는 일련의 작업.

데이터 사이언티스트 = Math& Statistics, Information Technology, Domain Knowledge 필요.

분석 기획 = 전문성+ 수학 통계학적 지식 활용한 분석 역량+ 분석 도구인 데이터 및 프로그래밍 기술 역량에 대한 균형 잡힌 시각 => 방향성 및 계획 수립

 

2. 분석 대상과 방법 : 꼭!

분석 대상(What)을 알 때 : 분석방법(How)를 알면 Optimization 최적화

분석 대상(What)을 알 때 : 분석방법(How)를 모르면 Solution 솔루션

분석 대상(What)을 모를 때 : 분석방법(How)를 알면 Insight 통찰, 인사이트

분석 대상(What)을 모를 때 : 분석방법(How)를 모르면 Discovery 발견

 

3. 목표 시점별 분석 기획 방안

1) 과제 중심적인 접근 방식 = 과제 단위. 당면한 과제를 빠르게 해결

: 1차목표 Speed& Test, 과제유형 Quick&Win, 접근방식 Problem Solving

2) 장기적인 마스터 플랜 방식 = 마스터 플랜 단위. 지속적 분석 문화 내재화.

: 1차목표 Accuracy&Deploy, 과제유형 Long Term View, 접근방식 Problem Definition.

분석기획에서는 융합하여 적용. 의미있는 분석= 분석기술+IT 및 프로그래밍+도메인 전문성+의사소통

 

4. 분석 기획시 고려사항

가. 가용 데이터(Available Data) 고려

- 분석을 위한 데이터 확보가 우선. 데이터 유형 분석-> 적용 가능한 솔루션, 분석방법이 다름

나. 적절한 활용방안과 유즈케이스(Proper Business Use Case) 탐색

- 기존 유사 분석 시나리오 및 솔루션 최대한 활용

다. 장애요소들에 대한 사전계획 수립(Low Barrier of Execution)

- 일회석 분석 x, 조직 역량으로 내재화를 위해 충분+계속적 교육 및 활용방안 등의 변화 관리(Chane Management) 고려

 

*정형 데이터(Structured Data) : DB로 정제된 데이터. 데이터 자체로 분석O. RDB 구조. 데이터베이스로 관리. ERP, CRM, SCM 등 정보시스템

*반정형 데이터(Semi-structured Data) : 센서 중심으로 스트리밍되는 머신데이터. 데이터로 분석은 가능하나, 메타정보 활용해야만 해석 가능. 로그데이터, 모바일데이터, 센싱데이터

*비정형 데이터(Unstructured Data) : 이메일, 보고서, 소셜미디어 데이터. 데이터 자체로 분석 불가. 특정 처리 프로세스 거쳐 분석데이터로 변경 후 분석. 영상, 음성, 문자 등..

 

2절 분석 방법론

 

1. 개요

-체계화한 절차와 방법이 정리된 데이터 분석 방법론의 수립 = 효과적 기업 내 정착

-프로젝트는 개인 역량x 조직의 우연한 성공 x : 일정 품질의 산출물+프로젝트 성공 가능성 확보, 제시.

-절차 Procedures, 방법 Methods, 도구와 기법 Tools& Techniques, 템플릿과 산출물 Templates&Outputs.

-어느 정도의 지식만 있으면 활용이 가능해야 함.

-경험X감X->데이터 기반의 의사결정

 

*장애 요소 3가지 : 고정관념(Stereotype), 편향된 생각(Bias), 프레이밍 효과(Framing effect)

* 방법론의 생성과정 : [방법론]--내재화-->[암묵지]--형식화-->[형식지]--체계화-->[방법론]

 

2. 방법론의 적용 업무 특성에 따른 모델

!) 폭포수 모델(Waterfall Model) : 단계를 순차적으로 진행. 이전단계완료->다음단계 진행. 문제 발생 시 피드백.

2) 프로토타입 모델(Prototype Model) : 폭포수 모델 단점 보완. 고객 요구 이해 불완전 or 요구분석의 어려움을 해결하기 위해 일부분을 우선 개발하여 사용자에게 제공, 시험 사용. 이후 요구분석+정당성 점검, 성능평가-> 결과를 통한 개선 작업

3) 나선형 모델(Spiral Model) : 반복을 통해 점증적 개발. 처음 시도하는 프로젝트에 적용이 용이. but 관리 체계x-> 복잡도 상승.

 

3. 방법론의 구성

단계 : 최상위 계층. 프로세스 그룹 통해 완성된 개별 산출물 생성. 각 단계: 기준선 설정, 버전관리 등 통제.

=>단계별 완료 보고서

태스크 : 단계를 구성하는 단위 활동. 물리적/논리적 단위로 품질검토의 항목이 됨.

=>보고서

스탭 : WBS(Work Breakdown Structure)의 워크 패키지에 해당. 입력자료(Input), 처리및 도구(Process&Tool), 출력자료(Output)로 구성된 단위 프로세스.

=>보고서 구성요소

 

#KDD <->CRISP-DM 단계별 비교 문제가 자주 출제.
분석대상 비즈니스 이해 <-> 업무 이해
데이터셋 선택 <-> 데이터 이해
데이터 전처리 <-> 데이터 이해
데이터 변환 <-> 데이터 준비
데이터 마이닝 <-> 모델링
데이터 마이닝 결과 평가 <-> 평가
데이터 마이닝 활용 <-> 전개

 

1. KDD 분석 방법론

KDD(Knowledge Discovery in Databases) : 1996년. Fayyad. 프로파일링 기술 기반. 데이터로부터 통계적 패턴, 지식발견을 위한 데이터 마이닝 프로세스. 데이터마이닝/기계학습/인공지능/패턴인식/데이터시각화 등에 응용

 

1) KDD 분석 절차 * 꼭꼭 기억 *

(1)데이터셋 선택 Selection : 비즈니스 도메인 이해. 프로젝트 목표 설정. 목표데이터(targetdata) 구성

(2)데이터 전처리 Preprocessing : 잡음 Noise, 이상치 Outlier, 결측치 Missing Value 식별/제거/재처리->정제. 추가로 요구되는 데이터셋이 필요하면 데이터 선택 재실행.

(3)데이터 변환(Transformation) : 정제된 데이터에 분석 목적에 맞게 변수 생성, 선택하고 데이터 차원 축소. 학습용 데이터 training data와 검증용 데이터 test data로 데이터 분리.

(4)데이터 마이닝 : 학습용 데이터로 데이터마이닝 기법 선택, 실행.

필요시 데이터 전처리와 데이터 변환 프로세스 추가 실행.

(5)데이터마이닝 결과평가(Interpretation / Evaluation) : 데이터마이닝 결과에 대한 해석, 평가, 분석 목적과의 일치성 확인. 발견한 지식을 업무에 활용하기 위한 방안 마련. 필요시 (1)~(4) 반복수행.

 

2. CRISP-DM 분석 방법론

CRISP-DM(Cross Industry Standard Process for Data Mining) : 1996년, 유럽연합 ESPRIT, 5개 업체 주도(Daimler-Chrysler, SPSS, NCR, Teradata, OHRA). 계층적 프로세스 모델 : 4개 레벨로 구성.

 

1) CRISP-DM의 4레벨 구조 * 단계별 업무내용 꼭 기억 *

(1)Phases : 단계. 최상위 레벨.

(2)Generic Tasks : 일반화 태스크. 데이터마이닝의 단일 프로세스를 완전하게 수행하는 단위. ex)데이터 정제

(3)Specialized Tasks : 세분화 태스크. 구체적 수행 레벨. ex)범주형 데이터 정제와 연속형 데이터 정제로 구성

(4)Process Instances : 데이터마이닝을 위한 구체적인 실행 포함.

 

2) CRISP-DM의 프로세스 6단계 * 단계별 업무내용 꼭 기억 * : 단방향x. 단계 간 피드백->완성도 높임 !

(1)Business understanding 업무이해

: 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립 (도메인지식->데이터 분석 위한 문제정의)

(2)Data understanding 데이터 이해

: 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인. (숨겨진 인사이트 발견)

(3)Data preparation 데이터 준비

: 분석용 데이터셋 선택, 데이터 정제, 분석용 데이터셋 편성, 데이터 통합, 데이터 포맷팅

(4)Modeling 모델링

: 모델링 기법(+알고리즘) 선택, 파라미터 최적화, 모델 테스트 계획 설계, 모델 작성, 모델 평가(테스트용 데이터 셋으로 평가하여 모델의 과적합(Over-fitting) 문제를 확인.

(5)Evaluation 평가

: 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가(모델링 결과가 프로젝트 목적에 부합하는지)

(6)Deployment 전개

: (모델을 실 업무에 적용하기 위한)전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰

3. 빅데이터 분석 방법론

(1) 분석기획 Planning

--비즈니스 이해 및 범위설정

-비즈니스 이해

input 업무 매뉴얼, 전문가 지식, 빅데이터 분석대상 도메인의 관련자료

process/tool 자료수집 및 비즈니스 이해

output 비즈니스 이해 및 도메인 문제점

-프로젝트 범위 설정

input 중장기계획서, 빅데이터 분석 프로젝트 지시서, 비즈니스 이해 및 도메인 문제점

process/tool 자료수집 및 비즈니스 이해, 프로젝트 범위 정의서 작성 절차

output 프로젝트 범위 정의서 (SOW, Statement Of Work)

--프로젝트 정의 및 계획수립

-데이터 분석 프로젝트 정의

input SOW, 빅데이터 분석 프로젝트 지시서

process/tool 프로젝트 목표 구체화, 모델 운영 이미지 설계

output 프로젝트 정의서, 모델 운영 이미지 설계서, 모델평가 기준

-프로젝트 수행 계획 수립

input SOW, 모델 운영 이미지 설계서, 모델 평가 기준

process/tool SOW, WBS 작성

output 프로젝트 수행계획서(목적, 배경, 기대효과, 수행방법, 일정 및 추진조직, 프로젝트 관리방안), WBS(산출물 위주)

--프로젝트 위험계획 수립

-데이터 분석 위험 식별

input SOW, 프로젝트 수행 계획서, 선행 프로젝트 산출물 및 정리자료

process/tool 위험 식별 절차(전문가 판단 활용), 위험 영향도 및 발생가능성 분석, 위험 우선순위 판단

output 식별된 위험 목록

-위험 대응 계획 수립

input 식별된 위험 목록, SOW, 프로젝트수행계획서

process/tool 위험 정량적 분석, 위험 정성적 분석.

output 위험관리계획서 (회피(Avoid), 전이(Transfer), 완화(Mitigate), 수용(Aceept)로 구분하여 작성)

 

(2) 데이터 준비 Preparing

--필요 데이터 정의

-데이터 정의

input 프로젝트 수행계획서, 시스템 설계서, ERD, 메타데이터 정의서, 문서 자료

process/tool 내.외부 데이터 정의, 정형/비정형/반정형 데이터 정의..(분석에 필요한 데이터 정의)

output 데이터 정의서

-데이터 획득방안 수립

input 데이터 정의서, 시스템 설계서, ERD, 메타데이터 정의서, 문서 자료, 데이터 구입

process/tool 데이터 획득방안 수립 (내부-부서간 업무협조/개인정보보호 및 정보보안 관련 문제점 사전 점검. 외부-다양한 인터페이스 및 법적 문제 고려)

output 데이터 획득 계획서

--데이터 스토어 설계

-정형 데이터 스토어 설계 : 일반적으로 관계형 데이터베이서 RDBMS 사용. 논리적, 물리적 설계 구분.

input 데이터 정의서, 데이터 획득 계획서

process/tool 데이터베이스 논리, 물리 설계 . 데이터 매핑

output 정형 데이터 스토어 설계서, 데이터 매핑 정의서

-비정형 데이터 스토어 설계 : 하둡,NoSQL 등.

input 데이터 정의서, 데이터 획득 계획서

process/tool 비정형.반정형 데이터 논리, 물리 설계.

output 비정형 데이터 스토어 설계서, 데이터 매핑 정의서

--데이터 수집 및 정합성 점검

-데이터 수집 및 저장 : 크롤링 등 데이터 수집 위한 ETL등 도구, API,스크립트 프로그램 이용해 데이터 수집-> 설계된 데이터 스토어에 저장

input 데이터 정의서, 데이터 획득 계획서, 데이터 스토어 설계서

process/tool 데이터 크롤링 도구, ETL 도구, 데이터 수집 스크립트

output 수집된 분석용 데이터

-데이터 정합성 점검 : 품질개선 필요한 부분 보완 작업

input 수집된 분석용 데이터

process/tool 데이터 품질 확인, 정합성 점검 리스트

output 정합성 점검 보고서

 

(3) 데이터 분석 Analyzing

--분석용 데이터 준비

-비즈니스 룰 확인

input 프로젝트 정의서, 프로젝트 수행 계획서, 데이터 정의서, 데이터 스토어

process/tool 프로젝트 목표 확인, 비즈니스 룰 확인

output 비즈니스 룰, 분석에 필요한 데이터 범위

-분석용 데이터셋 준비 : 데이터 스토어로부터 분석에 필요한 정형/비정형 데이터 추출. 적절한 가공. 데이터베이스나 구조화된 형태로 구성.

input 데이터 정의서, 데이터 스토어

process/tool 데이터 선정, 데이터 변환, ETL 도구

output 분석용 데이터셋

--텍스트분석

-텍스트 데이터 확인 및 추출

input 비정형 데이터 스토어

process/tool 분석용 텍스트데이터 확인, 텍스트데이터 추출

output 분석용 텍스트데이터

-텍스트데이터 분석 (구축된 모델은 시각화 도구 이용, 의미전달)

input 분석용 텍스스데이터, 유의어사전, 불용어사전 등의 용어사전

process/tool 분류체계 설계,, 형태소분석, 키워드 도출, 토픽분석, 감성분석, 의견분석, 네트워크분석

output 텍스트분석 보고서

--탐색적 분석

-탐색적 데이터 분석 : 다양한 관점, 기초 통계량, 분포, 변수간 관계 등 통계적 특성 이해/ 모델링 기초자료로 활용

input 분석용 데이터셋

process/tool EDA도구, 통계분석, 연관성분석, 데이터 분포 확인

output 데이터 탐색 보고서

-데이터 시각화 : 사용자 인터페이스 or 프로토타입으로 활용 가능

input 분석용 데이터셋

process/tool 시각화도구, 시각화 패키지, 인포그래픽, 시각화 방법론

output 데이터 시각화 보고서

--모델링

-데이터 분할 : 과적합, 일반화. 검증횟수/모델링 기법에 따라 생성모델 개수 설정.

input 분석용 데이터셋

process/tool 데이터 분할 패키지

output 훈련용 데이터, 테스트용 데이터

-데이터 모델링 : 분류,예측,군집 등 모델링. 

input 분석용 데이터셋

process/tool 통계 모델링 기법, 기계학습, 모델 테스트

output 모델링 결과 보고서

-모델 적용 및 운영 방안 : 가동중인 운영시스템에 적용하기 위해서 설명서 필요.

input 모델링 결과 보고서

process/tool 모니터링 방안 수립, 알고리즘 설명서 작성

output 모니터링 방안, 알고리즘 설명서

--모델 평가 및 검증

-모델 평가 : 품질관리 차원. 모델 결과 보고서 내 알고리즘 파악 필수. 필요시 검증을 위한 별도 데이터 활용.

input 모델링 결과 보고서, 평가용 데이터

process/tool 모델평가, 모델 품질관리, 모델 개선작업

output 모델 평가 보고서

-모델 검증 : 실적용성 검증. 검증용 데이터(실 운영용 데이터)로 모델 품질 최종 검증

input 모델링 결과 보고서, 모델 평가 보고서, 검증용 데이터

process/tool 모델 검증

output 모델 검증 보고서

 

(4) 시스템 구현 Developing

--설계 및 구현

-시스템 분석 및 설계 : 응용시스템 구축 설계.

input 알고리즘 설명서, 운영중인 시스템 설계서

process/tool 정보시스템 개발 방법론

output 시스템 분석 및 설계서

-시스템 구현

input 시스템 분석 및 설계서, 알고리즘 설명서

process/tool 시스템 통합 개발 도구(IDE), 프로그램 언어 패키지

output 구현 시스템

--시스템 테스트 및 운영

-시스템 테스트

input 구현 시스템, 시스템 테스트 계획서

process/tool 품질관리 활동

output 시스템 테스트 결과보고서

-시스템 운영계획

input 시스템 분석 및 설계서, 구현 시스템

process/tool 운영계획 수립, 운영자 및 사용자교육

output 운영자 매뉴얼, 사용자 매뉴얼, 시스템 운영 계획서

 

(5) 평가 및 전개 Deploying

--모델 발전 계획 수립

-모델 발전 계획

input 구현 시스템, 프로젝트 산출물

process/tool 모델 발전 계획 수립

output 모델 발전 계획서

--프로젝트 평가 및 보고

-프로젝트 성과평가

input 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서

process/tool 프로젝트 평가기준, 프로젝트 정량적 평가, 프로젝트 정성적 평가

output 프로젝트 성과 평가서

-프로젝트 종료 : 모든 산출물 및 프로세스를 지식 자산화, 최종보고서 작성-보고-종료.

input 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서, 프로젝트 성과 평가서

process/tool 프로젝트 지식자산화 작업, 프로젝트 종료

output 프로젝트 최종 보고서

반응형

댓글