2과목 1장
1절 분석기획 방향성 도출
분석 방법론, 분석 프로세스 이해 필요.
분석/ 기획과 관련된 다양한 용어를 꼼꼼히 기억.
1. 분석기획
과제 정의, 결과 도출을 위해 적절한 관리방안을 사전에 계획하는 일련의 작업.
데이터 사이언티스트 = Math& Statistics, Information Technology, Domain Knowledge 필요.
분석 기획 = 전문성+ 수학 통계학적 지식 활용한 분석 역량+ 분석 도구인 데이터 및 프로그래밍 기술 역량에 대한 균형 잡힌 시각 => 방향성 및 계획 수립
2. 분석 대상과 방법 : 꼭!
분석 대상(What)을 알 때 : 분석방법(How)를 알면 Optimization 최적화
분석 대상(What)을 알 때 : 분석방법(How)를 모르면 Solution 솔루션
분석 대상(What)을 모를 때 : 분석방법(How)를 알면 Insight 통찰, 인사이트
분석 대상(What)을 모를 때 : 분석방법(How)를 모르면 Discovery 발견
3. 목표 시점별 분석 기획 방안
1) 과제 중심적인 접근 방식 = 과제 단위. 당면한 과제를 빠르게 해결
: 1차목표 Speed& Test, 과제유형 Quick&Win, 접근방식 Problem Solving
2) 장기적인 마스터 플랜 방식 = 마스터 플랜 단위. 지속적 분석 문화 내재화.
: 1차목표 Accuracy&Deploy, 과제유형 Long Term View, 접근방식 Problem Definition.
분석기획에서는 융합하여 적용. 의미있는 분석= 분석기술+IT 및 프로그래밍+도메인 전문성+의사소통
4. 분석 기획시 고려사항
가. 가용 데이터(Available Data) 고려
- 분석을 위한 데이터 확보가 우선. 데이터 유형 분석-> 적용 가능한 솔루션, 분석방법이 다름
나. 적절한 활용방안과 유즈케이스(Proper Business Use Case) 탐색
- 기존 유사 분석 시나리오 및 솔루션 최대한 활용
다. 장애요소들에 대한 사전계획 수립(Low Barrier of Execution)
- 일회석 분석 x, 조직 역량으로 내재화를 위해 충분+계속적 교육 및 활용방안 등의 변화 관리(Chane Management) 고려
*정형 데이터(Structured Data) : DB로 정제된 데이터. 데이터 자체로 분석O. RDB 구조. 데이터베이스로 관리. ERP, CRM, SCM 등 정보시스템
*반정형 데이터(Semi-structured Data) : 센서 중심으로 스트리밍되는 머신데이터. 데이터로 분석은 가능하나, 메타정보 활용해야만 해석 가능. 로그데이터, 모바일데이터, 센싱데이터
*비정형 데이터(Unstructured Data) : 이메일, 보고서, 소셜미디어 데이터. 데이터 자체로 분석 불가. 특정 처리 프로세스 거쳐 분석데이터로 변경 후 분석. 영상, 음성, 문자 등..
2절 분석 방법론
1. 개요
-체계화한 절차와 방법이 정리된 데이터 분석 방법론의 수립 = 효과적 기업 내 정착
-프로젝트는 개인 역량x 조직의 우연한 성공 x : 일정 품질의 산출물+프로젝트 성공 가능성 확보, 제시.
-절차 Procedures, 방법 Methods, 도구와 기법 Tools& Techniques, 템플릿과 산출물 Templates&Outputs.
-어느 정도의 지식만 있으면 활용이 가능해야 함.
-경험X감X->데이터 기반의 의사결정
*장애 요소 3가지 : 고정관념(Stereotype), 편향된 생각(Bias), 프레이밍 효과(Framing effect)
* 방법론의 생성과정 : [방법론]--내재화-->[암묵지]--형식화-->[형식지]--체계화-->[방법론]
2. 방법론의 적용 업무 특성에 따른 모델
!) 폭포수 모델(Waterfall Model) : 단계를 순차적으로 진행. 이전단계완료->다음단계 진행. 문제 발생 시 피드백.
2) 프로토타입 모델(Prototype Model) : 폭포수 모델 단점 보완. 고객 요구 이해 불완전 or 요구분석의 어려움을 해결하기 위해 일부분을 우선 개발하여 사용자에게 제공, 시험 사용. 이후 요구분석+정당성 점검, 성능평가-> 결과를 통한 개선 작업
3) 나선형 모델(Spiral Model) : 반복을 통해 점증적 개발. 처음 시도하는 프로젝트에 적용이 용이. but 관리 체계x-> 복잡도 상승.
3. 방법론의 구성
단계 : 최상위 계층. 프로세스 그룹 통해 완성된 개별 산출물 생성. 각 단계: 기준선 설정, 버전관리 등 통제.
=>단계별 완료 보고서
태스크 : 단계를 구성하는 단위 활동. 물리적/논리적 단위로 품질검토의 항목이 됨.
=>보고서
스탭 : WBS(Work Breakdown Structure)의 워크 패키지에 해당. 입력자료(Input), 처리및 도구(Process&Tool), 출력자료(Output)로 구성된 단위 프로세스.
=>보고서 구성요소
#KDD <->CRISP-DM 단계별 비교 문제가 자주 출제.
분석대상 비즈니스 이해 <-> 업무 이해
데이터셋 선택 <-> 데이터 이해
데이터 전처리 <-> 데이터 이해
데이터 변환 <-> 데이터 준비
데이터 마이닝 <-> 모델링
데이터 마이닝 결과 평가 <-> 평가
데이터 마이닝 활용 <-> 전개
1. KDD 분석 방법론
KDD(Knowledge Discovery in Databases) : 1996년. Fayyad. 프로파일링 기술 기반. 데이터로부터 통계적 패턴, 지식발견을 위한 데이터 마이닝 프로세스. 데이터마이닝/기계학습/인공지능/패턴인식/데이터시각화 등에 응용
1) KDD 분석 절차 * 꼭꼭 기억 *
(1)데이터셋 선택 Selection : 비즈니스 도메인 이해. 프로젝트 목표 설정. 목표데이터(targetdata) 구성
(2)데이터 전처리 Preprocessing : 잡음 Noise, 이상치 Outlier, 결측치 Missing Value 식별/제거/재처리->정제. 추가로 요구되는 데이터셋이 필요하면 데이터 선택 재실행.
(3)데이터 변환(Transformation) : 정제된 데이터에 분석 목적에 맞게 변수 생성, 선택하고 데이터 차원 축소. 학습용 데이터 training data와 검증용 데이터 test data로 데이터 분리.
(4)데이터 마이닝 : 학습용 데이터로 데이터마이닝 기법 선택, 실행.
필요시 데이터 전처리와 데이터 변환 프로세스 추가 실행.
(5)데이터마이닝 결과평가(Interpretation / Evaluation) : 데이터마이닝 결과에 대한 해석, 평가, 분석 목적과의 일치성 확인. 발견한 지식을 업무에 활용하기 위한 방안 마련. 필요시 (1)~(4) 반복수행.
2. CRISP-DM 분석 방법론
CRISP-DM(Cross Industry Standard Process for Data Mining) : 1996년, 유럽연합 ESPRIT, 5개 업체 주도(Daimler-Chrysler, SPSS, NCR, Teradata, OHRA). 계층적 프로세스 모델 : 4개 레벨로 구성.
1) CRISP-DM의 4레벨 구조 * 단계별 업무내용 꼭 기억 *
(1)Phases : 단계. 최상위 레벨.
(2)Generic Tasks : 일반화 태스크. 데이터마이닝의 단일 프로세스를 완전하게 수행하는 단위. ex)데이터 정제
(3)Specialized Tasks : 세분화 태스크. 구체적 수행 레벨. ex)범주형 데이터 정제와 연속형 데이터 정제로 구성
(4)Process Instances : 데이터마이닝을 위한 구체적인 실행 포함.
2) CRISP-DM의 프로세스 6단계 * 단계별 업무내용 꼭 기억 * : 단방향x. 단계 간 피드백->완성도 높임 !
(1)Business understanding 업무이해
: 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립 (도메인지식->데이터 분석 위한 문제정의)
(2)Data understanding 데이터 이해
: 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인. (숨겨진 인사이트 발견)
(3)Data preparation 데이터 준비
: 분석용 데이터셋 선택, 데이터 정제, 분석용 데이터셋 편성, 데이터 통합, 데이터 포맷팅
(4)Modeling 모델링
: 모델링 기법(+알고리즘) 선택, 파라미터 최적화, 모델 테스트 계획 설계, 모델 작성, 모델 평가(테스트용 데이터 셋으로 평가하여 모델의 과적합(Over-fitting) 문제를 확인.
(5)Evaluation 평가
: 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가(모델링 결과가 프로젝트 목적에 부합하는지)
(6)Deployment 전개
: (모델을 실 업무에 적용하기 위한)전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰
3. 빅데이터 분석 방법론
(1) 분석기획 Planning
--비즈니스 이해 및 범위설정
-비즈니스 이해
input 업무 매뉴얼, 전문가 지식, 빅데이터 분석대상 도메인의 관련자료
process/tool 자료수집 및 비즈니스 이해
output 비즈니스 이해 및 도메인 문제점
-프로젝트 범위 설정
input 중장기계획서, 빅데이터 분석 프로젝트 지시서, 비즈니스 이해 및 도메인 문제점
process/tool 자료수집 및 비즈니스 이해, 프로젝트 범위 정의서 작성 절차
output 프로젝트 범위 정의서 (SOW, Statement Of Work)
--프로젝트 정의 및 계획수립
-데이터 분석 프로젝트 정의
input SOW, 빅데이터 분석 프로젝트 지시서
process/tool 프로젝트 목표 구체화, 모델 운영 이미지 설계
output 프로젝트 정의서, 모델 운영 이미지 설계서, 모델평가 기준
-프로젝트 수행 계획 수립
input SOW, 모델 운영 이미지 설계서, 모델 평가 기준
process/tool SOW, WBS 작성
output 프로젝트 수행계획서(목적, 배경, 기대효과, 수행방법, 일정 및 추진조직, 프로젝트 관리방안), WBS(산출물 위주)
--프로젝트 위험계획 수립
-데이터 분석 위험 식별
input SOW, 프로젝트 수행 계획서, 선행 프로젝트 산출물 및 정리자료
process/tool 위험 식별 절차(전문가 판단 활용), 위험 영향도 및 발생가능성 분석, 위험 우선순위 판단
output 식별된 위험 목록
-위험 대응 계획 수립
input 식별된 위험 목록, SOW, 프로젝트수행계획서
process/tool 위험 정량적 분석, 위험 정성적 분석.
output 위험관리계획서 (회피(Avoid), 전이(Transfer), 완화(Mitigate), 수용(Aceept)로 구분하여 작성)
(2) 데이터 준비 Preparing
--필요 데이터 정의
-데이터 정의
input 프로젝트 수행계획서, 시스템 설계서, ERD, 메타데이터 정의서, 문서 자료
process/tool 내.외부 데이터 정의, 정형/비정형/반정형 데이터 정의..(분석에 필요한 데이터 정의)
output 데이터 정의서
-데이터 획득방안 수립
input 데이터 정의서, 시스템 설계서, ERD, 메타데이터 정의서, 문서 자료, 데이터 구입
process/tool 데이터 획득방안 수립 (내부-부서간 업무협조/개인정보보호 및 정보보안 관련 문제점 사전 점검. 외부-다양한 인터페이스 및 법적 문제 고려)
output 데이터 획득 계획서
--데이터 스토어 설계
-정형 데이터 스토어 설계 : 일반적으로 관계형 데이터베이서 RDBMS 사용. 논리적, 물리적 설계 구분.
input 데이터 정의서, 데이터 획득 계획서
process/tool 데이터베이스 논리, 물리 설계 . 데이터 매핑
output 정형 데이터 스토어 설계서, 데이터 매핑 정의서
-비정형 데이터 스토어 설계 : 하둡,NoSQL 등.
input 데이터 정의서, 데이터 획득 계획서
process/tool 비정형.반정형 데이터 논리, 물리 설계.
output 비정형 데이터 스토어 설계서, 데이터 매핑 정의서
--데이터 수집 및 정합성 점검
-데이터 수집 및 저장 : 크롤링 등 데이터 수집 위한 ETL등 도구, API,스크립트 프로그램 이용해 데이터 수집-> 설계된 데이터 스토어에 저장
input 데이터 정의서, 데이터 획득 계획서, 데이터 스토어 설계서
process/tool 데이터 크롤링 도구, ETL 도구, 데이터 수집 스크립트
output 수집된 분석용 데이터
-데이터 정합성 점검 : 품질개선 필요한 부분 보완 작업
input 수집된 분석용 데이터
process/tool 데이터 품질 확인, 정합성 점검 리스트
output 정합성 점검 보고서
(3) 데이터 분석 Analyzing
--분석용 데이터 준비
-비즈니스 룰 확인
input 프로젝트 정의서, 프로젝트 수행 계획서, 데이터 정의서, 데이터 스토어
process/tool 프로젝트 목표 확인, 비즈니스 룰 확인
output 비즈니스 룰, 분석에 필요한 데이터 범위
-분석용 데이터셋 준비 : 데이터 스토어로부터 분석에 필요한 정형/비정형 데이터 추출. 적절한 가공. 데이터베이스나 구조화된 형태로 구성.
input 데이터 정의서, 데이터 스토어
process/tool 데이터 선정, 데이터 변환, ETL 도구
output 분석용 데이터셋
--텍스트분석
-텍스트 데이터 확인 및 추출
input 비정형 데이터 스토어
process/tool 분석용 텍스트데이터 확인, 텍스트데이터 추출
output 분석용 텍스트데이터
-텍스트데이터 분석 (구축된 모델은 시각화 도구 이용, 의미전달)
input 분석용 텍스스데이터, 유의어사전, 불용어사전 등의 용어사전
process/tool 분류체계 설계,, 형태소분석, 키워드 도출, 토픽분석, 감성분석, 의견분석, 네트워크분석
output 텍스트분석 보고서
--탐색적 분석
-탐색적 데이터 분석 : 다양한 관점, 기초 통계량, 분포, 변수간 관계 등 통계적 특성 이해/ 모델링 기초자료로 활용
input 분석용 데이터셋
process/tool EDA도구, 통계분석, 연관성분석, 데이터 분포 확인
output 데이터 탐색 보고서
-데이터 시각화 : 사용자 인터페이스 or 프로토타입으로 활용 가능
input 분석용 데이터셋
process/tool 시각화도구, 시각화 패키지, 인포그래픽, 시각화 방법론
output 데이터 시각화 보고서
--모델링
-데이터 분할 : 과적합, 일반화. 검증횟수/모델링 기법에 따라 생성모델 개수 설정.
input 분석용 데이터셋
process/tool 데이터 분할 패키지
output 훈련용 데이터, 테스트용 데이터
-데이터 모델링 : 분류,예측,군집 등 모델링.
input 분석용 데이터셋
process/tool 통계 모델링 기법, 기계학습, 모델 테스트
output 모델링 결과 보고서
-모델 적용 및 운영 방안 : 가동중인 운영시스템에 적용하기 위해서 설명서 필요.
input 모델링 결과 보고서
process/tool 모니터링 방안 수립, 알고리즘 설명서 작성
output 모니터링 방안, 알고리즘 설명서
--모델 평가 및 검증
-모델 평가 : 품질관리 차원. 모델 결과 보고서 내 알고리즘 파악 필수. 필요시 검증을 위한 별도 데이터 활용.
input 모델링 결과 보고서, 평가용 데이터
process/tool 모델평가, 모델 품질관리, 모델 개선작업
output 모델 평가 보고서
-모델 검증 : 실적용성 검증. 검증용 데이터(실 운영용 데이터)로 모델 품질 최종 검증
input 모델링 결과 보고서, 모델 평가 보고서, 검증용 데이터
process/tool 모델 검증
output 모델 검증 보고서
(4) 시스템 구현 Developing
--설계 및 구현
-시스템 분석 및 설계 : 응용시스템 구축 설계.
input 알고리즘 설명서, 운영중인 시스템 설계서
process/tool 정보시스템 개발 방법론
output 시스템 분석 및 설계서
-시스템 구현
input 시스템 분석 및 설계서, 알고리즘 설명서
process/tool 시스템 통합 개발 도구(IDE), 프로그램 언어 패키지
output 구현 시스템
--시스템 테스트 및 운영
-시스템 테스트
input 구현 시스템, 시스템 테스트 계획서
process/tool 품질관리 활동
output 시스템 테스트 결과보고서
-시스템 운영계획
input 시스템 분석 및 설계서, 구현 시스템
process/tool 운영계획 수립, 운영자 및 사용자교육
output 운영자 매뉴얼, 사용자 매뉴얼, 시스템 운영 계획서
(5) 평가 및 전개 Deploying
--모델 발전 계획 수립
-모델 발전 계획
input 구현 시스템, 프로젝트 산출물
process/tool 모델 발전 계획 수립
output 모델 발전 계획서
--프로젝트 평가 및 보고
-프로젝트 성과평가
input 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서
process/tool 프로젝트 평가기준, 프로젝트 정량적 평가, 프로젝트 정성적 평가
output 프로젝트 성과 평가서
-프로젝트 종료 : 모든 산출물 및 프로세스를 지식 자산화, 최종보고서 작성-보고-종료.
input 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서, 프로젝트 성과 평가서
process/tool 프로젝트 지식자산화 작업, 프로젝트 종료
output 프로젝트 최종 보고서
'Etc. > IT Tip' 카테고리의 다른 글
[PowerBI] 1분만에 테이블에서 특정 열 숨기기 (0) | 2022.02.15 |
---|---|
ADsP 2과목 하향식 접근법과 상향식 접근법 비교 D-12 (0) | 2022.02.14 |
일반전화 착신해제 핸드폰 착신전환 LG 사무실 전화 돌리기 방법 (0) | 2021.01.23 |
아고다 할인코드 링크 적용 테스트 실험 (0) | 2020.11.15 |
파워포인트 빨간줄 없애기 ppt 맞춤법 검사 딱 3가지 방법으로! (0) | 2020.09.07 |
댓글