2과목 ch01데이터 분석 기획의 이해 - 02. 분석 방법론


분석 방법론의 모델 3가지

1) 폭포수 모델

단계를 순차적으로 진행, 이전 단계 -> 다음 단계

문제나 개선사항이 발견되면 전 단계로 돌아가는 Feedback과정이 수행되기도 함

2) 애자일 방법론(vs 폭포수 모델)

끊임없이 개발하고 수정하는 일 반복, 꾸준히 고객의 반응을 반영하며 고객 중심 소프트웨어 개발 방법론

주기적으로 제작한 프로토타입을 시험. 철저한 관리

3) 나선형 모델

여러 번의 개발과정을 거쳐 점진적으로 프로젝트를 완성시켜나가는 모델

처음 시도하는 프로젝트에 적용 용이

반복 관리 체계를 효과적으로 갖추지 못한 경우 복잡도가 높아져, 프로젝트 진행이 어려움

4) 프로토타입 모델

폭포수 모델의 단점 보완하기 위한 모델

프로토타입 : 시스템의 미완성 버전 또는 중요한 기능들이 포함되어 있는 초기모델

Tip : 폭포수(위->아래), 애자일(다람쥐 쳇바퀴, 끊임없이 수정반복), 나선형(나선처럼 점진적으로 확장), 프로토타입(자동차 개발시 미완성 버전 테스트)

기출 경향 : 객관식or주관식, 해당 영역 내용 제시 -> 적절한 분석 방법론은 물어보는 유형(위 4개 모델 용어 정확히 기억하기)

 

계층적 프로세스 모델(단계, 태스크, 스텝)

개념 : 데이터 분석 과정을 체계화한 모델 = 절차와 방법이 정리된 데이터 분석 방법론

단계(Phase) -> 태스크(Task) -> 스텝(Step)

단계 - 단계별 완료보고서, 최상위 계층, 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성되어야 함

태스크 - 보고서, 단계를 구성하는 단위 활동, 물리적 또는 논리적 단위로 품질검토의 항목

스텝 - 보고서 구성요소, [입력자료, 처리 및 도구, 출력자료]로 구성된 단위 프로세스, 일반적으로 방법론은 계층적 프로세스 모델의 형태로 구성


KDD 분석 절차

개념 : 데이터 마이닝 프로세스로써 데이터베이스에서 의미 있는 지식을 탐색하는 데이터 마이닝부터 기계학습, 인공지능 등 응용될 수 있는 구조를 갖고 있음

절차 :

1) 데이터셋 선택(Selection)

데이터베이스 또는 원시 데이터에서 분석에 필요한 데이터 선택 + 필요한 경우 데이터셋 생성

2) 데이터 전처리(Preprocessing)

추출된 데이터셋에 잡음(Noise), 이상값(Outlier), 결측치(Missing Value)를 식별하고 필요시 제거하거나 의미있는 데이터로 처리하는 정제작업을 시행

3) 데이터 변환(Transformation)

분석 목적에 맞는 변수를 선택, 데이터 차원 축소, 데이터 마이닝을 효율적으로 할 수 있게 데이터 변경

4) 데이터 마이닝(Data Mining)

분석 목적에 맞는 데이터 마이닝 기법 및 알고리즘 선택. 데이터의 패턴을 찾거나 데이터를 분류 또는 예측 등 마이닝 작업을 시행함

5) 데이터 마이닝 결과 평가(Interpretation/Evaluation)

결과에 대한 해석과 평가, 분석 목적과의 일치성 확인 후 활용

경향 : 대부분 객관식, 분석 절차 분석, 내용 제시 -> 어떤 순서에 해당되는지 물어봄


CRISP-DM분석

개념 : 6단계로 구성, 일방향(폭포수 모델)이 아님, 단계 간 피드백을 통하여 단계별 완성도를 높이는 것이 목적

1) 업무 이해

비즈니스 관점에서 프로젝트의 목적과 요구사항 이해

도메인 지식을 분석을 위한 문제정의로 변경하고 초기 프로젝트 계획을 수립하는 단계

2) 데이터 이해

데이터 수집 및 속성 이해, 품질에 대한 문제점 식별 및 인사이트 발견

초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인

3) 데이터 준비

데이터셋 편성 단계(많은 시간 소요)

데이터셋 선택 및 정제, 데이터셋 편성 및 통합, 데이터 포맷팅

4) 모델링

모델링 기법과 알고리즘 선택 -> 파라미터 최적화하는 단계 -> 모델 과적합 등의 문제 발견 및 대응 방안 마련

모델링 과정에서 데이터 셋이 추가로 필요한 경우, 데이터 준비 단계를 반복 수행할 수 있음

모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성 및 평가

파라미터 : 프로그램을 실행할 때 명령의 세부적인 동작을 구체적으로 지정하는 숫자나 문자

과적합 : 기계학습에서 학습 시 사용하는 데이터 집합을, 훈련데이터 집합으로 학습 데이터를 과하게 학습하는 것

5) 평가

결과를 수용할 것인지 판단하는 과정. 모델이 프로젝트 목적에 부합하는지 평가

분석결과, 모델링 과정, 모델 적용성 평가

6) 전개

완성된 모델을 실제 업무에 적용하기 위한 계획 수립, 모니터링과 유지보수 계획 마련

전개 계획 및 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성 및 리뷰

경향 : 객관식, 분석의 순서 물어봄, 내용 제시 -> 순서에 맞는 내용


빅데이터 방법론

1) 분석 기획

분석하려는 비즈시느 이해, 도메인의 문제점 파악, 프로젝트 범위를 확정하는 단계

2) 데이터 준비

데이터 정의 및 전사 차원의 데이터 스토어 준비

3) 데이터 분석

확보된 데이터를 이용하여 데이터 분석 프로세스 진행

4) 시스템 구현

운영중인 시스템에 구현 및 프로토타입 구현하고자 하는 경우

5) 평가 및 전개

발생된 모든 중간 산출물 정함. 종료 보고서 작성 및 보고

경향 : 객관식, 순서를 물어봄

 

 

728x90
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 라이프코리아트위터 공유하기
  • shared
  • 카카오스토리 공유하기