2과목 ch01데이터 분석 기획의 이해 - 01데이터 분석 기회의 이해


분석 기획이란?

1) 실제 분석을 시작하기 앞서, 수행할 문제를 분석으로 이끌 수 있도록 사전에 계획하는 작업

2) 직접 수행하지 않고 목표(what)를 달성하기 위해(why) 어떤 데이터를 어떤 방식으로(how) 수행할 지 수립하는 작업

3) 성공적인 분석 결과를 도출하기 위해 중요한 사전 작업


데이터 사이언스 역량

분석을 기획한다 -> 방향성 및 계획을 수립

분석 연량 - 문제영역에 대한 전문성 및 수학/통계학적 지식 활용

균형 잡힌 시각 - 분석의 도구인 데이터 및 프로그래밍 기술 역량


분석 주제 유형

Tip : 다 알면 최적화, 다 모르면 발견, 대상 모르면 통찰, 방법 모르면 솔루션(표 외우기)


분석 주제 해결과 지속적인 분석 문화 내재화

목표 시점

1) 과제 중심적인 접근 방식 - 당면한 과제를 빠르게 해결(과제단위)

속도와 검사, 즉각적인 실행을 통한 성과 도출, 문제 해결

2) 장기적 마스터 플랜 방식 - 지속적인 분석 내재화(마스터 플랜 단위)

정확도와 전개, 장기적인 관점, 문제 정의

Tip: "과제 중심적인 접근 방식이 아닌 것"은? -> 당면한 분석 주제의 해결은 속도와 검사 중심, 지속적인 분석 문화 내재화는 정확한 전개 길게 정의


분석 기획 시 고려사항

1) 가용한 데이터

데이터에 대한 고려 필요, 데이터 확보 필수, 데이터 유형에 따라 유형 분석 선행적으로 이루어져야 함

2) 적절한 유스케이스

분석을 통해서 가치가 창출될 수 있는 적절한 활용 방안과 유스케이스 탐색 필요

"바퀴를 재발명하지 마라"는 격언처럼 기존에 좋게 활용이 된다면 최대한 활용하는 것이 중요

3) 과제분석 수행을 위한 장애요소

장애요소들에 대한 사전 계획 수립이 필요함

사용자가 쉽게 이해할 수 있도록 방안 수립, 수행 시 일어나는 문제에 대한 고려 필요

Tip: '가용한 데이터'를 '적절한 유스케이스'에 담아서 '장애요소로부터 보호'한다.


데이터의 종류

1) 정형데이터

형태가 있고 연산 가능(주로 관계형 데이터 베이스). 처리가 쉬움

데이터 수집 난이도 낮음. 대부분 내부 시스템

ex) 관계형 데이터베이스, 스프레드시트, CSV 등

2) 비정형데이터

형태 X, 연산 X

주로 NoSQL에 저장됨. 데이터 수집 난이도가 높음.

파일을 데이터 형태로 파싱해야 하기 때문에 수집 데이터 처리가 어려움

ex) 소셜데이터(트위터, 페이스북), e-mail, 보고서, GPS

3) 반정형데이터

형태(스키마, 메타데이터)가 있으나 연산X

주로 파일에 저장됨. 데이터 수집 난이도 중간

보통 API형태로 제공되기 때문에 데이터 처리 기술이 요구됨

ex) XML, HTML, 로그형태(웹로드, 센서데이터), machine data 등

728x90
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 라이프코리아트위터 공유하기
  • shared
  • 카카오스토리 공유하기