0. 데이터 사이언스 관련 용어 개념 정리(개념+주관적 해석)

 

1) AI란 무엇이라고 생각하나?

- 기계가 사람을 흉내낼 수 있는 기술이자 알고리즘

- 사람이 하기 힘든 일을 자동화시켜 효율적인 시스템을 구축하는 것.

- 굳이 사람이 나서지 않아도 되는 부분을 AI로 처리하는 것이 핵심이라고 생각.

- EX) 금융권에서 영업업무 시간대가 아닐 때, 고객 상담을 위해 금융 상담 챗봇 서비스

 

2) ML(머신러닝)이란 무엇이라고 생각하나?

- 데이터를 활용해 컴퓨터가 모델을 통해 학습하는 기술이자 알고리즘.

- ML의 핵심은 데이터, 즉 과거의 수 많은 데이터를 바탕으로 모델을 학습시켜 미래에 일어나는 일을 예측해내는 것

- EX) 앱 내 고객의 로그 기록을 바탕으로, 행동 패턴을 분석해 물건 구매 여부를 예측하는 알고리즘

 

3) DL(딥러닝)이란 무엇이라고 생각하나?

- ML의 일부분이나 인간의 뇌를 본 따 만든 신경망 구조를 가지고 있어 좀 더 세밀한 부분까지 학습이 가능함

- ML과 DL의 가장 핵심은 비선형적인 특징이라고 생각, 즉 데이터의 패턴을 학습시킬 때 좀 더 Fitting하게 학습 가능

- 하지만 딥러닝의 위험은 과적합, 혹은 수많은 데이터 일 때 효과적. 컴퓨팅 파워가 문제점이라고 생각

- EX) 네이버 파파고의 기계 번역 시스템.

 

4) 데이터 마이닝이란? (=데이터 사이언스)

- 데이터로부터 패턴을 찾고, 인사이트를 추출하는 방법론

- 머신러닝과 다른 점은, 데이터의 학습적인 면보다는 유의미한 분석. 인사이트 창출이 핵심이라고 생각

- EX) 1, 1, 1, 1, 1 라는 데이터가 있다면 ML은 다음 숫자 값을 1이라고 예측할 것. 하지만 데이터 마이닝은 1이라는 숫자가 5번이나 나타나고 평균값과 중앙값이 1이라는 통계적인 수치와 현상에 대한 패턴을 찾는 것이라고 생각함.

 

5) 데이터 사이언스에서 선형대수는 어떻게 이용되는가?

- 선형대수는 행렬을 이용하여 문제를 해결하는 수학 원리

- 데이터가 여러 변수로 있다면 N차원으로 확장되며, 이 값들이 어떠한 공간 상에서 점들로 표현됨

- 이 표현되는 점들을 선형적인 원리를 바탕으로, 수치적으로 해석하기 위해 이용

- EX) PCA 기법에서 공분산 행렬을 찾고, 이를 바탕으로 고유값과 고유벡터를 바탕으로 주성분을 찾는 원리

 

6) 데이터 사이언스에서 응용통계학이 중요한 이유?

- 통계학을 이용하여 데이터의 현상을 파악하여, 문제에 적용하기 위해 중요

- 실제 ML에서 많이 쓰이는 회귀 모델은 응용통계학에서 시작되었으며, 숫자를 볼 때 직관적으로 통계기법을 활용해 파악하는 능력이 중요하다고 생각함

- EX) 숫자형 변수가 여러 개 있을 때 상관관계를 바탕으로 패턴을 찾아내고, 다중공선성을 검증하여 회귀 모델 구현

728x90
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 라이프코리아트위터 공유하기
  • shared
  • 카카오스토리 공유하기