데이터 사이언스 사용 설명서

1. 회귀분석 1) 회귀분석의 정의 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정하는 통계 기법 X의 정보를 활용해서 Y를 예측하는 방법 2) 회귀분석의 변수 X(영향을 주는 변수) : 입력변수, 설명변수, 독립변수, 예측변수 Y(영향을 받는 변수) : 출력변수, 반응변수, 종속변수, 결과변수 2. 단순 선형 회귀분석 하나의 독립변수가 종속변수에 미치는 영향을 추정할 수 있는 통계법 1) 단순 선형 회귀분석의 구성 B0 : 절편 B1 : 기울기 ε : 오차항 B0과 B1은 회귀계수로도 불림 2) 최소제곱법(최소자승법)을 이용한 회귀계수의 추정 실제 값의 오차의 제곱의 합이 최소가 되는 값을 구하는 방식으로 잔체제곱이 가장 작은 선을 구하는 것 최소제곱법 : 근사적으로 구하려는 해와 실제 해의 오..

기계학습/Machine Learning 2020. 3. 2. 13:30

(SM) 머신러닝(Machine Learning) - 지도학습, 비지도학습, 강화학습

참고 1 패스트캠퍼스 온라인강의 머신러닝과 데이터분석 A-Z 참고 2 https://blog.naver.com/handuelly/221823696658 참고 3 https://wendys.tistory.com/169 머신 러닝(Machine Learning)은 데이터를 이용해서 컴퓨터를 학습 시키는 것으로, 구현하는 알고리즘(방법)은 3가지로 구분된다. 1 - 지도학습, 2 - 비지도학습, 3- 강화학습 1. 지도학습(supervised learning) Y = F(X)에 대하여 입력 변수(X)와 출력 변수(Y)의 관계에 대하여 모델링하는 것 데이터(x, input)에 대한 명시적 정답인 레이블(y, output)이 주어진 상태에서 컴퓨터를 학습시키는 방법 예를 들어 3x5 = 15, 6x4 =24등을 ..

데이터 사이언스 메뉴얼/Machine Learning 2020. 3. 2. 00:50

(JH) 선형회귀(Linear Regression) - Do it 딥러닝 입문 2

1번 글에서는 '오차 역전파'를 통해서 역방향 계산을 하는 과정을 포스팅 했었다. 실제로는 경사하강법은 '손실함수'라는 개념을 사용하여 나온 방법이다. 경사하강법의 정의 : '어떤 손실함수(loss function)가 정의되었을 때, 손실 함수의 값이 최소가 되는 지점을 찾아가는 방법' 앞에서 본 결과는 손실 오차 중 제곱오차(Squared Error)를 미분한 결과와 동일하다. ■ 손실함수란 무엇인가? 어떤 모델이 좋은 모델이고 어떤 모델이 안좋은 모델일까? 그것에 대한 기준은 무엇일까? 모델A가 모델 B보다 좋은 모델이다.' = '모델 A가 모델 B보다 나쁘지 않은 모델이다.' 라는 아이디어에서 착안하여 모델의 적합성을 판단하는 기준 : 오차의 정도 (이 글에서는 손실함수 중 제곱 오차(SE)를 사용..

기계학습/Machine Learning 2020. 3. 1. 21:41

(JH)선형회귀(Linear Regression) - Do it 딥러닝 입문 1

선형회귀란? 가장 간단 + 딥러닝의 기초가 되는 머신러닝 알고리즘으로, 데이터들을 가장 잘 표현하는 1차 함수식을 만드는 것이다. (이번 포스팅에서는 기초적인 내용의 이해를 위해 "특성이 1개"인 모델에 대해 이야기 한다.) 일반적으로 우리가 아는 1차 함수식은 y = a*x + b의 형태 이것을 머신러닝에서 쓰는 방식으로 바꾸면 y_hat = W*x + b이다. (선형함수식이라고 표현을 한다.) x: 입력값 y: 타겟값 W: 가중치 b: 절편 1차 함수식을 y와 x에 대한 식으로 이해를 하듯이 위 식을 W와 y_hat에 대한 식으로 이해를 하면 된다. ☞왜 y가 아니라 y_hat? y와 y_hat의 차이점을 설명하자면, y는 이미 우리가 가지고 있는 정답이라고 볼 수 있고, y_hat은 y를 예측하기 ..

기계학습/Machine Learning 2020. 2. 29. 13:32

파이썬 Pandas DataFrame 생성하기 - 2

csv 파일로 DateFrame 생성하기 import pandas as pd Format Type Data Description Reader Writer text CSV read_csv to_csv text JSON read_json to_json text HTML read_html to_html ..... Pandas I/O tools csv 파일이란, comma-separated values의 약자로, 데이터가 콤마( ,)로 구분되어 있는 파일을 뜻한다. 데이터 분석을 위해, dataframe을 생성하는 가장 일반적인 방법으로, 데이터 소스로부터 추출된 csv파일로 생성한다. pandas.read_csv pandas.read_csv( filepath_or_buffer, sep, delimiter, h..

데이터 사이언스 메뉴얼/pandas 2020. 2. 29. 11:01

파이썬 Pandas DataFrame 생성하기 - 1

DataFrame으로 dummy data 생성하기 import pandas as pd import numpy as np pandas.DataFrame pandas.DataFrame( data, index, columns, dtype, copy ) data ndarray, series, map, lists, dict, 상수 그리고 또 다른 DataFrame까지 변수의 형태로 가질 수 있다. index Index or array-like : row 레이블의 경우, 인덱스 값이 없으면 0-based index (np.arange(n))가 기본으로 사용된다. columns Index or array-like : column 레이블의 경우, 인덱스 값이 없으면 0-based index (np.arange(n))가..

데이터 사이언스 메뉴얼/pandas 2020. 2. 28. 11:50

파이썬 Pandas DataFrame 구조 이해하기

1. DataFrame의 특징 2차원 데이터 구조로 index가 row와 column으로 구성되어 있다. column들이 서로 다른 타입일 수도 있다. 크기는 변할 수 있다. row는 각 개별 데이터를, column은 각 개별 속성(feautre)을 의미한다. row와 column에 산술 연산을 수행할 수 있다. import pandas as pd pandas.DataFrame 판다스 DataFrame은 다음과 같은 생성자를 사용해서 만들어진다. pandas.DataFrame( data, index, columns, dtype, copy ) data ndarray, series, map, lists, dict, 상수 그리고 또 다른 DataFrame까지 변수의 형태로 가질 수 있다. index row 레..

데이터 사이언스 메뉴얼/pandas 2020. 2. 27. 22:42

(JH) 텐서플로우 기본 개념과 용어 2 (placeholder)

6. 플레이스홀더(placeholder), Feeding 다른 텐서를 할당하기 위해 사용한다. 위 말의 의미가 이해하기 어려울 수도 있다. 쉽게 말해서, 입력값(X)을 넣어놓을 빈 통이라고 생각 하면 된다. "플레이스 홀더(빈 통)에 입력값을 넣어주는 과정"을 피딩(Feeding)이라고 한다. ※세션을 작동시킬 때(sess.run(y, feed_dict={W: , b: })),의 형태로 모든 placeholder값을 feed_dict에 넣어주어야 한다. 왜 굳이 입력값을 플레이스 홀더라는 곳에 입력값을 넣어야 되는가? 에 대해서 내가 생각해본 결과 입력값은 여러 데이터들(수치가 정해진) 값을 포함한 형태이다. 상수는 변하지 않는 수이고 값이 1개가 들어가는 경우가 통상적이다. 따라서 상수로 입력값을 받는..

기계학습/Machine Learning 2020. 2. 27. 13:02

(JH) 텐서플로우 기본 개념과 용어 1

텐서플로우의 기본 개념 텐서플로우는 뉴럴네트워크를 위한 라이브러리이므로, 기존에 우리가 알던 파이썬 프로그래밍과는 조금 다른 형태를 보인다. 머신러닝, 딥러닝은 여러 연산처리를 해야하는 과정이다. 파이썬으로만 프로그램을 돌리게 된다면, 속도가 너무 느려진다. 텐서플로우는 파이썬에서 그래프(연산)의 여러 계산들을 디자인(설계)하고, 그 디자인 된 것들을 돌리는 것은 파이썬 외부 device(CPUs, GPUs)에서 하는 것이다. (이때, 아래 나올 변수 초기화를 위해 device를 C, C++로 이해를 하면 편하다.) - 연산은 graph로 표현합니다. - graph는 Session내에서 실행됩니다. - 데이터는 tensor로 표현합니다. - 변수(Variable)는 그 상태를 유지합니다. - 작업(ope..

기계학습/Machine Learning 2020. 2. 27. 12:36

데이터 사이언스 관련 정보 정리

1. 데이터 사이언스의 개념 1- 1 데이터 사이언스란? 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출할 때, 과학적 방법론과 프로세스, 알고리즘, 시스템을 동원하는 융합분야 IT프로그래밍 기술, 통계적 분석능력, 인문학적인 사고가 균형있게 잡혀있어야 함 현재는 데이터 엔지니어링, 분석, 마케팅 등 여러분야에 쓰이고 인공지능(머신러닝,딥러닝)에도 매우 유망있고 촉망받는 분야 1-2 필요한 지식과 학문 1) IT프로그래밍 기술 Python, R 등등 언어 : 데이터 사이언스 분야에 가장 많이 쓰이는 프로그래밍 언어로 Python(범용성)과 R(통계 특화)이 있다. 그 외에 C언어 계열이나 java와 같은 객체 지향 언어를 더불어 공부하면 좋음. 데이터 분석 라이브러리 : 대표적으로..

데이터사이언스 정보 2020. 2. 26. 14:22

전체 글 검색 결과

태그

티스토리툴바

검색

CATEGORY

RECENTLY

최근 글

최근댓글

태그

VISITOR

티스토리툴바