TensorFlow 모두를 위한 엔드 투 엔드 오픈소스 머신러닝 플랫폼입니다. 도구, 라이브러리, 커뮤니티 리소스로 구성된 TensorFlow의 유연한 환경입니다. www.tensorflow.org 1. 텐서플로우 이름의 뜻 텐서플로우(Tensorflow)에서 텐서(Tensor)는 "다차원 수학 배열(Multidimensional arry of numbers)라고 말한다. 우선 숫자 한 개는 스칼라(scalar)이다. 이 스칼라와 비슷한 성질을 가진 또다른 스칼라들을 같이 묶어 놓은, 1차원 배열을 벡터(vector)라고 하고, 이를 rank1 tensor 라고 한다. 또 이 벡터들을 여러개 묶어 놓은 2차원 배열을 매트릭스(Matrix)라고 하고, 이를 rank2 tensor라고 한다. 여기서 각각의 ..
python 검색 결과
heatmap 이란? heatmap은 열을 의미하는 heat와 지도를 뜻하는 map을 합친 단어이다. 데이터들의 배열 을 색상으로 표현해주는 그래프이다. 왜 heatmap을 사용하는가 - heatmap을 사용하면 두 개의 카테고리 값에 대한 값 변화를 한눈에 알기 쉽다. - 대용량 데이터도 heatmap을 이용해 시각화 한다면 이미지 몇장으로 표현이 가능하다. heatmap 만들기 먼저 필요한 모듈과 라이브러리들을 import 해주었다. heatmap을 그리기위해 seaborn에 내장되어 있는 flights 데이터셋을 불러왔다. flights 데이터 셋은 1949~1960년간 월별 승객수를 담고 있다. 현재 데이터가 heatmap을 그리기에는 적합하지 않으므로 다음과 같이 데이터 셋을 바꿔주었다, 빨간색..
이전 글에서 이어지는 글입니다. (JY) 파이썬 Pandas groupby 이해하고 활용하기 -2 이전 글에서 이어지는 글입니다. (JY) 파이썬 Pandas groupby 이해하고 활용하기 -1 import pandas as pd train_data = pd.read_csv('./train.csv') train_data.head() Groupby 이해하기 모든 groupby 연산은 기존.. dsbook.tistory.com 이번에는 데이터 프레임을 직접 만들어 줄 것이다. df = pd.DataFrame({ '사람': ['A', 'A', 'A', 'B', 'B', 'C', 'A', 'A', 'C', 'B', 'B', 'B'], '요일': ['월요일', '화요일', '수요일', '월요일', '화요일', ..
이전 글에서 이어지는 글입니다. (JY) 파이썬 Pandas groupby 이해하고 활용하기 -1 import pandas as pd train_data = pd.read_csv('./train.csv') train_data.head() Groupby 이해하기 모든 groupby 연산은 기존 객체에 대해 다음과 같은 연산 중 하나를 포함한다. 데이터 분할하기 데이터 연산.. dsbook.tistory.com 2. 데이터 연산하기 -2) 3) 기존의 DataFrame 형태를 그대로 유지한채로 연산하기: transform() train_data.groupby('Pclass').mean() 그룹핑을 한 후 바로 연산을 하면, 그룹핑된 column들이 index레벨에 내려간 채로 연산이 진행되게 되며, 원본 D..
import pandas as pd train_data = pd.read_csv('./train.csv') train_data.head() NaN (Not a Number) 데이터 In computing, NaN, standing for Not a Number, is a member of a numeric data type that can be interpreted as a value that is undefined or unrepresentable, especially in floating-point arithmetic. 표현 불가능한 수치형 데이터를 NaN 데이터 라고한다. train.shape를 통해 확인한 train의 DataFrame 형태는 891 * 12 의 형태로, 즉 891개의 데이터와 1..
import pandas as pd train_data = pd.read_csv('./train.csv') train_data.head() DataFrame에 새 column 추가하기 DataFrame의 index에 새로운 이름의 column을 추가해 주면 된다. [ ] 에 기존에 없었던 이름의 column을 넣고 그 내용을 추가하면, DataFrame의 맨 마지막에 해당 column을 생성한 채로 출력하게 된다. train_data[ 'Age_double' ] = train_data[ 'Age' ] * 2 train_data[ 'Age_triple' ] = train_data[ 'Age_double' ] + train_data[ 'Age' ] insert함수를 이용하면 원하는 자리에 column을 추가..
csv 파일로 DateFrame 생성하기 import pandas as pd Format Type Data Description Reader Writer text CSV read_csv to_csv text JSON read_json to_json text HTML read_html to_html ..... Pandas I/O tools csv 파일이란, comma-separated values의 약자로, 데이터가 콤마( ,)로 구분되어 있는 파일을 뜻한다. 데이터 분석을 위해, dataframe을 생성하는 가장 일반적인 방법으로, 데이터 소스로부터 추출된 csv파일로 생성한다. pandas.read_csv pandas.read_csv( filepath_or_buffer, sep, delimiter, h..
DataFrame으로 dummy data 생성하기 import pandas as pd import numpy as np pandas.DataFrame pandas.DataFrame( data, index, columns, dtype, copy ) data ndarray, series, map, lists, dict, 상수 그리고 또 다른 DataFrame까지 변수의 형태로 가질 수 있다. index Index or array-like : row 레이블의 경우, 인덱스 값이 없으면 0-based index (np.arange(n))가 기본으로 사용된다. columns Index or array-like : column 레이블의 경우, 인덱스 값이 없으면 0-based index (np.arange(n))가..
1. DataFrame의 특징 2차원 데이터 구조로 index가 row와 column으로 구성되어 있다. column들이 서로 다른 타입일 수도 있다. 크기는 변할 수 있다. row는 각 개별 데이터를, column은 각 개별 속성(feautre)을 의미한다. row와 column에 산술 연산을 수행할 수 있다. import pandas as pd pandas.DataFrame 판다스 DataFrame은 다음과 같은 생성자를 사용해서 만들어진다. pandas.DataFrame( data, index, columns, dtype, copy ) data ndarray, series, map, lists, dict, 상수 그리고 또 다른 DataFrame까지 변수의 형태로 가질 수 있다. index row 레..
1. 데이터 사이언스의 개념 1- 1 데이터 사이언스란? 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출할 때, 과학적 방법론과 프로세스, 알고리즘, 시스템을 동원하는 융합분야 IT프로그래밍 기술, 통계적 분석능력, 인문학적인 사고가 균형있게 잡혀있어야 함 현재는 데이터 엔지니어링, 분석, 마케팅 등 여러분야에 쓰이고 인공지능(머신러닝,딥러닝)에도 매우 유망있고 촉망받는 분야 1-2 필요한 지식과 학문 1) IT프로그래밍 기술 Python, R 등등 언어 : 데이터 사이언스 분야에 가장 많이 쓰이는 프로그래밍 언어로 Python(범용성)과 R(통계 특화)이 있다. 그 외에 C언어 계열이나 java와 같은 객체 지향 언어를 더불어 공부하면 좋음. 데이터 분석 라이브러리 : 대표적으로..
최근댓글