이전 글에서 이어지는 글입니다. (JY) 파이썬 Pandas groupby 이해하고 활용하기 -3 이전 글에서 이어지는 글입니다. (JY) 파이썬 Pandas groupby 이해하고 활용하기 -2 이전 글에서 이어지는 글입니다. (JY) 파이썬 Pandas groupby 이해하고 활용하기 -1 import pandas as pd train_data = pd.read.. dsbook.tistory.com 데이터 프레임을 직접 만들어보자. df1 = pd.DataFrame('key1' : np.arange(10), 'value1' : np.random.randn(10)) df2 = pd.DataFrame('key1' : np.arange(10), 'value1' : np.random.randn(10)) df..
python library 검색 결과
이전 글에서 이어지는 글입니다. (JY) 파이썬 Pandas groupby 이해하고 활용하기 -2 이전 글에서 이어지는 글입니다. (JY) 파이썬 Pandas groupby 이해하고 활용하기 -1 import pandas as pd train_data = pd.read_csv('./train.csv') train_data.head() Groupby 이해하기 모든 groupby 연산은 기존.. dsbook.tistory.com 이번에는 데이터 프레임을 직접 만들어 줄 것이다. df = pd.DataFrame({ '사람': ['A', 'A', 'A', 'B', 'B', 'C', 'A', 'A', 'C', 'B', 'B', 'B'], '요일': ['월요일', '화요일', '수요일', '월요일', '화요일', ..
이전 글에서 이어지는 글입니다. (JY) 파이썬 Pandas groupby 이해하고 활용하기 -1 import pandas as pd train_data = pd.read_csv('./train.csv') train_data.head() Groupby 이해하기 모든 groupby 연산은 기존 객체에 대해 다음과 같은 연산 중 하나를 포함한다. 데이터 분할하기 데이터 연산.. dsbook.tistory.com 2. 데이터 연산하기 -2) 3) 기존의 DataFrame 형태를 그대로 유지한채로 연산하기: transform() train_data.groupby('Pclass').mean() 그룹핑을 한 후 바로 연산을 하면, 그룹핑된 column들이 index레벨에 내려간 채로 연산이 진행되게 되며, 원본 D..
import pandas as pd train_data = pd.read_csv('./train.csv') train_data.head() Groupby 이해하기 모든 groupby 연산은 기존 객체에 대해 다음과 같은 연산 중 하나를 포함한다. 데이터 분할하기 데이터 연산하기 (통계적으로 계산, 조건에 맞는 데이터 걸러내기, 그룹별 작업 수행) 데이터 병합하기 1. 데이터 분할하기 1) groupby()를 이용한 데이터 분할 Pandas 객체를 분할할 때는 groupby() 메소드를 사용하며 인자로는 column이름이나 column으로 이루어진 리스트를 전달하면 된다. class_group = train_data.groupby('Pclass') class_group.groups 그렇게 만들어진 clas..
import pandas as pd train_data = pd.read_csv('./train.csv') train_data.head() NaN (Not a Number) 데이터 In computing, NaN, standing for Not a Number, is a member of a numeric data type that can be interpreted as a value that is undefined or unrepresentable, especially in floating-point arithmetic. 표현 불가능한 수치형 데이터를 NaN 데이터 라고한다. train.shape를 통해 확인한 train의 DataFrame 형태는 891 * 12 의 형태로, 즉 891개의 데이터와 1..
import pandas as pd train_data = pd.read_csv('./train.csv') train_data.head() DataFrame에 새 column 추가하기 DataFrame의 index에 새로운 이름의 column을 추가해 주면 된다. [ ] 에 기존에 없었던 이름의 column을 넣고 그 내용을 추가하면, DataFrame의 맨 마지막에 해당 column을 생성한 채로 출력하게 된다. train_data[ 'Age_double' ] = train_data[ 'Age' ] * 2 train_data[ 'Age_triple' ] = train_data[ 'Age_double' ] + train_data[ 'Age' ] insert함수를 이용하면 원하는 자리에 column을 추가..
import pandas as pd train_data = pd.read_csv('./train.csv') train_data.head() train_data.index = np.arange(100, 991) DataFrame에서 column 선택하기 DataFrame 형태의 데이터에서 [ ] 안에 특정 column의 이름을 넣으면, Series 형태로 값을 가져온다. Indexing 했기 때문에, 데이터의 형태는 DataFrame에서 Series로 한차원 낮아진다. train_data [ 'Survived' ] # 이름이 Survived인 column을 Series 형태로 출력 DataFrame 형태를 그대로 가져오고 싶으면 [ [ .... ] ] 형태로 사용하면 된다. 이때, 안쪽 대괄호 [ ......
csv 파일로 DateFrame 생성하기 import pandas as pd Format Type Data Description Reader Writer text CSV read_csv to_csv text JSON read_json to_json text HTML read_html to_html ..... Pandas I/O tools csv 파일이란, comma-separated values의 약자로, 데이터가 콤마( ,)로 구분되어 있는 파일을 뜻한다. 데이터 분석을 위해, dataframe을 생성하는 가장 일반적인 방법으로, 데이터 소스로부터 추출된 csv파일로 생성한다. pandas.read_csv pandas.read_csv( filepath_or_buffer, sep, delimiter, h..
DataFrame으로 dummy data 생성하기 import pandas as pd import numpy as np pandas.DataFrame pandas.DataFrame( data, index, columns, dtype, copy ) data ndarray, series, map, lists, dict, 상수 그리고 또 다른 DataFrame까지 변수의 형태로 가질 수 있다. index Index or array-like : row 레이블의 경우, 인덱스 값이 없으면 0-based index (np.arange(n))가 기본으로 사용된다. columns Index or array-like : column 레이블의 경우, 인덱스 값이 없으면 0-based index (np.arange(n))가..
1. DataFrame의 특징 2차원 데이터 구조로 index가 row와 column으로 구성되어 있다. column들이 서로 다른 타입일 수도 있다. 크기는 변할 수 있다. row는 각 개별 데이터를, column은 각 개별 속성(feautre)을 의미한다. row와 column에 산술 연산을 수행할 수 있다. import pandas as pd pandas.DataFrame 판다스 DataFrame은 다음과 같은 생성자를 사용해서 만들어진다. pandas.DataFrame( data, index, columns, dtype, copy ) data ndarray, series, map, lists, dict, 상수 그리고 또 다른 DataFrame까지 변수의 형태로 가질 수 있다. index row 레..
최근댓글