'데이터 분석 & 시각화/Pandas' 카테고리의 글 목록

데이터 분석에 필수적인 과정 중 하나가 현재 가지고 있는 데이터 셋을 시각화 하는 작업, 그리고 특정 모델들을 사용하여 학습하거나 예측을 할 때에도 시각화는 많이 사용된다. 그 중에서도 여러개의 그래프를 동시에 나타내어 시각적으로 비교를 해야하는 경우가 빈번하게 존재한다. 그 중에서도 위의 이미지처럼 plt.subplot()을 사용하여 그래프를 사용하는 경우가 많다. plt.subplots(m , n) 여러 책이나 자료들에서 아래와 비슷한 코드들을 많이 볼 수 있다. import pandas as pd import numpy as np import matplotlib.pyplot as plt %matplotlib inline fig, axes = plt.subplots(2) 여기에서 fig는 전체 그래프..

데이터 분석 & 시각화/Pandas 2021. 7. 7. 22:49

Pandas(판다스) 기본 실습 - 5 ( 정렬 / Aggregation / GroupBy ) / NaN 데이터 처리 / .apply() lambda )

정렬 DataFrame과 Series를 정렬하는 데에는 .sort_values() 함수를 사용한다. 해당 함수는 DataFrame과 Series에서 특정 칼럼의 값으로 정렬을 하는 경우에 사용한다. 파라미터 : by / ascending / inplace by : 어떤 칼럼의 데이터 값을 기준으로 정렬을 할 것인지에 대해서 해당 열의 이름을 인자로 넣어준다. ascending(= True) : 디폴트 값이 True이고 True로 한다면 오름차순으로, False는 내림차순으로 정렬한다. inplace : 이전의 함수들과 동일한 역할을 하는 파라미터이므로 별도의 설명을 생략한다. import pandas as pd import numpy as np titanic_df = pd.read_csv('train.c..

데이터 분석 & 시각화/Pandas 2020. 8. 23. 15:02

Pandas(판다스) 기본 실습 - 4 (데이터 셀렉션 및 필터링 - [ ] / .loc[ ] / .iloc[ ] / 불린 인덱싱)

DataFrame의 [ ] 연산자 넘파이와 DataFrame 간 가장 유의해야 할 연산자가 바로 '[ ]' 연산자이다. 넘파이 - 행의 위치, 열의 위치, 슬라이싱 범위 등을 지정하여 데이터를 가져올 수 있었다. DataFrame - 칼럼만 지정할 수 있는 칼럼 지정 연산자로 이해를 하는 것이 가장 좋다. (추가적으로, 인덱스로 변환 가능한 표현식도 들어갈 수 있다. ) print('단일 칼럼 데이터 추출 : \n', titanic_df['Pclass'].head(3)) print('\n여러 칼럼의 데이터 추출: \n', titanic_df[['Survived', 'Pclass']].head(3)) print('[] 안에 숫자 index는 KeyError 오류 발생 : \n', titanic_df[0])..

데이터 분석 & 시각화/Pandas 2020. 8. 19. 23:34

Pandas(판다스) 기본 실습 - 3 ( 인덱스)

인덱스 판다스에서 인덱스는 없어서는 안될 필수적인 요소이다. 파일을 로딩해서 .index 매서드를 통해서 인덱스를 가져올 수 있다. 이 때, 1차원 array 형태가 반환되고, ndarray처럼 단일 값을 반환하거나, 슬라이싱 하는 것도 가능하다. import pandas as pd import numpy as np #원본 파일 다시 로딩 titnaic_df = pd.read_csv('titanic_train.csv') #Index 객체 추출 indexes = titanic_df.index print(indexes) #Index 객체를 실제 값 array로 변환 print('Index 객체 array 값 : \n', indexes.values) print(type(indexes.values)) print..

데이터 분석 & 시각화/Pandas 2020. 8. 19. 21:29

Pandas(판다스) 기본 실습 - 2 (DataFrame 열 생성, 변경, 삭제)

생성 DataFrame의 열 생성은 쉽게 만들 수 있다.(판다스의 가장 큰 장점이기도 하다.) 일단 2가지로 나눌 수 있다. 1) 새로 만드는 열의 모든 데이터를 상수로 채워 넣는 경우 이 경우는 주로, 새로운 열(피처)을 만들기 위해서 해주는 경우가 많다. 어려울 것 없이 titanic_df['Age_0'] = 0 #새로 만들어진 'Age_0'열의 모든 value 값들이 0으로 채워진다. titanic_df.head(3) 'Age_0'이라는 열이 존재하는 열이 아니라, 새로 생성할 열의 이름을 대괄호 안에 작은 따옴표로 지정해 준 뒤 등호 오른쪽에 상수를 넣으면 해당 열의 모든 Value 값들이 해당 상수 값으로 채워지는 것을 확인 할 수 있다. 2) 기존에 있는 열(column)을 이용하여 새로운 열..

데이터 분석 & 시각화/Pandas 2020. 8. 11. 12:41

Pandas(판다스) 기본 실습 - 1(판다스 기초)

Pandas import pandas as pd import numpy as np 파이썬으로 데이터를 다루는 경우 정형화된 데이터는 주로 Pandas 와 Numpy를 통해서 다룬다. 하지만, Numpy는 저수준 API가 대부분 이므로, 여러가지 고급진 기능을 다양하게 사용할 수 있는 Pandas를 애용하는 사람들이 많다. 또한, Pandas는 리스트, 넘파이 등의 내부 데이터를 비롯하여, 코드 외부에 있는 csv등의 파일도 바로 Pandas객체로 만들수 있다는 장점을 가지고 있다. pd.read_csv() 판다스를 사용할 때, 가장 첫번째로 하게 되는 것은 아마 pd.read_csv()일 것이다. 이때, 가장 중요한 것은 파일의 경로를 제대로 쓰는 것이다. 해당 코드와 파일이 동일한 위치에 있을 경우에는..

데이터 분석 & 시각화/Pandas 2020. 8. 8. 12:31

불린 인덱싱 매우 편리한 데이터 추출 방식이다. iloc[ ], loc[ ] 을 사용하기 보다는 불린 인덱싱을 이용하여 데이터를 가져오는 경우가 더 많다. Why? 데이터 세트의 데이터 수는 일일이 수작업으로 인덱스를 적어서 처리하기에는 너무 많다. 따라서, 조건을 확인하고 인덱스를 적기보다는 해당 조건을 만족하는 데이터들을 바로 추출하는 불린 인덱싱을 이용하는 것이다. loc[ ] 을 사용하면서도 불린 인덱싱을 할 수 있다. ex> #두 코드는 동일한 기능을 가지고 있다. titanic_df[titanic_df['Age'] > 60][['Name','Age']] titanic_df.loc[titanic_df['Age'] > 60, ['Name','Age']] ※ 복수개의 조건들을 사용하는 경우 [ ](..

데이터 분석 & 시각화/Pandas 2020. 7. 27. 17:29

Pandas : 데이터 처리를 위한 라이브러리 / 많은 부분이 numpy로 작성되어 있다. / 고수준 API 제공 / csv 파일 등 외부 데이터도 DataFrame으로 변경하는 것이 용이하다. import pandas as pd pandas를 불러오는 코드. numpy를 코드에서 np로 적는 것 처럼 pandas에서도 마찬가지로 pd라고 사용하는 경우가 대부분이다. 판다스의 기본적인 함수들 pd.read_csv() : csv 파일을 dataframe으로 만드는 함수(csv파일은 이해하기 쉽게 엑셀 파일과 거의 동일한 형태라고 보면 된다. ) pd.head / tail() : DataFrame의 첫/마지막 데이터들을 제공한다. 샘플을 보여주는 기능을 하는 함수라고 생각하면 된다. 괄호 안에 숫자를 집어넣..

데이터 분석 & 시각화/Pandas 2020. 7. 26. 13:15

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

데이터 분석 & 시각화/Pandas 검색 결과

태그

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

검색

CATEGORY

RECENTLY

최근 글

최근댓글

태그

VISITOR

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역