Pandas(판다스) 기본 실습 - 3 ( 인덱스)

인덱스

판다스에서 인덱스는 없어서는 안될 필수적인 요소이다.

파일을 로딩해서 .index 매서드를 통해서 인덱스를 가져올 수 있다.
이 때, 1차원 array 형태가 반환되고, ndarray처럼 단일 값을 반환하거나, 슬라이싱 하는 것도 가능하다.

import pandas as pd
import numpy as np


#원본 파일 다시 로딩 
titnaic_df = pd.read_csv('titanic_train.csv')
#Index 객체 추출 
indexes = titanic_df.index
print(indexes)
#Index 객체를 실제 값 array로 변환 
print('Index 객체 array 값 : \n', indexes.values)

print(type(indexes.values))
print(indexes.values.shape)
print(indexes[:5].values)
print(indexes.values[:5])
print(indexes[6])

하지만, DataFrame, Series의 Index 객체는 함부로 변경할 수 없다. 또한, Series 객체에 연산 함수를 적용할 때, Index는 연산에서 제외된다. Index(인덱스)는 오직 식별용으로만 사용한다.

indexes[0] = 5

.reset_index()

위 매서드는 새롭게 인덱스를 연속 숫자형으로 할당하고, 기존의 인덱스는 'index'라는 새로운 열을 만들어 추가한다. 이 때, Seires에 reset_index()를 적용하면 DataFrame이 되는 것에 유의하자.

인덱스가 연속된 int 숫자형 데이터가 아닌 경우에 다시 이를 연속 int 숫자형 데이터로 만들 때 주로 사용한다.

reset_index()의 파라미터 중 'drop = True'로 하면 index 칼럼이 추가되지 않는다.

titanic_reset_df = titanic_df.reset_index(inplace = False)
titanic_reset_df.head(3)

reset_index()에서 주의할 점은 Series에 .reset_index() 매서드를 사용하는 경우 DataFrame 형태로 변환된다는 것을 인지해야 한다. 혹은 'drop = True' 설정을 통해서 별도의 index 열을 만들지 않는 경우에는 Series 형태가 그대로 유지된다.

print('### before reset_index ###')
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)
print('value_counts 객체 변수 타입 : ', type(value_counts))
new_value_counts = value_counts.reset_index(inplace = False)
print('### After reset_index ###')
print(new_value_counts)
print('new_value_counts 객체 변수 타입 :', type(new_value_counts))

728x90

저작자표시 비영리

'데이터 분석 & 시각화 > Pandas' 카테고리의 다른 글

Pandas(판다스) 기본 실습 - 5 ( 정렬 / Aggregation / GroupBy ) / NaN 데이터 처리 / .apply() lambda ) (0)	2020.08.23
Pandas(판다스) 기본 실습 - 4 (데이터 셀렉션 및 필터링 - [ ] / .loc[ ] / .iloc[ ] / 불린 인덱싱) (0)	2020.08.19
Pandas(판다스) 기본 실습 - 2 (DataFrame 열 생성, 변경, 삭제) (0)	2020.08.11
Pandas(판다스) 기본 실습 - 1(판다스 기초) (1)	2020.08.08
Machine Learning 관련 패키지 : Pandas (파이썬 머신러닝 완벽 가이드) - 2 (0)	2020.07.27