import pandas as pd
train_data = pd.read_csv('./train.csv')
train_data.head()
DataFrame에 새 column 추가하기
DataFrame의 index에 새로운 이름의 column을 추가해 주면 된다.
[ ] 에 기존에 없었던 이름의 column을 넣고 그 내용을 추가하면, DataFrame의 맨 마지막에 해당 column을 생성한 채로 출력하게 된다.
train_data[ 'Age_double' ] = train_data[ 'Age' ] * 2
train_data[ 'Age_triple' ] = train_data[ 'Age_double' ] + train_data[ 'Age' ]
insert함수를 이용하면 원하는 자리에 column을 추가할 수 있다.
# DataFrame.insert( loc, column, value, allow_duplicates=False )
# loc = 추가하고 싶은 위치의 index 값을 넣는다. (3 = Name 앞)
# column = 추가하고 싶은 column의 이름을 넣는다.
# value = 추가하고자 하는 column의 값을 넣는다.
train_data.insert( 3, 'Fare10', train_data[ 'Fare' ]/10 )
DataFrame에 column 삭제하기
drop 함수를 사용해서 원하는 column을 삭제할 수 있다.
# DataFrame.drop( labels=None, axis=0, index=None, columns=None, level=None, inplace=False )
# labels = index 혹은 column의 이름 ( list를 통해 멀티 index 제거도 가능하다. )
# axis = 0 (index) 혹은 1 (column)
# inplace = False의 경우, labels를 drop한 채로 반환한다. ( 따로 저장하려면 변수 초기화가 필요하다. )
# inplace = True의 경우, labels를 drop한 dataframe을 동일한 dataframe에 저장한다.
train_data.drop( 'Age_triple', axis = 1 )
inplace 값이 default로 False기 때문에, 해당 dataframe을 다시 불러오면 Age_triple이 그대로 dataframe에 있는 모습을 확인할 수 있다. 즉, 원본 dataframe에서 해당 label이 삭제된 dataframe을 저장하고 싶으면 또다른 변수를 초기화해주어야 한다.
혹은 inplace 값을 True로 지정해주면, 해당 label이 삭제된 dataframe에 원본에 저장된다.
train_data.drop( [ 'Fare10', 'Age_double', 'Age_triple' ], axis = 1, inplace = True )
728x90
반응형
'데이터 사이언스 메뉴얼 > pandas' 카테고리의 다른 글
파이썬 Pandas groupby 이해하고 활용하기 -1 (0) | 2020.04.05 |
---|---|
파이썬 Pandas NaN 데이터 처리하기 (0) | 2020.03.17 |
파이썬 Pandas Data 선택하기 (0) | 2020.03.12 |
파이썬 Pandas DataFrame 생성하기 - 2 (0) | 2020.02.29 |
파이썬 Pandas DataFrame 생성하기 - 1 (0) | 2020.02.28 |
최근댓글