import pandas as pd
train_data = pd.read_csv('./train.csv')
train_data.head()


DataFrame에 새 column 추가하기

DataFrame의 index에 새로운 이름의 column을 추가해 주면 된다.
[ ] 에 기존에 없었던 이름의 column을 넣고 그 내용을 추가하면, DataFrame의 맨 마지막에 해당 column을 생성한 채로 출력하게 된다.

train_data[ 'Age_double' ] = train_data[ 'Age' ] * 2
train_data[ 'Age_triple' ] = train_data[ 'Age_double' ] + train_data[ 'Age' ]

insert함수를 이용하면 원하는 자리에 column을 추가할 수 있다.

# DataFrame.insert( loc, column, value, allow_duplicates=False )
# loc = 추가하고 싶은 위치의 index 값을 넣는다. (3 = Name 앞)
# column = 추가하고 싶은 column의 이름을 넣는다.
# value = 추가하고자 하는 column의 값을 넣는다.
train_data.insert( 3, 'Fare10', train_data[ 'Fare' ]/10 )


DataFrame에 column 삭제하기

drop 함수를 사용해서 원하는 column을 삭제할 수 있다.

# DataFrame.drop( labels=None, axis=0, index=None, columns=None, level=None, inplace=False )
# labels = index 혹은 column의 이름 ( list를 통해 멀티 index 제거도 가능하다. )
# axis = 0 (index) 혹은 1 (column)
# inplace = False의 경우, labels를 drop한 채로 반환한다. ( 따로 저장하려면 변수 초기화가 필요하다. )
# inplace = True의 경우, labels를 drop한 dataframe을 동일한 dataframe에 저장한다.
train_data.drop( 'Age_triple', axis = 1 )

inplace 값이 default로 False기 때문에, 해당 dataframe을 다시 불러오면 Age_triple이 그대로 dataframe에 있는 모습을 확인할 수 있다. 즉, 원본 dataframe에서 해당 label이 삭제된 dataframe을 저장하고 싶으면 또다른 변수를 초기화해주어야 한다.

혹은 inplace 값을 True로 지정해주면, 해당 label이 삭제된 dataframe에 원본에 저장된다.
train_data.drop( [ 'Fare10', 'Age_double', 'Age_triple' ], axis = 1, inplace = True )

728x90
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 라이프코리아트위터 공유하기
  • shared
  • 카카오스토리 공유하기