정렬 DataFrame과 Series를 정렬하는 데에는 .sort_values() 함수를 사용한다. 해당 함수는 DataFrame과 Series에서 특정 칼럼의 값으로 정렬을 하는 경우에 사용한다. 파라미터 : by / ascending / inplace by : 어떤 칼럼의 데이터 값을 기준으로 정렬을 할 것인지에 대해서 해당 열의 이름을 인자로 넣어준다. ascending(= True) : 디폴트 값이 True이고 True로 한다면 오름차순으로, False는 내림차순으로 정렬한다. inplace : 이전의 함수들과 동일한 역할을 하는 파라미터이므로 별도의 설명을 생략한다. import pandas as pd import numpy as np titanic_df = pd.read_csv('train.c..
null 검색 결과
해당 글 2건
Pandas(판다스) 기본 실습 - 5 ( 정렬 / Aggregation / GroupBy ) / NaN 데이터 처리 / .apply() lambda )
데이터 분석 & 시각화/Pandas
2020. 8. 23. 15:02
[파이썬 머신러닝 완벽가이드] : 사이킷 런 데이터 전처리 & 피처 스케일링
데이터 전처리란 무엇인가? 데이터 전처리는 머신러닝 알고리즘에 비해 알려져 있는 정도가 작지만, 중요도는 ML 알고리즘에 맞먹는 중요도를 가지고 있다. 왜냐하면 머신러닝을 통해서 예측을 한다는 것은 데이터 기반이기 때문에, 어떤 데이터를 입력으로 가지는가가 성능에 매우 중요하다. 그럼 어떤 데이터 처리가 필요할까? 1. "결손값", "NaN", "Null"값을 채워 넣는것이다. 머신러닝에 데이터를 입력으로 넣기 전에 해당 값들을 고정된 다른 변환 값으로 바꾸어야 한다. 다른 변환 값이라는 것은 또 무엇을 의미하는가? 이 값은 머신러닝을 제작하는 사람이 직접 고려해야 하는 부분이다. 예를 들어, 피처의 값이 얼마되지 않는 경우에는 피처의 평균값으로 결손값을 대체하는 경우가 있고, 결손값이 일정 수준의 비율..
기계학습/Machine Learning
2020. 8. 5. 13:47
최근댓글