import pandas as pd train_data = pd.read_csv('./train.csv') train_data.head() Groupby 이해하기 모든 groupby 연산은 기존 객체에 대해 다음과 같은 연산 중 하나를 포함한다. 데이터 분할하기 데이터 연산하기 (통계적으로 계산, 조건에 맞는 데이터 걸러내기, 그룹별 작업 수행) 데이터 병합하기 1. 데이터 분할하기 1) groupby()를 이용한 데이터 분할 Pandas 객체를 분할할 때는 groupby() 메소드를 사용하며 인자로는 column이름이나 column으로 이루어진 리스트를 전달하면 된다. class_group = train_data.groupby('Pclass') class_group.groups 그렇게 만들어진 clas..
데이터 사이언스 사용 설명서 검색 결과
1. 출력과 연산 출력 파이썬에서 출력하기 위한 문법은 print(출력하고 싶은 것)이다. 문자를 출력하고 싶을 때는 ""로 묶어주고, 숫자를 출력하고 싶을 땐 print(2)와 같이 그대로 쓰면 된다. 연산 +, -, *, / : 더하기 빼기 곱하기 나누기(왼쪽 순서대로) //, % : 몫 나머지(왼쪽 순서대로) - : 음수 ** : 제곱수 연산 주의사항 숫자 - 숫자, 문자 - 문자끼리 연산은 가능하지만 타입이 다른 숫자 - 문자끼리의 연산은 불가능하다. 2. 변수 어떠한 값을 저장하기 위해 변수라는 개념을 사용한다. 위에 예제와 같이 1이라는 값을 x라는 변수로 저장하여 x
python에는 여러 가지의 자료 형태가 있다. 그래서 코드를 짤때 자료 형태의 특성을 잘 이해하고 활용하는 게 중요하다. 본문에서는 자료구조들 중 List, Set, Tuple, Dictionary를 설명하고자 한다. 3) Tuple Tuple의 특징은 순서는 있지만 수정이 안된다는 것이다. 그 외에는 List자료형과 유사하지만 indexing,slicing,in 등등 list에서 쓰이는 몇몇 operator를 사용할 수 있다. - Tuple 생성하기 여기서 주의할 점은 int형태의 값을 1개만 받는 tuple을 만들때를 생각해봐야 한다. 왜냐하면 소괄호는 연산을 할때도 쓰이기 때문이다. 아래 코드를 보자 - Tuple 수정하기 tuple의 가장 큰 특징은 수정이 안된다는 것이다. 여기서 주의해야 할점..
python에는 여러 가지의 자료 구조가 있다. 그래서 코드를 짤때 자료 구조의 특성을 잘 이해하고 활용하는 게 중요하다. 필자는 자료구조들 중 List, Set, Tuple, Dictionary를 설명하고자 한다. 1) List list의 특징은 순서를 가지고 있으며 수정이 가능하다는 것이다. 가장 기본적이 자료 구조이다. - List 생성하기 list는 대괄호를 이용해 [value1, value2... value n] 형태로 만든다. - List indexing List는 순서가 있는 자료형이기 때문에 index를 이용해 원하는 정보만 얻을 수 있다. - List 연산 덧셈과 곱셈을 List에 적용할 수 있다. - List 수정 List는 수정이 가능한 자료형이다. - List 자르기 List의 in..
1. 제어문 학생이 아침마다 등교하는 것은 반복적인 일에 해당하고, 날짜에 따라 주말이나 공휴일은 학교를 가지 않는 것은 조건에 따라 이루어지는 일에 해당한다. 컴퓨터의 프로그램 역시 흐름에 따라 특정 조건에 따라 실행하거나 특정 부분을 반복적으로 실행하도록 이루어진다. 그것이 제어문이다. Python에서는 if문, for문, while문 등의 제어문이 있다. 2. if문 1) 단순 if문 if문은 어떤 조건에 따라 코드를 다르게 수행하는 조건문이다. 다음과 같은 문장이 조건문의 예시다. “키가 140cm 보다 크면 탑승 가능합니다. 키가 140cm 보다 작으면 탑승 불가합니다.” 흔히 놀이공원에서 많이 볼 수 있는 문장이다. Python에서는 위와 같은 문장을 if라는 단어로 조건문을 표현할 수 있다...
1. jupyter notebook 꿀팁 셀 삽입, 삭제, 복구 등의 단축키를 사용하고 싶을 때는 셀의 바깥쪽(In좌측에 여백)을 눌러 가장 좌측바 색깔이 파란색이 되게 한다. 셀 안 내용에 대해 수정, 복구, 변경 등을 하고 싶으면 셀 안쪽을 눌러 가장 좌측바 색깔이 초록색이 되게 한다. 1 - 1. jupyter notebook 단축키 셀 바깥쪽(파란색)을 선택한 후 Y : 코드형태로 변경 M : 마크다운 형태로 변경 A : 현재 셀 위쪽에 셀 삽입 B : 현재 셀 아래쪽에 셀 삽입 X : 현재 셀 삭제 Z : 삭제한 셀 복구 L : Line number표시(셀 안에 코드들이 몇 번째 줄인지) shift + L : 모든 Line number표시 셀 안쪽(초록색)을 선택한 후 ctrl + D: 해당 커..
1. 클래스가 무엇인지 이해하기 우리가 자동차를 만든다고 가정해보자. 자동차를 만들기 위해서, 우선 엑셀을 밟을 때 앞으로 나아가는 기능, 브레이크를 밟았을 때 멈추는 기능, 후진 기능 부터 자동차 내 공기를 순환시켜주는 기능, 라디오 기능, 네비게이션 기능 등등 여러 개의 기능을 분할하여 만들 것이다. 이와 같이 각 기능부분을 구성하는 코드를 모듈이라고 한다. "절차지향프로그래밍"언어에서는 프로그램을 이렇게 여러 기능으로 나누고 이를 모듈로 편성하여 프로그램을 작성하는데, 이 경우 각 모듈이 처리하는 "데이터"를 전혀 고려하지 않게 된다. 그래서 하나의 자동차를 만들 때 시간이 비슷하게 걸릴 수는 있어도, 여러 대의 자동차를 만들어 낼 때 각 자동차들마다 필요한 물건들을 따로따로 생성해야 하니 시간이 ..
import pandas as pd train_data = pd.read_csv('./train.csv') train_data.head() NaN (Not a Number) 데이터 In computing, NaN, standing for Not a Number, is a member of a numeric data type that can be interpreted as a value that is undefined or unrepresentable, especially in floating-point arithmetic. 표현 불가능한 수치형 데이터를 NaN 데이터 라고한다. train.shape를 통해 확인한 train의 DataFrame 형태는 891 * 12 의 형태로, 즉 891개의 데이터와 1..
import pandas as pd train_data = pd.read_csv('./train.csv') train_data.head() DataFrame에 새 column 추가하기 DataFrame의 index에 새로운 이름의 column을 추가해 주면 된다. [ ] 에 기존에 없었던 이름의 column을 넣고 그 내용을 추가하면, DataFrame의 맨 마지막에 해당 column을 생성한 채로 출력하게 된다. train_data[ 'Age_double' ] = train_data[ 'Age' ] * 2 train_data[ 'Age_triple' ] = train_data[ 'Age_double' ] + train_data[ 'Age' ] insert함수를 이용하면 원하는 자리에 column을 추가..
import pandas as pd train_data = pd.read_csv('./train.csv') train_data.head() train_data.index = np.arange(100, 991) DataFrame에서 column 선택하기 DataFrame 형태의 데이터에서 [ ] 안에 특정 column의 이름을 넣으면, Series 형태로 값을 가져온다. Indexing 했기 때문에, 데이터의 형태는 DataFrame에서 Series로 한차원 낮아진다. train_data [ 'Survived' ] # 이름이 Survived인 column을 Series 형태로 출력 DataFrame 형태를 그대로 가져오고 싶으면 [ [ .... ] ] 형태로 사용하면 된다. 이때, 안쪽 대괄호 [ ......
최근댓글