1. jupyter notebook 꿀팁 셀 삽입, 삭제, 복구 등의 단축키를 사용하고 싶을 때는 셀의 바깥쪽(In좌측에 여백)을 눌러 가장 좌측바 색깔이 파란색이 되게 한다. 셀 안 내용에 대해 수정, 복구, 변경 등을 하고 싶으면 셀 안쪽을 눌러 가장 좌측바 색깔이 초록색이 되게 한다. 1 - 1. jupyter notebook 단축키 셀 바깥쪽(파란색)을 선택한 후 Y : 코드형태로 변경 M : 마크다운 형태로 변경 A : 현재 셀 위쪽에 셀 삽입 B : 현재 셀 아래쪽에 셀 삽입 X : 현재 셀 삭제 Z : 삭제한 셀 복구 L : Line number표시(셀 안에 코드들이 몇 번째 줄인지) shift + L : 모든 Line number표시 셀 안쪽(초록색)을 선택한 후 ctrl + D: 해당 커..
데이터 사이언스 메뉴얼 검색 결과
1. 클래스가 무엇인지 이해하기 우리가 자동차를 만든다고 가정해보자. 자동차를 만들기 위해서, 우선 엑셀을 밟을 때 앞으로 나아가는 기능, 브레이크를 밟았을 때 멈추는 기능, 후진 기능 부터 자동차 내 공기를 순환시켜주는 기능, 라디오 기능, 네비게이션 기능 등등 여러 개의 기능을 분할하여 만들 것이다. 이와 같이 각 기능부분을 구성하는 코드를 모듈이라고 한다. "절차지향프로그래밍"언어에서는 프로그램을 이렇게 여러 기능으로 나누고 이를 모듈로 편성하여 프로그램을 작성하는데, 이 경우 각 모듈이 처리하는 "데이터"를 전혀 고려하지 않게 된다. 그래서 하나의 자동차를 만들 때 시간이 비슷하게 걸릴 수는 있어도, 여러 대의 자동차를 만들어 낼 때 각 자동차들마다 필요한 물건들을 따로따로 생성해야 하니 시간이 ..
import pandas as pd train_data = pd.read_csv('./train.csv') train_data.head() NaN (Not a Number) 데이터 In computing, NaN, standing for Not a Number, is a member of a numeric data type that can be interpreted as a value that is undefined or unrepresentable, especially in floating-point arithmetic. 표현 불가능한 수치형 데이터를 NaN 데이터 라고한다. train.shape를 통해 확인한 train의 DataFrame 형태는 891 * 12 의 형태로, 즉 891개의 데이터와 1..
import pandas as pd train_data = pd.read_csv('./train.csv') train_data.head() DataFrame에 새 column 추가하기 DataFrame의 index에 새로운 이름의 column을 추가해 주면 된다. [ ] 에 기존에 없었던 이름의 column을 넣고 그 내용을 추가하면, DataFrame의 맨 마지막에 해당 column을 생성한 채로 출력하게 된다. train_data[ 'Age_double' ] = train_data[ 'Age' ] * 2 train_data[ 'Age_triple' ] = train_data[ 'Age_double' ] + train_data[ 'Age' ] insert함수를 이용하면 원하는 자리에 column을 추가..
import pandas as pd train_data = pd.read_csv('./train.csv') train_data.head() train_data.index = np.arange(100, 991) DataFrame에서 column 선택하기 DataFrame 형태의 데이터에서 [ ] 안에 특정 column의 이름을 넣으면, Series 형태로 값을 가져온다. Indexing 했기 때문에, 데이터의 형태는 DataFrame에서 Series로 한차원 낮아진다. train_data [ 'Survived' ] # 이름이 Survived인 column을 Series 형태로 출력 DataFrame 형태를 그대로 가져오고 싶으면 [ [ .... ] ] 형태로 사용하면 된다. 이때, 안쪽 대괄호 [ ......
참고 1 패스트캠퍼스 온라인강의 머신러닝과 데이터분석 A-Z 참고 2 https://blog.naver.com/handuelly/221823696658 참고 3 https://wendys.tistory.com/169 머신 러닝(Machine Learning)은 데이터를 이용해서 컴퓨터를 학습 시키는 것으로, 구현하는 알고리즘(방법)은 3가지로 구분된다. 1 - 지도학습, 2 - 비지도학습, 3- 강화학습 1. 지도학습(supervised learning) Y = F(X)에 대하여 입력 변수(X)와 출력 변수(Y)의 관계에 대하여 모델링하는 것 데이터(x, input)에 대한 명시적 정답인 레이블(y, output)이 주어진 상태에서 컴퓨터를 학습시키는 방법 예를 들어 3x5 = 15, 6x4 =24등을 ..
csv 파일로 DateFrame 생성하기 import pandas as pd Format Type Data Description Reader Writer text CSV read_csv to_csv text JSON read_json to_json text HTML read_html to_html ..... Pandas I/O tools csv 파일이란, comma-separated values의 약자로, 데이터가 콤마( ,)로 구분되어 있는 파일을 뜻한다. 데이터 분석을 위해, dataframe을 생성하는 가장 일반적인 방법으로, 데이터 소스로부터 추출된 csv파일로 생성한다. pandas.read_csv pandas.read_csv( filepath_or_buffer, sep, delimiter, h..
DataFrame으로 dummy data 생성하기 import pandas as pd import numpy as np pandas.DataFrame pandas.DataFrame( data, index, columns, dtype, copy ) data ndarray, series, map, lists, dict, 상수 그리고 또 다른 DataFrame까지 변수의 형태로 가질 수 있다. index Index or array-like : row 레이블의 경우, 인덱스 값이 없으면 0-based index (np.arange(n))가 기본으로 사용된다. columns Index or array-like : column 레이블의 경우, 인덱스 값이 없으면 0-based index (np.arange(n))가..
1. DataFrame의 특징 2차원 데이터 구조로 index가 row와 column으로 구성되어 있다. column들이 서로 다른 타입일 수도 있다. 크기는 변할 수 있다. row는 각 개별 데이터를, column은 각 개별 속성(feautre)을 의미한다. row와 column에 산술 연산을 수행할 수 있다. import pandas as pd pandas.DataFrame 판다스 DataFrame은 다음과 같은 생성자를 사용해서 만들어진다. pandas.DataFrame( data, index, columns, dtype, copy ) data ndarray, series, map, lists, dict, 상수 그리고 또 다른 DataFrame까지 변수의 형태로 가질 수 있다. index row 레..
최근댓글