캐글은 세계적인 ML 기반 분석 대회이다. 그 중에서도 타이타닉 생존자 예측은 처음 입문하는 사람들이 하는 튜토리얼이다. 캐글 사이트에서 Titanic을 검색하거나, https://www.kaggle.com/c/titanic에 들어가면 Data 카테고리에서 학습 데이터(train.csv)와 테스트 데이터(test.csv)를 다운 받을 수 있다. 다운받기 전에 로그인을 해야하니 회원가입을 먼저하고 데이터를 다운받으면 된다. 오른쪽에는 해당 데이터에 관한 간략한 정보들이 나와있는 것을 확인할 수 있다. 다운받은 파일은 파이썬 코드 파일( 주피터 노트북일 경우, 해당 .ipynb파일)이 있는 디렉토리에 csv 파일을 저장한다. 이후에 다른 파일들도 train.csv 파일들이 많이 존재하기 때문에, 구별할 수 ..
seaborn 검색 결과
Statistical analysis(통계적 분석)은 데이터 셋의 변수가 서로 어떤 연관이 있는지 그리고 다른 변수에 어떻게 영향을 받는지 이해하는 과정이다. 이 과정에서 시각화는 핵심 요소가 될 수 있다. 왜냐하면 시각화를 잘 했다면 한눈에 두 변수에 따른 변화,패턴을 쉽게 찾을 수 있기 때문이다. 이 글에서는 변수간의 상관관계를 찾기 위해 시각화 라이브러리 중 하나인 Seaborn의 relplot(), scatterplot(), lineplot() 3가지 함수를 다룰 것이다. scatterplot()는 산점도를 lineplot()은 선 그래프를 그려준다. relplot()은 쉽게 설명하면 scatterplot(), lineplot()의 상위 개념 즉 두 함수를 모두 포함하고 있다고 생각하면 된다. 일..
heatmap 이란? heatmap은 열을 의미하는 heat와 지도를 뜻하는 map을 합친 단어이다. 데이터들의 배열 을 색상으로 표현해주는 그래프이다. 왜 heatmap을 사용하는가 - heatmap을 사용하면 두 개의 카테고리 값에 대한 값 변화를 한눈에 알기 쉽다. - 대용량 데이터도 heatmap을 이용해 시각화 한다면 이미지 몇장으로 표현이 가능하다. heatmap 만들기 먼저 필요한 모듈과 라이브러리들을 import 해주었다. heatmap을 그리기위해 seaborn에 내장되어 있는 flights 데이터셋을 불러왔다. flights 데이터 셋은 1949~1960년간 월별 승객수를 담고 있다. 현재 데이터가 heatmap을 그리기에는 적합하지 않으므로 다음과 같이 데이터 셋을 바꿔주었다, 빨간색..
최근댓글