이전까지의 실습 내용을 통해서 데이터를 전처리하였고, 이번 실습에서는 전처리된 데이터가 어떤 그래프 형태를 지니는지, 어떤 특성을 가지고 있는지를 시각화하는 실습을 진행할 것이다. 그 후 각 Column 들 간의 상관도를 계산할 것이다. 시각화 raw_fe.describe(include = 'all').T 보통 df.describe() 혹은 df.describe().T를 통해서 데이터의 기본적인 통계적 특성을 확인한다. 여기에서 include = 'all'이라는 옵션을 설정해주게 되면, 수치로 된 데이터가 아닌, object 형태의 데이터나, category 형태의 데이터 또한, 생략하지 않고 보여준다. 히스토그램 raw_fe.hist(bins = 20, grid = True, figsize = (16,..
데이터 시각화 검색 결과
subplot은 각각 칸을 나누어서 해당하는 부분에 내가 원하는 그래프를 넣을 수 있는 방법이다. 하지만, 데이터 분석에서 시각화를 하는 입장에서는 두 그래프를 한곳에 두고 비교를 하고 싶은 경우 겨쳐 그리고 싶은 경우가 종종 있다. 이런 경우에는 생각보다 간단하게 코드로 구현할 수 있다. import matplotlib.pyplot as plt plt.plot(x_1, y_1, x_2, y_2) plt.show() 위와 같이 그래프 1에 대한 x와 y에 대한 정보를 입력하고, 바로 뒤에 별도의 parameter를 지정할 필요 없이, 순서대로 입력을 해주면 된다. 2개의 직선 뿐만 아니라 더 많은 그래프를 한 곳에 겹쳐 그리는 경우에도 위와 같은 방식으로 뒤에 계속해서 이어 붙이면 겹쳐 그려지는 것을 확..
Select a specific programming language 문제정의 현재, 과 동기들과 함께 ‘월간 데이콘 4 코로나 데이터 시각화 경진대회’에 참여를 했다. 기존에 알고 있던 언어인 파이썬으로 데이터 분석을 할 수 있었다. 하지만, 주제가 시각화인 만큼, 시각적인 효과를 잘 나타낼 수 있는 그래프나 도표들을 이용하고 싶었다. 파이썬으로 matplotlib이나 seaborn등의 라이브러리를 이용해서 어느 정도 표현을 하는 것은 가능했으나, 내가 원하는 만큼의 시각화 효과를 줄 수 없는 것이 아쉬웠다. 시각화를 위해서 많이 쓰이는 언어들 Python : matplotlib, seaborn 외에도 folium으로 시각화를 하는데에 많이 사용한다. 하지만, 시각화 툴을 가지고 있는 정도이지, 시각화..
최근댓글