ggplot2는 그래프를 만들 때 주로 사용하는 패키지로, 데이터 시각화를 쉽게 할 수 있다. ggplot2에서 많이 쓰이는 함수는 ggplot()과 qplot()이다. qplot()은 ggplot()에 비해 사용하기는 편하지만, 세부적인 기능이 적어서 전처리 단계에서 활용된다. 반면, ggplot()은 그래프의 세부 기능을 다루기 쉽기 때문에 시각화 단계에서 많이 활용된다.
1) 산점도
medical_data <- read.csv('data.csv')
ggplot(data = medical_data, aes(x = period, y = activity)) +
geom_point() + xlim(50, 70) + ylim(0, 0.2)
데이터는 [R] Data Frame 1, 2에서 사용한 것과 같다. ggplot의 data에는 그래프를 그리는 데 필요한 데이터를 지정해야 하며, 혼동을 막기 위해 medical_data로 변수명을 변경했다. aes에는 x, y축에 사용할 변수를 지정한다. 산점도를 그리는 함수는 geom_point()를 사용하고, xlim()과 ylim()을 통해 각 축의 범위를 지정한다. dplyr 패키지에서는 %>%로 함수를 연결하지만, ggplot2 패키지에서는 함수 연결을 +로 한다.
2) 막대 그래프
#ggplot(data = medical_data, aes(x = age, y = mean_disease)) + geom_col()
ggplot(data = medical_data, aes(x = disease)) + geom_bar()
주석처럼 geom_col()로 나이별 disease의 평균 그래프로 집단별 비교를 할 수도 있고, 단순히 geom_bar()로 위의 그래프처럼 빈도만 나타낼 수도 있다.
3) 선 그래프
앞선 데이터와는 달리, 시계열 데이터 같은 자료를 표현할 때는 선 그래프도 종종 사용된다.
위 데이터는 시간별 기후 데이터의 예시로, 시간에 따라 미세먼지의 변화를 선 그래프로 간단히 나타내면 다음과 같다.
ggplot(data = dust, aes(x = date, y = PM10)) + geom_line()
이 외에도, ggplot2를 활용하여 다양한 그래프를 만들 수 있다.
728x90
반응형
'Programming Language > R' 카테고리의 다른 글
[R] 회귀분석 - 변수선택 (0) | 2021.02.16 |
---|---|
[R] 가설검정, 상관분석 (0) | 2021.02.15 |
[R] Data Frame 2 - 결합, 결측치 (0) | 2021.01.22 |
[R] Data Frame 1 (0) | 2021.01.15 |
[R] R Introduction (0) | 2021.01.08 |
최근댓글