안녕하세요 저는 브라이틱스 서포터즈 3기

이상민입니다 :)

저번 포스팅에는 개인 프로젝트 소개를

간단히 하였는데요.

이번 포스팅은 EDA(데이터 탐색)를 진행하며

데이터에 대해 본격적으로 분석을

진행하려고 합니다.


데이터 탐색

제주 테크노파크 제주도 도로 교통량 예측

앞선 주제는 제주도 도로 교통량 예측이었는데요.

먼저 다운받은 데이터를 브라이틱스의

Load Data 함수를 통해 불러와줍니다.

위와 같이 데이터를 불러와줬습니다!

그 후 변수에 대해 차근차근 살펴봤는데요.

문자로 되어있으면 문자, 숫자로 되어있으면 숫자

이렇게 분류하는 것보다는

datetime(시간), categorical(명목형 변수), numerical(수치형 변수), position(위치)

이렇게 변수를 타입에 따라 나누는 것이 편하더라고요

실제로 시간대같은 변수도 0,1,2,3... 이렇게 되어 있다고 해서

숫자로 두는 것보다 각각의 값의 크기가 영향이 없기 때문에

명목형 변수에 가깝다고 판단할 수 있습니다.

정리한 변수는 아래와 같습니다.

datetime : base_data

string(categorical) : day_of_week, base_hour, road_rating, multi_linked,

connect_code, maximum_speed_limit, weight_restricted, height_restriced,

road_type, end_turn_restriced, road_name

int(numerical) : lane_count

position : latitue, longtitude

road_in_use : 주최측에서 삭제

다음은 통계지표를 뽑아봤는데요.

0이나 이상치 값들이 있는 것을 볼 수 있습니다.

결측치는 따로 없었습니다!


변수별 빈도수 산출

다음은 변수별로 빈도수를 살펴보며

인사이트를 뽑아보고자 했습니다.

먼저 target(평균속도)인데요.

50정도에서 높은 빈도를 가지고 있고

대체로 정규분포를 띄는 것을 볼 수 있습니다.

70이상 구간보다 40이하 구간이 더 많네요.

이는 제주도의 도로 특징상

고속도로가 적어 최대속도제한이 낮고

골목 사이사이 도로가 많은 것으로 생각됩니다.

다음 maximum_speed_list(최대제한속도)인데요.

60제한속도가 압도적으로 많고, 40의 제한속도는 매우 희미하게 존재합니다.

40이라는 제한속도가 매우 적어

이를 이상치로 볼지, 활용할지는 이상치탐지에서

다뤄보겠습니다.

다음 weight제한(무게 적재 제한)입니다.

대체로 0~2000구간이 많고

그 이상은 트럭이나 화물의 출입을 막는 곳인 것 같습니다.

road_type(도로유형)변수는 0과 3으로 나눠지는데요.

각각이 어떤 것을 의미하는지는 정확히 모르겠지만,

3이라는 type이 새롭게 존재하는 것을 볼 수 있습니다.


이상치 탐지

다음은 이상치탐지입니다.

road_type별로 target을 상자수염그래프로 알아봤을 때,

점 형태로 이상치가 존재하는 것을 볼 수 있습니다.

앞에서 빈도수를 살펴봤을 때, 제한속도 40 값의 target이 적었는데

이 변수는 아무래도 제거해주는 것이 분석에 용이하다고 생각됩니다.


변수별 평균 주행속도(target)

 

요일별 평균주행속도를 살펴봤을 때,

월요일이 대체로 적고 수요일이 높은 것을 볼 수 있습니다.

제주도는 일단 수도권과 다른 특성을 가지고 있다고 생각드는데

왜 수요일이 많은지는 뚜렷하게 파악이 안 되네요..

관광객이 수요일에 몰려서 그런가??

다음 시간대별 평균 주행속도입니다.

대체로 23~6(새벽)이 오전, 오후보다 주행속도가

긴 것을 볼 수 있습니다.

이 차트를 통해 도출할 수 있는 것은

새벽 도로가 자동차 수도 적고

드라이브 하려는 사람들이 주행속도를 높이는 경향이

많기 때문이라고 생각이 듭니다.

다음은 도로개수별 평균주행속도입니다.

도로가 3개일 때 주행속도가 압도적으로 적은데요.

이는 값이 적어서 그런지

아니면 3개일 때가 도로진입로? 같은 특성을

가지고 있는지 살펴봐야 할 것 같습니다.

다음은 roat_rating(도로등급)인데요.

107의 주행속도가 적은 것을 알 수 있습니다.

위 도로 개수와 비슷한 분포를 가지고 있는데

두 변수가 상관관계를 가지고 있는지 살펴보는 게 좋을 것 같습니다.

다음은 도로별 평균주행속도입니다.

일반국도가 평균주행속도가 높고

살무로, 시청로가 주행속도가 작은 것을 볼 수 있습니다.

수도권 강남이나 인천대교처럼

도로의 특성에 따라서도 영향이 있을 수 있겠네요.

특히 분기점이라던가, 사람이 몰리는 곳이라던가,

관광지같은 곳이 영향이 클 것 같습니다.

다음은 연결도로인데요.

0번 연결도로가 주행속도가 현저히 작은 것을 볼 수 있습니다.

분기점?일 수도 있는데

code가 2개밖에 안 되니

여러 경우의 수를 열어놔야 할 것 같습니다.

다음은 제한속도별 평균주행속도인데요.

제한속도가 클수록 평균주행속도가 낮은 것을 볼 수 있고

40에서 값이 매우 큰데

이는 앞에서 40변수의 값이 매우 적어

이상치로 값이 튄 것으로 파악됩니다.

다음은 무게 제한별 평균주행속도인데요.

4xxxx에서 평균주행속도가 가장 큰 것을 볼 수 있습니다.

해당 차 유형의 속도가 어떤 특징을 가지고

운행하고 있을수도 있다고

생각됩니다.


정리

브라이틱스를 활용해

도로 데이터 EDA를 진행했는데요.

정말 간편하게 시각화도 가능하고

속도도 매우 빠르다는 장점이 있습니다.

특히 코드 없이

분석을 진행할 수 있다는 점이 매우 매력적인데요..

다음 포스팅에서는

데이터 전처리를 바탕으로 한

베이스라인 모델을 만들어보겠습니다.


지금까지 삼성 SDS Brightics 서포터즈 3기 이상민이었습니다!

귀한 시간 내어 읽어주셔서 감사합니다.

* 본 포스팅은 삼성SDS Brightics 서포터즈 3기 활동의 일환으로 작성하였습니다.

728x90
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 라이프코리아트위터 공유하기
  • shared
  • 카카오스토리 공유하기