데이터 사이언스 사용 설명서 검색 결과
안녕하세요!! 브라이틱스 서포터즈 3기 이상민입니다. 요즘 대학원 진학과 취업 준비로 인해 하루가 48시간이었으면 좋겠다는 생각을 잠깐씩 하는데요.. 이에 굴하지 않고 이번 브라이틱스 프로젝트 포스팅도 열심히 작성해보겠습니다! 저번 포스팅은 baseline model을 구성했는데요. xgboosting model을 기본 model로 삼아 dacon에 제출하고 6.44라는 score를 도출했었습니다. 이번 포스팅은 머신러닝 모델의 가장 중요한 Feature engineering에 대해 알아보겠습니다. 먼저 data scientists들이 분석을 진행함에 있어서 데이터 전처리에 80이상의 시간을 사용하는데요. 이에 따라 데이터를 model에 적합하게 만들고 유의미한 변수를 창출해서 성능을 ..
. 안녕하세요 저는 브라이틱스 서포터즈 3기 이상민입니다 :) 저번 포스팅에는 개인 프로젝트인 제주도 도로 교통량예측 데이터 EDA를 진행했는데요. 이번 포스팅은 Baseline Model(기준 모델)을 구현하며 분석의 기준점을 세우고 추가적인 실험을 진행하여 성능을 높이고자 합니다. 왜 feature engineering이 아닌 Baseline model부터 만드나요?? 기본적으로 데이터분석을 진행하신 분들은 궁금증을 가지실 수 있습니다. 출처 : https://www.heavy.ai/technical-glossary/feature-engineering 맞습니다! 기본적인 분석 과정은 데이터 수집 -> EDA -> Feature engineering(변수 생성&조합) -> Modeling -..
ML/DL 관련 개념(+주관적 해석) 정리 1. 지도학습과 비지도학습의 차이점은? - 지도학습 : label이 있는 데이터로 학습을 진행하는 것(회귀, 분류), feature와 target간의 관계를 잘 설명하는 선, 혹은 어떠한 기준점을 찾는 것이 핵심 - 비지도학습 : label이 없는 데이터로 학습을 진행하는 것(군집화, 연관규칙학습), 데이터 간 거리 혹은 관계를 바탕으로 어떠한 패턴 혹은 변수 간의 응집도를 파악하는 것이 핵심 2. 분류모델 정리 - KNN : 거리가 가까운 K개의 값들을 동일한 값으로 분류하는 것 - Naive Bayes : 조건부확률을 기반으로, B라는 사건이 일어났을 때를 가정해서 A가 일어날 확률(모두 독립이라 가정) - SVM : 최대 마진을 가지도록 deicision ..
0. 데이터 사이언스 관련 용어 개념 정리(개념+주관적 해석) 1) AI란 무엇이라고 생각하나? - 기계가 사람을 흉내낼 수 있는 기술이자 알고리즘 - 사람이 하기 힘든 일을 자동화시켜 효율적인 시스템을 구축하는 것. - 굳이 사람이 나서지 않아도 되는 부분을 AI로 처리하는 것이 핵심이라고 생각. - EX) 금융권에서 영업업무 시간대가 아닐 때, 고객 상담을 위해 금융 상담 챗봇 서비스 2) ML(머신러닝)이란 무엇이라고 생각하나? - 데이터를 활용해 컴퓨터가 모델을 통해 학습하는 기술이자 알고리즘. - ML의 핵심은 데이터, 즉 과거의 수 많은 데이터를 바탕으로 모델을 학습시켜 미래에 일어나는 일을 예측해내는 것 - EX) 앱 내 고객의 로그 기록을 바탕으로, 행동 패턴을 분석해 물건 구매 여부를 예..
안녕하세요 저는 브라이틱스 서포터즈 3기 이상민입니다 :) 저번 포스팅에는 개인 프로젝트 소개를 간단히 하였는데요. 이번 포스팅은 EDA(데이터 탐색)를 진행하며 데이터에 대해 본격적으로 분석을 진행하려고 합니다. 데이터 탐색 제주 테크노파크 제주도 도로 교통량 예측 앞선 주제는 제주도 도로 교통량 예측이었는데요. 먼저 다운받은 데이터를 브라이틱스의 Load Data 함수를 통해 불러와줍니다. 위와 같이 데이터를 불러와줬습니다! 그 후 변수에 대해 차근차근 살펴봤는데요. 문자로 되어있으면 문자, 숫자로 되어있으면 숫자 이렇게 분류하는 것보다는 datetime(시간), categorical(명목형 변수), numerical(수치형 변수), position(위치) 이렇게 변수를 타입에 따라..
안녕하세요 저번 개인 프로젝트 소개에 이어 다시 돌아온 브라이틱스 서포터즈 3기 이상민입니다. 먼저 주제를 바꿔 죄송하다는 점을 말씀 드리고 싶고, 다른 주제를 진행하게 되어 양해를 구합니다 ㅠㅠ 저번에 제가 설정한 주제는 카도소비 데이터를 활용한 고객 세분화 및 재구매주기 예측인데요. 카드 데이터를 확보함에 있어서 개인의 인적정보를 활용하여 침해할 수 있기에 카드 데이터는 공공연하게 쓸 수 없을 것 같습니다. 이에 따라 개인의 정보를 침해하지 않는 선에서 진행할 수 있는 주제를 다시 정해보았는데요. 그럼 주제를 다시 알아보러 가볼까요? 주제 소개 제주 테크노파크 제주도 도로 교통량 예측 해당 주제는 데이콘에서 진행중인데요. 요즘 자동차의 이용량이 많아지고, 관광객들의 증가로 제주도의 ..
안녕하세요 저번 팀 영상 제작에 이어 다시 돌아온 브라이틱스 서포터즈 3기 이상민입니다. 다들 영상은 잘 보고 오셨나요? 제 발연기가 너무 부끄럽네요.. 이번 포스팅은 개인 프로젝트인데요. 공공데이터를 활용해 브라이틱스로 분석을 진행하는 것입니다! 그럼 제가 선정한 주제와 데이터에 대해 알아보러 갈까요? 주제 소개 "카드소비 데이터를 활용한 고객 세분화 및 재구매주기 예측" 출처 : https://realestate.daum.net/news/detail/hotissue/1087461/20161104143603165 big blur, 산업 간 경계가 허물어지면 다양한 유형의 데이터들이 유기적으로 연결되어 활용되고 있는데요. 특히 개인의 개성과 선호도가 뚜렷해져 고객을 세분화시켜 서비스를 제안..
안녕하세요 :) 저번주 Brightics 서포터즈 팀 미션인 홍보 영상 촬영 현장 두 번째 포스팅에 이어, 마지막 포스팅을 이어서 작성하였습니다. 저는 브라이틱스 서포터즈 3기, 3조의 이상민으로 총 5명의 팀원으로 구성되어있습니다. 저희 팀의 영상 주제는 MBTI 과몰입 소개팅 with 브라이틱스를 통한 MBTI 예측 였는데요. 저번주 촬영을 마치고 영상을 제작하면서 이번 포스팅은 후기와 느낀점을 주로 작성할 예정입니다! 저번 포스팅에는 촬영 현장을 소개했는데요. 이번 영상을 촬영하면서 정말 많은 회의를 거친 것 같습니다. 공식 회의만 8번?? + 비공식 a.. 8월 달에는 영상을 촬영하기 위한 계획을 주로 수립하고 처음에는 정말 어색했지만 MBTI 얘기하면서 친해졌습니다.. 9월..
최근댓글