안녕하세요 :) 저번주 Brightics 서포터즈 팀 미션인 홍보 영상 제작기 첫 번째 포스팅에 이어, 두 번째 포스팅을 이어서 작성하였습니다. 저는 브라이틱스 서포터즈 3기, 3조의 이상민으로 총 5명의 팀원으로 구성되어있습니다. 저희 팀의 영상 주제는 MBTI 과몰입 소개팅 with 브라이틱스를 통한 MBTI 예측 였는데요. 이 주제를 가지고 이번 주는 대본을 구성하고 직접 촬영까지 했습니다! 17일 토요일 오후 2시에 신촌역에서 모여서 촬영을 진행했는데요. 촬영은 수현이의 오피스텔 건물에서 촬영했습니다. 오피스텔 굉장히 좋더라고요 대본은 총 4개의 시나리오로 구성했는데요. 간단하게 설명드리자면 첫 번째는 MBTI 과몰입에 빠진 한 사람이 소개팅 상대를 찾기 위해 회사에 문의하는 상..
데이터 사이언스 사용 설명서 검색 결과
안녕하세요!! 오늘은 Brightics 서포터즈의 팀 미션인 홍보 영상 제작기의 첫 번째 포스팅을 작성하게 되었습니다. 저는 브라이틱스 서포터즈 3기, 3조의 이상민입니다 :) 총 5명의 팀원으로 구성되어있습니다. 저번 팀 분석 프로젝트였던 MBTI 예측하기의 주제를 이어서 홍보 영상으로 제작하는 프로젝트인데요. 저희 조의 홍보 영상 제작기에 대해서 지금부터 소개해드리도록 하겠습니다!! 영상 주제 선정 배경 저희 조는 노션을 통해서 회의를 진행하였고, 영상 제작에 대해서 3가지 기준을 정해봤는데요. 첫 번째는 "브라이틱스의 기능들을 최대한 활용할 수 있는가?" 입니다! 출처 : https://www.brightics.ai/kr/docs/ai/manual/tutorial/b19f13b94cc..
안녕하세요 :) 저번주에 머신러닝/딥러닝 모델로 MBTI분류하기에 이어 1주만에 다시 돌아온 브라이티스 서포터즈 3기 이상민입니다. 이번주는 지금까지 진행한 팀프로젝트를 총집합하여 정리하였습니다. 어떻게 브라이틱스로 MBTI를 예측하고 분석했는지 한 번 알아보러 갈까요?? 저희팀은 3~4주동안 MBTI예측하기 프로젝트를 진행했는데요. 엠브레인 통계조사에서 MBTI에 대한 관심도는 무려 76.1퍼센트라고 합니다. 그만큼 MBTI에 대한 관심도가 많아, 저희는 MBTI 데이터셋들을 구해 진행했습니다. 데이터셋 설명 총 3가지의 데이터셋을 사용했습니다. 첫 번째는 MBTI별로 포스팅한 데이터셋이고, 두 번째는 국가별 MBTI 비율 세 번째는 MBTI별로 Reddit이라는 외국사이트를 이용한 내역..
안녕하세요 :) 저번주에 MBTI 예측 업무분배 및 주제구체화에 이어 1주만에 다시 돌아온 브라이티스 서포터즈 3기 이상민입니다. 이번주는 머신러닝, 딥러닝 모델로 MBTI를 분류하고 성능을 검증해보았는데요. 어떤 MBTI가 예측하기 쉬운지, 성능은 어느정도로 나왔는지 한 번 알아보러 가실까요?? 머신러닝, 딥러닝 모델로 MBTI 분류하기 저번주까지는 MBTI 데이터셋을 토큰화하는 과정까지 진행했는데요. 이번에는 토큰화 후, 임의의 벡터로 변환하는 과정과 그 벡터를 머신러닝, 딥러닝 모델에 넣어 학습하는 과정을 소개하겠습니다. 먼저 앞서 토큰화한 단어들을 브라이틱스 내에 있는 Bag of Words라는 함수를 사용해 텍스트를 숫자로 변환할 수 있는 토대를 만들어줍니다. Bag of Words란..
안녕하세요!! 저번주에 MBTI 예측 기획 및 구상에 이어 1주만에 다시 돌아온 브라이티스 서포터즈 3기 이상민입니다. 이번주는 업무분배 및 주제구체화 그리고 간단하게 브라이틱스를 이용하여 MBTI예측 프로젝트를 진행했는데요. 그럼 어떻게 했는지 함께 알아보러 가실까요?? 저희가 정했던 프로젝트 주제는 텍스트 데이터로 MBTI예측하기였는데요. MBTI별 포스팅 : https://www.kaggle.com/code/mercurio117/mbti-500/data 국가별 MBTI 비율 : https://www.kaggle.com/datasets/yamaerenay/mbtitypes-full reddit mbti별 발자취 : https://www.kaggle.com/datasets/michaelkit..
안녕하세요 팀 분석 프로젝트로 돌아온 브라이틱스 서포터즈 3기 이상민입니다 :) 이번 주부터 4주 동안은 브라이틱스 서포터즈 3조로서 팀원들과 함께 데이터분석 팀 프로젝트를 진행하게 되었는데요. 분석 결과를 바탕으로 영상 제작도 진행할 예정이니 다들 기대해주세요!! 저희 3조가 진행할 팀 분석 프로젝트는 텍스트 데이터로 MBTI 예측하기입니다. MBTI란 정신분석학자 카를 융(Carl Jung)의 심리 유형론을 토대로 만든 성격 유형 검사인데요. 네 가지의 상대적인 선호 지표를 조합해 사람의 성격 유형을 16가지로 분류합니다. 이런 MBTI를 텍스트로 분류해보면 어떨까요?? 데이터는?? MBTI별 포스팅 : https://www.kaggle.com/code/mercurio117/mbti-500/data ..
이번에는 Pycaret을 통해서 Training을 진행한 모델들의 Feature Importance를 구하는 과정에 대해서 포스팅을 해볼 예정이다. Feature Importance란 무엇인가?? Feature Importance는 기본적으로, 각 모델이 Target 값을 예측하는 과정에서 각 Feature들이 Prediction에 얼마나 큰 영향을 미쳤는지를 알려주는 지표이다. Feature Importance를 구하는 방법은 여러가지가 있는데, 가장 기본적으로 Coefficient를 구하는 방법(Linear Model & Tree Model), Permutation importance, SHAP Value가 있다. Linear Model 가장 기본적인 방법으로는 Linear Model을 생각했을 때,..
Pycaret Pycaret은 Machine Learning Workflow를 자동화하는 오픈소스 라이브러리이다. Classification, Regression, Clustering 등의 Task에서 사용하는 여러 모델들을 동일한 환경에서 한번에 한 줄의 코드로 실행할 수 있도록 자동화한 라이브러리이다. 여러 모델을 비교할 수 있으며, 각 모델 별로 튜닝을 진행할 수도 있다. (2022.07.17 현재, 가장 최근 Release는 Pycaret 2.3.10) 현재 연구 중인 분야가 Regression Task이기 때문에, Regression을 기준으로 설명한다. 여기에서는 내가 연구를 진행하면서 사용한 주요 메서드와 그 안에 입력한 파라미터들을 위주로 정리를 했으며, 추가적인 내용을 원하거나, 더욱 구..
안녕하세요!! 삼성 SDS Brightics 서포터즈 3기 이상민입니다 :) 저번 포스팅은 텍스트 데이터를 전처리하는 법을 영화 리뷰 데이터를 통해서 소개했는데요. 이번 포스팅은 이어서 Data Modeling과 Text Analysis에 대해 다뤄보는 시간을 가져보겠습니다. Modeling이란? 먼저 모델링이라는 단어 자체에 대해 의미를 알아보자면 복잡한 현실세계를 단순화, 즉 사람이 이해할 수 있는 정보로 변환하는 과정입니다. 그리고 이것을 Data로도 진행할 수 있는데 일반적으로 Ai 모델이라고도 하며 많은 데이터를 이용해 데이터들의 패턴을 분석하고 결과를 예측하는 알고리즘을 설계하는 것을 의미합니다. 예시로는 우리가 흔히 일상생활에서 접하는 파파고 번역기나 네이버 악성 댓글 분류들도 다 이 Ai ..
안녕하세요 :) 삼성 SDS Brightics 서포터즈 3기 이상민입니다 :) 저번 포스팅은 영화 리뷰 데이터 분석 프로젝트 소개와 데이터셋 설명, Data Load를 진행했는데요 이번 포스팅은 이어서 Data Preprocessing, 즉 전처리에 대해 다뤄보는 시간을 가져보겠습니다. 데이터 전처리란? 데이터 전처리란 클리닝, 통합, 변환, 축소, 이산화의 과정이 있고 말 그대로 데이터를 분석 혹은 모델에 넣기 전 변환하는 과정을 말합니다. 텍스트 데이터에서는 더욱 더 중요하게 다뤄지는데요. 이는 컴퓨터는 0과 1같은 숫자밖에 인식하지 못하기 때문에 텍스트를 숫자로 변환해주는 과정을 거쳐야 합니다. 그럼 이렇게 중요한 텍스트 데이터의 전처리에 대해 알아볼까요? 저번 시간에 소개한 데이터 로드 방법에 맞..
최근댓글