안녕하세요 :) 저번주에 MBTI 예측 업무분배 및 주제구체화에 이어 1주만에 다시 돌아온 브라이티스 서포터즈 3기 이상민입니다. 이번주는 머신러닝, 딥러닝 모델로 MBTI를 분류하고 성능을 검증해보았는데요. 어떤 MBTI가 예측하기 쉬운지, 성능은 어느정도로 나왔는지 한 번 알아보러 가실까요?? 머신러닝, 딥러닝 모델로 MBTI 분류하기 저번주까지는 MBTI 데이터셋을 토큰화하는 과정까지 진행했는데요. 이번에는 토큰화 후, 임의의 벡터로 변환하는 과정과 그 벡터를 머신러닝, 딥러닝 모델에 넣어 학습하는 과정을 소개하겠습니다. 먼저 앞서 토큰화한 단어들을 브라이틱스 내에 있는 Bag of Words라는 함수를 사용해 텍스트를 숫자로 변환할 수 있는 토대를 만들어줍니다. Bag of Words란..
삼성SDS 검색 결과
안녕하세요 팀 분석 프로젝트로 돌아온 브라이틱스 서포터즈 3기 이상민입니다 :) 이번 주부터 4주 동안은 브라이틱스 서포터즈 3조로서 팀원들과 함께 데이터분석 팀 프로젝트를 진행하게 되었는데요. 분석 결과를 바탕으로 영상 제작도 진행할 예정이니 다들 기대해주세요!! 저희 3조가 진행할 팀 분석 프로젝트는 텍스트 데이터로 MBTI 예측하기입니다. MBTI란 정신분석학자 카를 융(Carl Jung)의 심리 유형론을 토대로 만든 성격 유형 검사인데요. 네 가지의 상대적인 선호 지표를 조합해 사람의 성격 유형을 16가지로 분류합니다. 이런 MBTI를 텍스트로 분류해보면 어떨까요?? 데이터는?? MBTI별 포스팅 : https://www.kaggle.com/code/mercurio117/mbti-500/data ..
안녕하세요 :) 삼성 SDS Brightics 서포터즈 3기 이상민입니다 :) 저번 포스팅은 영화 리뷰 데이터 분석 프로젝트 소개와 데이터셋 설명, Data Load를 진행했는데요 이번 포스팅은 이어서 Data Preprocessing, 즉 전처리에 대해 다뤄보는 시간을 가져보겠습니다. 데이터 전처리란? 데이터 전처리란 클리닝, 통합, 변환, 축소, 이산화의 과정이 있고 말 그대로 데이터를 분석 혹은 모델에 넣기 전 변환하는 과정을 말합니다. 텍스트 데이터에서는 더욱 더 중요하게 다뤄지는데요. 이는 컴퓨터는 0과 1같은 숫자밖에 인식하지 못하기 때문에 텍스트를 숫자로 변환해주는 과정을 거쳐야 합니다. 그럼 이렇게 중요한 텍스트 데이터의 전처리에 대해 알아볼까요? 저번 시간에 소개한 데이터 로드 방법에 맞..
최근댓글