안녕하세요!! 오늘은 Brightics 서포터즈의 팀 미션인 홍보 영상 제작기의 첫 번째 포스팅을 작성하게 되었습니다. 저는 브라이틱스 서포터즈 3기, 3조의 이상민입니다 :) 총 5명의 팀원으로 구성되어있습니다. 저번 팀 분석 프로젝트였던 MBTI 예측하기의 주제를 이어서 홍보 영상으로 제작하는 프로젝트인데요. 저희 조의 홍보 영상 제작기에 대해서 지금부터 소개해드리도록 하겠습니다!! 영상 주제 선정 배경 저희 조는 노션을 통해서 회의를 진행하였고, 영상 제작에 대해서 3가지 기준을 정해봤는데요. 첫 번째는 "브라이틱스의 기능들을 최대한 활용할 수 있는가?" 입니다! 출처 : https://www.brightics.ai/kr/docs/ai/manual/tutorial/b19f13b94cc..
삼성 SDS Brightics 검색 결과
안녕하세요 :) 저번주에 머신러닝/딥러닝 모델로 MBTI분류하기에 이어 1주만에 다시 돌아온 브라이티스 서포터즈 3기 이상민입니다. 이번주는 지금까지 진행한 팀프로젝트를 총집합하여 정리하였습니다. 어떻게 브라이틱스로 MBTI를 예측하고 분석했는지 한 번 알아보러 갈까요?? 저희팀은 3~4주동안 MBTI예측하기 프로젝트를 진행했는데요. 엠브레인 통계조사에서 MBTI에 대한 관심도는 무려 76.1퍼센트라고 합니다. 그만큼 MBTI에 대한 관심도가 많아, 저희는 MBTI 데이터셋들을 구해 진행했습니다. 데이터셋 설명 총 3가지의 데이터셋을 사용했습니다. 첫 번째는 MBTI별로 포스팅한 데이터셋이고, 두 번째는 국가별 MBTI 비율 세 번째는 MBTI별로 Reddit이라는 외국사이트를 이용한 내역..
안녕하세요 :) 저번주에 MBTI 예측 업무분배 및 주제구체화에 이어 1주만에 다시 돌아온 브라이티스 서포터즈 3기 이상민입니다. 이번주는 머신러닝, 딥러닝 모델로 MBTI를 분류하고 성능을 검증해보았는데요. 어떤 MBTI가 예측하기 쉬운지, 성능은 어느정도로 나왔는지 한 번 알아보러 가실까요?? 머신러닝, 딥러닝 모델로 MBTI 분류하기 저번주까지는 MBTI 데이터셋을 토큰화하는 과정까지 진행했는데요. 이번에는 토큰화 후, 임의의 벡터로 변환하는 과정과 그 벡터를 머신러닝, 딥러닝 모델에 넣어 학습하는 과정을 소개하겠습니다. 먼저 앞서 토큰화한 단어들을 브라이틱스 내에 있는 Bag of Words라는 함수를 사용해 텍스트를 숫자로 변환할 수 있는 토대를 만들어줍니다. Bag of Words란..
안녕하세요!! 저번주에 MBTI 예측 기획 및 구상에 이어 1주만에 다시 돌아온 브라이티스 서포터즈 3기 이상민입니다. 이번주는 업무분배 및 주제구체화 그리고 간단하게 브라이틱스를 이용하여 MBTI예측 프로젝트를 진행했는데요. 그럼 어떻게 했는지 함께 알아보러 가실까요?? 저희가 정했던 프로젝트 주제는 텍스트 데이터로 MBTI예측하기였는데요. MBTI별 포스팅 : https://www.kaggle.com/code/mercurio117/mbti-500/data 국가별 MBTI 비율 : https://www.kaggle.com/datasets/yamaerenay/mbtitypes-full reddit mbti별 발자취 : https://www.kaggle.com/datasets/michaelkit..
안녕하세요 팀 분석 프로젝트로 돌아온 브라이틱스 서포터즈 3기 이상민입니다 :) 이번 주부터 4주 동안은 브라이틱스 서포터즈 3조로서 팀원들과 함께 데이터분석 팀 프로젝트를 진행하게 되었는데요. 분석 결과를 바탕으로 영상 제작도 진행할 예정이니 다들 기대해주세요!! 저희 3조가 진행할 팀 분석 프로젝트는 텍스트 데이터로 MBTI 예측하기입니다. MBTI란 정신분석학자 카를 융(Carl Jung)의 심리 유형론을 토대로 만든 성격 유형 검사인데요. 네 가지의 상대적인 선호 지표를 조합해 사람의 성격 유형을 16가지로 분류합니다. 이런 MBTI를 텍스트로 분류해보면 어떨까요?? 데이터는?? MBTI별 포스팅 : https://www.kaggle.com/code/mercurio117/mbti-500/data ..
안녕하세요!! 삼성 SDS Brightics 서포터즈 3기 이상민입니다 :) 저번 포스팅은 텍스트 데이터를 전처리하는 법을 영화 리뷰 데이터를 통해서 소개했는데요. 이번 포스팅은 이어서 Data Modeling과 Text Analysis에 대해 다뤄보는 시간을 가져보겠습니다. Modeling이란? 먼저 모델링이라는 단어 자체에 대해 의미를 알아보자면 복잡한 현실세계를 단순화, 즉 사람이 이해할 수 있는 정보로 변환하는 과정입니다. 그리고 이것을 Data로도 진행할 수 있는데 일반적으로 Ai 모델이라고도 하며 많은 데이터를 이용해 데이터들의 패턴을 분석하고 결과를 예측하는 알고리즘을 설계하는 것을 의미합니다. 예시로는 우리가 흔히 일상생활에서 접하는 파파고 번역기나 네이버 악성 댓글 분류들도 다 이 Ai ..
안녕하세요 :) 삼성 SDS Brightics 서포터즈 3기 이상민입니다 :) 저번 포스팅은 영화 리뷰 데이터 분석 프로젝트 소개와 데이터셋 설명, Data Load를 진행했는데요 이번 포스팅은 이어서 Data Preprocessing, 즉 전처리에 대해 다뤄보는 시간을 가져보겠습니다. 데이터 전처리란? 데이터 전처리란 클리닝, 통합, 변환, 축소, 이산화의 과정이 있고 말 그대로 데이터를 분석 혹은 모델에 넣기 전 변환하는 과정을 말합니다. 텍스트 데이터에서는 더욱 더 중요하게 다뤄지는데요. 이는 컴퓨터는 0과 1같은 숫자밖에 인식하지 못하기 때문에 텍스트를 숫자로 변환해주는 과정을 거쳐야 합니다. 그럼 이렇게 중요한 텍스트 데이터의 전처리에 대해 알아볼까요? 저번 시간에 소개한 데이터 로드 방법에 맞..
안녕하세요!! 삼성 SDS Brightics 서포터즈 3기 이상민입니다. 저번 포스팅으로 Brightics 서포터즈 3기 발대식 후기를 작성했었는데요 그 감동과 여운을 바탕으로 이번 포스팅은 주제를 정해 분석하는 개인 분석 프로젝트!! 주제 및 데이터셋 설명과 Data Load에 대해 작성하겠습니다 :) 주제 선정 아무래도 제가 가장 자신있는 분야이기도 하고 기존 연구실 경험을 살려 텍스트 데이터를 다뤄보는 주제로 선정하였습니다. 바로 '영화 리뷰 데이터 분석하기 with text analysis'라는 주제로 여러분들에게 친숙한 영화라는 데이터셋을 텍스트 데이터와 함께 분석해보는 시간을 가져보겠습니다. 텍스트 분석이란? 데이터의 유형에는 정형데이터, 이미지, 텍스트, 음성 등 여러 가지의 유형이 있고..
안녕하세요!! 삼성 SDS Brightics 서포터즈 3기 이상민입니다. 저번 포스팅은 삼성 SDS Brightics 서포터즈로 합격하고 Brightics를 소개하는 내용을 다뤘는데요 이번에는 Brightics 서포터즈 3기 발대식을 다녀온 후기를 포스팅하겠습니다! 이번 3기는 오프라인으로 잠실에 있는 삼성 SDS 본사에서 진행됐는데요 위 사진처럼 삼성 SDS 본사 입구를 봤을 때부터 심장이 두근거렸습니다.. 본사에 들어가고 예정된 시간에 발대식이 진행되었는데요. 발대식 순서는 아래와 같이 1) 환영사 2) 서포터즈 활동 소개 3) 사진촬영 4) 팀 편성 및 멘토소개 5) EBC 투어 순서로 진행됐습니다! 환영사는 그룹장님과 부사장님께서 진행해주셨는데, 데이터분석가가 갖춰야 할 마음가짐에 대해 주로 ..
안녕하세요!! 삼성 SDS Brightics 서포터즈 3기 이상민입니다. 해당 포스팅은 삼성 SDS에서 주관하는 Brightics 서포터즈를 합격하고 난 후, Brightics를 소개하고 체험해보는 첫 포스팅입니다 :) 오늘 포스팅할 내용은 1. Brightics란 무엇인지! 2. Brightics는 어떻게 사용하는지 두 가지에 대해 간단하게 알아보는 시간을 가져보겠습니다~! Brightics란 무엇인가? 먼저 Brightics AI란 누구나 쉽고 빠르게 AI분석을 하고 활용할 수 있도록 삼성 SDS에서 개발한 통합 AI 플랫폼입니다. 데이터 수집/전처리부터 정형/비정형 데이터 분석, 시각화 및 배포/운영까지! 데이터 분석의 모든 과정을 자동화하여 진행할 수 있는 장점이 있습니다. 이 Brightics ..
최근댓글