안녕하세요 :)

삼성 SDS Brightics 서포터즈 3기 이상민입니다 :)

 

저번 포스팅은

영화 리뷰 데이터 분석 프로젝트 소개와

데이터셋 설명, Data Load를 진행했는데요

 

이번 포스팅은 이어서

Data Preprocessing,

즉 전처리에 대해 다뤄보는 시간을 가져보겠습니다.

 


데이터 전처리란?

데이터 전처리란 클리닝, 통합, 변환, 축소, 이산화의 과정이 있고

말 그대로 데이터를 분석 혹은 모델에 넣기 전 변환하는 과정을 말합니다.

 

텍스트 데이터에서는 더욱 더 중요하게 다뤄지는데요.

이는 컴퓨터는 0과 1같은 숫자밖에 인식하지 못하기 때문에

텍스트를 숫자로 변환해주는 과정을 거쳐야 합니다.

그럼 이렇게 중요한 텍스트 데이터의 전처리에 대해 알아볼까요?

 

저번 시간에 소개한 데이터 로드 방법에 맞게 데이터를 불러와줍니다.

여기서 저희는 review에 대해서 전처리를 진행할 건데요.

 


tokenzier(토큰화)

먼저 tokenzier에 대해 알아봅시다.

토큰화란 단어(word)를 기준으로 분리해주는 것을 말합니다.

python을 사용하신 분들은 여러 토큰화가 있는 것을 아실텐데요.

바로 브라이틱스에서는 토큰화를 자동으로 해주는 기능이 있답니다 :)

 

Tokenizer함수를 불러와

토큰화를 진행했을 때,

위와 같이 리뷰들이 잘 분리된 것을 볼 수 있습니다.


불용어처리

그 다음 불용어처리를 진행해봅시다.

불용어처리란 데이터에서 유의미한 단어 토큰만을 선별하기 위해서

의미가 없는 단어 토큰을 제거하는 것을 말합니다.

 

다른 언어에서는 리스트에 저장하거나 라이브러리를 불러와서 처리해줬는데,

브라이틱스에서는 아래와 같이 간단하게 불용어들을 입력해주고

run을 해주면 불용어사전이 생성이 됩니다.

위와 같이 table에서

불용어들을 입력해주고

run을 누르면 불용어 사전이 생성됩니다 :)

그 후 생성된 불용어 사전을 바탕으로 변환해주고 싶은 column만 입력하면

새로운 column에 불용어가 제거된 형태로 변환됩니다.

위와 같이 불용어들이 제거된 것을 볼 수 있습니다.


synonym 변환

다음은 synonym 변환인데요.

먼저 synonym이란 동의어를 뜻합니다.

우리는 year와 years가 비슷하다는 것을 구별할 수 있는데,

컴퓨터는 한 글자만 틀려도 다른 글자로 인식합니다.

그래서 비슷한 글자들을 사용자가 직접 정의해서 처리해줄 수 있는데요.

위처럼 동의어들을 입력해서 최종적으로 변환하고 싶은 단어들로 바꿔줍니다.

run을 눌러서 동의어 사전을 생성해주고

만든 동의어 사전을 바탕으로 변환해주면 새로운 column에 토큰들이 변환되게 됩니다.

 

지금까지 텍스트 데이터의 전처리에 대해 알아보았습니다!

다음 시간에는 전처리한 데이터를 바탕으로

텍스트 분석과 관련된 함수들을 사용해보는 시간을 가져보겠습니다 :)


기타 자료

브라이틱스 유튜브

https://www.youtube.com/channel/UCglq4GNV2E_RIEKYSDGvyPw

브라이틱스 AI 튜토리얼

https://www.brightics.ai/kr/docs/ai/manual/tutorial/index.html


 

2-2 텍스트 데이터 전처리 후기

 

텍스트 데이터를 다루기 위해서는

전처리가 매우매우 중요한데요.

 

사실상 전처리가 텍스트 데이터 분석에서는

90퍼센트 이상을 차지한다는 말도 있습니다.

 

이처럼 전처리를 하기 위해서는

어떤 기법이 필요한 지 알아야하고

적재적소에 적용을 해야 합니다.

 

하지만 브라이틱스에서는

자동화된 분석 과정을 통해

다양한 함수를 바로바로 사용할 수 있는데요.

 

특히 텍스트 데이터를 다룰 때는

브라이틱스가 정말 최고인 것 같습니다 :)

 


지금까지 삼성 SDS Brightics 서포터즈 3기 이상민이었습니다!

귀한 시간 내어 읽어주셔서 감사합니다.

* 본 포스팅은 삼성SDS Brightics 서포터즈 3기 활동의 일환으로 작성하였습니다.

 

728x90
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 라이프코리아트위터 공유하기
  • shared
  • 카카오스토리 공유하기