이 글은 아래 링크의 글에 이어서 작성되는 글입니다. https://dsbook.tistory.com/80 자연어 처리를 이용한 IMDB 영화 리뷰 감정분석-Part 2 이 글은 아래 링크의 글에 이어서 작성되는 글입니다. https://dsbook.tistory.com/74 앞서 우리는 리뷰 텍스트를 정제한 후 BoW기법을 이용하여 데이터를 벡터화 해준 뒤 랜덤 포레스트를 이용해 학습 및 dsbook.tistory.com part2 에서는 Word2Vec를 이용해 모델을 만든 후 단순히 벡터들의 평균을 이용하여 정제한 리뷰데이터를 벡터화 해주었다면 part3 에서는 Word2Vec은 의미론적으로 연관된 단어의 클리스터(군집)을 만들기 때문에 , 클리스터 내 단어의 유사성을 이용할 수 있다. 이러한 방식..
데이터 사이언스 메뉴얼/National Language Processing 검색 결과
이 글은 아래 링크의 글에 이어서 작성되는 글입니다. https://dsbook.tistory.com/74 앞서 우리는 리뷰 텍스트를 정제한 후 BoW기법을 이용하여 데이터를 벡터화 해준 뒤 랜덤 포레스트를 이용해 학습 및 예측을 한 후 캐글에 제출까지 해보았다. 여기까지가 튜토리얼 part1의 내용이다. 튜토리얼 part2와 part1의 차이는 BoW기법 대신 Word2Vec 기법을 이용하여 데이터를 벡터화해준다는 점이다. Word2Vec(Word Embedding to Vector)이란? part1의 BoW기법 사용했을 때 나오는 데이터는 고차원의 sparse 한 벡터이기 때문에 neural net 성능이 잘 나오지 않는다. 이에 반해 Word2 Vec 기법을 사용했을 때의 데이터는 저차원의 dens..
이 글은 아래 링크의 글에 이어서 작성되는 글입니다. https://dsbook.tistory.com/63이 (SA) 자연어 처리를 이용한 IMDB 영화 리뷰 감정분석-Part 1-(1) 자연어 처리(NLP, natural language processing)란? 자연어는 사람이 일상적으로 사용하는 언어를 의미한다. 자연어는 일반적으로 컴퓨와 같은 기계는 이해하기 힘들다. 이런 자연어를 형태소 분석, 품사 dsbook.tistory.com 데이터 벡터화 이전 단계에서 리뷰 텍스트들을 정제해 주었지만 아직 컴퓨터는 단어들을 이해하지 못한다. 따라서 정제한 텍스트들을 컴퓨터가 이해할 수 있느 숫자 형식의 벡터 값으로 만들어 주어야한다. Part1에서는 이 벡터화 작업을 Bag of words(Bow) 기법을..
자연어 처리(NLP, natural language processing)란? 자연어는 사람이 일상적으로 사용하는 언어를 의미한다. 자연어는 일반적으로 컴퓨와 같은 기계는 이해하기 힘들다. 이런 자연어를 형태소 분석, 품사 부착,구절 단위 분석 등을 통해 컴퓨터가 자연어를 이해하고 학습할 수 있게 해 주는 것을 자연어 처리라고 한다.. 다양한 자연어 처리 관련 경진 대회중 아래 링크의 경진 대회를 통해 실습을 해보려고 한다. https://www.kaggle.com/c/word2vec-nlp-tutorial Bag of Words Meets Bags of Popcorn Use Google's Word2Vec for movie reviews www.kaggle.com 위 kaggle competition의 ..
최근댓글