이 글은 아래 링크의 글에 이어서 작성되는 글입니다. https://dsbook.tistory.com/80 자연어 처리를 이용한 IMDB 영화 리뷰 감정분석-Part 2 이 글은 아래 링크의 글에 이어서 작성되는 글입니다. https://dsbook.tistory.com/74 앞서 우리는 리뷰 텍스트를 정제한 후 BoW기법을 이용하여 데이터를 벡터화 해준 뒤 랜덤 포레스트를 이용해 학습 및 dsbook.tistory.com part2 에서는 Word2Vec를 이용해 모델을 만든 후 단순히 벡터들의 평균을 이용하여 정제한 리뷰데이터를 벡터화 해주었다면 part3 에서는 Word2Vec은 의미론적으로 연관된 단어의 클리스터(군집)을 만들기 때문에 , 클리스터 내 단어의 유사성을 이용할 수 있다. 이러한 방식..
데이터 사이언스 메뉴얼 검색 결과
이 글은 아래 링크의 글에 이어서 작성되는 글입니다. https://dsbook.tistory.com/74 앞서 우리는 리뷰 텍스트를 정제한 후 BoW기법을 이용하여 데이터를 벡터화 해준 뒤 랜덤 포레스트를 이용해 학습 및 예측을 한 후 캐글에 제출까지 해보았다. 여기까지가 튜토리얼 part1의 내용이다. 튜토리얼 part2와 part1의 차이는 BoW기법 대신 Word2Vec 기법을 이용하여 데이터를 벡터화해준다는 점이다. Word2Vec(Word Embedding to Vector)이란? part1의 BoW기법 사용했을 때 나오는 데이터는 고차원의 sparse 한 벡터이기 때문에 neural net 성능이 잘 나오지 않는다. 이에 반해 Word2 Vec 기법을 사용했을 때의 데이터는 저차원의 dens..
합성곱 신경망, Convolutional Neural Network (CNN) 완전 연결 계층, Fully connected layer (JY) Keras 사용해보기 1. What is keras? 케라스(Keras)는 텐서플로우 라이버러리 중 하나로, 딥러닝 모델 설계와 훈련을 위한 고수준 API이다. 사용자 친화적이고 모델의 dsbook.tistory.com 합성곱 계층, Convolution Layer 합성곱 신경망, Convolutional Neural Network (CNN) 완전 연결 계층, Fully connected layer (JY) Keras 사용해보기 1. What is keras? 케라스(Keras)는 텐서플로우 라이버러리 중 하나로, 딥러닝 모델 설계와 훈.. dsbook.tist..
Deep Learning이란? 4차 산업을 맞아 빅데이터와 인공지능이라는 분야가 사람들 사이에서 화두가 되면서, Deep Learning이라는 기술이 붐을 일으키고 있다. 이 Deep Learning이 무엇인지 이 글에서 알아보고자 한다. 먼저 딥러닝은 머신러닝에 포함되고, 머신러닝은 인공지능에 포함된다. 인공지능이라는 분야에 머신러닝이라는 기계학습 개념이 있는 것이고, 머신러닝에서 좀 더 고도화 된 기술이 딥러닝이다. 인공지능 인공지능은 1950년대 초기 컴퓨터 과학 분야에서 '컴퓨터가 생각 할 수 있는가?'라는 질문을 하면서 시작되었다. 그리고 그 연구는 보통의 사람이 수행하는 지능적인 작업을 자동화하기 위한 활동으로 이어졌다. 많은 전문가는 프로그래머들이 명시적인 규칙을 많이 만들어, 지식을 다루면..
k-means clustering이란? 머신러닝은 지도학습과 비지도학습으로 나눠지고, 우리는 이 글에서 비지도학습의 대표적인 알고리즘인 k-means clustering(k-means 클러스터링)을 알아보고자 한다. k-means clustering의 목적은 유사한 데이터 포인트끼리 그루핑하여 패턴을 찾아내는 것이다. 위 그림과 같이 label이 없는 데이터들이 존재하면, k-means clustring을 활용할 수 있다. 여기서 k라는 것은 군집의 개수를 말하고, 군집은 비슷한 특성을 가진 데이터끼리의 묶음을 뜻한다. k값 정한 후 군집 형성 예를 들어서 k-means clustering을 하기 위해 k 값을 3으로 지정했다고 하자. 그러면 좌측 사진처럼 임의로 데이터에 3개의 중심값을 지정된다. 그리..
데이터분석 자료 공유 2020년 1월부터 데이터분석 분야에 대해 진로를 잡았으나 어떻게 공부할지 방황했었다. 지금까지 모은 데이터분석 분야 관련 공부 자료를 공유하고자 한다. 절대 광고나 돈을 받고 홍보하는 것이 아닌, 데이터분석을 입문하고자 하는 내 입장에서 모은 자료이다. 1. 강의 1) coursera - andrew ng ko.coursera.org/learn/machine-learning coursera라는 외국 강의 사이트에 스탠포드 대학교 강의다. 딥러닝 Top of Top Andrew ng 교수님이 강의해주시, 머신러닝 딥러닝에 대해 공부하고 싶으면 들으면 좋은 강의이다. + 이것 뿐만 아니라 coursera에 좋은 강의들이 많다. 2) 패캠 - 머신러닝과 데이터분석 A-Z www.fast..
이 글은 아래 링크의 글에 이어서 작성되는 글입니다. https://dsbook.tistory.com/63이 (SA) 자연어 처리를 이용한 IMDB 영화 리뷰 감정분석-Part 1-(1) 자연어 처리(NLP, natural language processing)란? 자연어는 사람이 일상적으로 사용하는 언어를 의미한다. 자연어는 일반적으로 컴퓨와 같은 기계는 이해하기 힘들다. 이런 자연어를 형태소 분석, 품사 dsbook.tistory.com 데이터 벡터화 이전 단계에서 리뷰 텍스트들을 정제해 주었지만 아직 컴퓨터는 단어들을 이해하지 못한다. 따라서 정제한 텍스트들을 컴퓨터가 이해할 수 있느 숫자 형식의 벡터 값으로 만들어 주어야한다. Part1에서는 이 벡터화 작업을 Bag of words(Bow) 기법을..
합성곱 신경망, Convolutional Neural Network (CNN) 완전 연결 계층, Fully connected layer (JY) Keras 사용해보기 1. What is keras? 케라스(Keras)는 텐서플로우 라이버러리 중 하나로, 딥러닝 모델 설계와 훈련을 위한 고수준 API이다. 사용자 친화적이고 모델의 dsbook.tistory.com 기존에는 완전 연결 계층을 이용해 이미지를 분류했었다. 완전 연결 계층이란 한 층(Layer)의 모든 뉴런이 다른 층(Layer)의 모든 뉴런과 연결되어 있는 형태로, 기본적으로 2차원의 흑백 이미지를 (컬러 이미지는 RGB의 채널이 들어가므로 3차원이다.) 1차원 배열로 평탄화시킨 후 연산 작업을 진행한다. 문제는 이 평탄화 작업이다. 이미지 ..
완전 연결 계층, Fully connected layer (JY) Keras 사용해보기 1. What is keras? 케라스(Keras)는 텐서플로우 라이버러리 중 하나로, 딥러닝 모델 설계와 훈련을 위한 고수준 API이다. 사용자 친화적이고 모델의 구성이 쉽기 때문에 기본 이미지 dsbook.tistory.com 기존에는 완전 연결 계층을 이용해 이미지를 분류했었다. 완전 연결 계층이란 한 층(Layer)의 모든 뉴런이 다른 층(Layer)의 모든 뉴런과 연결되어 있는 형태로, 기본적으로 2차원의 흑백 이미지를 (컬러 이미지는 RGB의 채널이 들어가므로 3차원이다.) 1차원 배열로 평탄화시킨 후 연산 작업을 진행한다. 문제는 이 평탄화 작업이다. 이미지 데이터의 경우 인접한 픽셀들끼리의 명암 혹은 R..
(JY) Loss function, 손실함수 (JY) Keras 사용해보기 1. What is keras? 케라스(Keras)는 텐서플로우 라이버러리 중 하나로, 딥러닝 모델 설계와 훈련을 위한 고수준 API이다. 사용자 친화적이고 모델의 구성이 쉽기 때문에 기본 이미지 dsbook.tistory.com 이전 글에서, 손실값을 어떻게 계산하는지, 특히 Cross entropy error 방법에 대해서 알아보았다. 손실값을 계산하는 방법에는 CEE방법 외에도 평균제곱오차(MSE)방법, Huber, Hinge 등 다양한 방법이 존재하며 어떤 데이터를 어떤 방식으로 학습시킬지에 따라 사용하는 사용하는 함수가 달라졌다. 크로스 엔트로피 손실함수에 대해 간략하게 리뷰해보면, 이 손실 함수는 실제값과 로그를 취한 ..
최근댓글