상태공간 모델 실제 상태를 직접 측정할 수 없으며 측정된 것으로부터 추론하는 것만 가능 예시) 공격적으로 차선 변경을 시도하는 운전자 발견 -> 어느 차선으로 진로를 변경하는지 추측(수 초, 수 분 간의 고나찰을 통해 상태공간 모델 갱신) 키워드 선형 가우스 모델에 적용된 칼만 필터, 은닉 마르코프 모형, 베이즈 구조적 시계열 관측에 기반한 근본 상태를 추적하는 작업 필터링 : 시간 t의 상태에 대한 추정 갱신에 시간 t의 측정 사용 (상태에 대한 추정의 갱신에 가장 최근 정보에 가중치를 부여하는 방식) 예측 : 시간 t의 예상되는 상태에 대한 예측 생성에 시간 t-1의 측정을 사용(시간 t의 예상되는 측정의 추론도 가능, 미래에 대한 어떠한 정보도 없이 미래 상태 예측) 평활화 : 시간 t의 참 상태 ..
딥러닝 검색 결과
chap06의 핵심내용 - 자기회귀(AR)모델, 이동평균(MA) 모델, 자기회귀누적이동평균(ARIMA) 모델, 벡터자기회귀(VAR), 계층형 모델 정상성 : 평균과 분산이 시간에 따라 상관관계를 가지지 않는 형태 6.1 선형회귀를 사용하지 않는 이유 선형회귀 분석은 독립항등분포(IID)데이터가 있다는 것을 가정하기 때문에, 시계열 데이터에 해당되지 않는다. 시계열 데이터는 시간에 가까운 데이터일수록 서로 강한 관계를 맺는 경향이 있다. 즉 시계열 데이터에 시간적 상관관계가 없다면 면 미래를 예측하거나 시간의 역동성을 이해하는 등 전통적 시계열 작업을 하기 어렵다. 선형회귀, 최소제곱선형회귀 모델을 다음과 같은 상황일 때 시계열 데이터에 적용해볼 수 있다. 시계열 행동에 대한 가정 - 시계열은 예측 변수에..
chap05 시간 데이터 저장 시계열 데이터의 가치는 실시간 스트리밍보다는 과거에 축적된 데이터에서 자주 발생한다. 따라서 시계열 데이터를 저장하기 위한 스토리지가 반드시 필요하다. - 크기에 따른 성능 확장 방언에 대한 중요성 - 데이터 접근에 대한 무작위적인 방식 대 순차적 방식의 중요성 - 자동화 스크립트의 중요성 5.1 요구 사항 정의 시계열 데이터를 위한 스토리지를 고려할 때, 스스로에게 다음과 같은 질문을 해봐야 한다. - 얼마나 많은 시계열 데이터를 저장해야 하나요? 얼마나 데이터가 빠르게 증가하나요? - 측정에 대한 업데이트가 끊임없이 발생하거나(예: 계속 이어지는 웹 트래픽 스트림), 측정이 구분되는 개별 사건 단위로 발생하나요(예: 지난 10년 동안 미국의 모든 주요 공휴일에 대한 시간..
chap04의 목적 - 시계열 데이터 시뮬레이션 vs 다른 동류 데이터 시뮬레이션 비교 - 실제 코드 기반 시뮬레이션 예 살펴보기 - 시계열 시뮬레이션 동향 살펴보기 4.1 시계열 시뮬레이션의 특별한 점 동일한 시계열에서는 두 데이터가 서로 다른 시간에 일어나므로 정확하게 비교하는 것은 어렵다. 따라서 특정 시간에 발생 가능한 일을 예측하려면 시뮬레이션을 실행해봐야 한다. 4.1.1 시뮬레이션과 예측 시뮬레이션과 예측은 유사하나, 차이점이 있다. - 정성적 관측을 예측보다 시뮬레이션에 통합하는 것이 더 쉬울 수 있다. - 시뮬레이션은 확장 가능하므로, 예측은 시뮬레이션보다 더 신중하게 처리되어야 한다. - 시뮬레이션은 가상이므로 예측보다 위험 부담이 적다. 창의적이고 탐구적인 자세로 설계할 수 있다. 4..
이웃기반 vs 모델기반 차이 이웃기반 협업필터링이란? 메모리 기반 : 과거에 있던 데이터(user-item)를 기반으로 새로운 아이템을 예측 1) 구현이 간단 2) Model-based CF에 비해 계산량이 적음 3) 새로운 user, item이 추가되더라도 비교적 안정적 4) 새로운 content(user 또는 item)를 추천할 수 있다. 모델기반 협업필터링이란? 머신러닝(and 특징)을 가장 잘 활용한 추천알고리즘의 일종이자 주어진 데이터를 활용하여 모델을 학습한다. 항목간 유사성보단 데이터의 패턴을 학습하며 데이터(유저)의 잠재적 특성(선호하는 취향)을 파악하는 모델이다. 1) 알고리즘의 크기 : 데이터로 구성된 행렬보다 압축된 형태로 저장된다. 2) 학습과 예측 속도 : 미리모델을 준비하여, 준..
1. Introduction Neighborhood based collaborative filtering 알고리즘은 다른 말로 memory-based algorithm이라고도 불린다. 이 알고리즘은 비슷한 유저는 특정 아이템에 비슷한 평점을 준다는 아이디어에 기반한다. 이런 Neighborhood based collaborative filtering에는 두 가지 타입이 존재한다. 1.1 User-based collaborativefiltering 유저 A와 비슷한 유저들의 평점이, 유저 A 추천에 사용되는 경우다. 유저 A의 각 아이템 예측 평점은 유저 A가 속하는 동료 집단(peer)의 평점으로 계산된다. - 평점을 예측할 때 이웃 유저를 이용해서 예측(이웃 유저 = 비슷한 유저 = 평점 행렬의 행) ..
1. An Introduction to Recommender Systems 인터넷이 발전됨에 따라 아이템 구매 및 선호에 대한 사용자의 피드백을 얻기 쉬워졌다. 이런 피드백을 바탕으로 과거의 사용자-아이템 간 데이터를 활용해 취향을 고려한 아이템을 추천하는 것이 추천시스템의 기본적 아이디어이다. 추천 알고리즘은 대표적으로 아래와 같이 3가지가 있다. Collaborative Filtering : 협업필터링 Content-based Recommender Systems : 컨텐츠 기반 추천시스템 Knowledge-based systems : 지식 기반 추천 시스템. 1.1 Goals of Recommender Systems 추천시스템의 목적을 논하기 전에, 두 가지 추천 문제에 대해 알아보자. 1) Pred..
NLP VS 텍스트 분석 : 기본적으로 둘을 구분하는 것이 유의미하지는 않다. 굳이 구분하자면, NLP : 머신이 인간의 언어를 이해하고 해석하는 데 더 중점. 텍스트 분석을 향상하게 하는 기반 기술이라고 볼 수도 있다. ex> 언어를 해석하기 위한 기계번역, 자동으로 질문을 해석하고 답을 하는 질의응답 시스템 텍스트 분석( = 텍스트 마이닝) : 비정형 텍스트에서 의미 있는 정보를 추출하는 것에 중점. 모델을 수립하고, 정보를 추출해 비즈니스 인델리전스, 예측 분석 등의 분석 작업을 주로 수행. 텍스트 분류 감성 분석 텍스트 요약 텍스트 군집화, 유사도 측정 텍스트는 비정형 데이터이지만, 머신러닝 알고리즘에 넣는 데이터는 숫자형 데이터가 들어가야 한다. 텍스트를 머신러닝에 적용하기 위해서는 '비정형 텍..
이번 포스티에서는 시계열뿐만 아니라, 전반적인 데이터 분석에서 최근 많이 사용되는 앙상블 기법들이 어떤 의미를 갖는 지에 대해서 설명할 것이다. 앙상블(Ensemble) 앙상블이란, 하나의 데이터 모델을 학습하여 예측하지 않고, 여러 데이터 모델들을 생성하여, 각각 학습을 진행하고, 예측을 하여, 예측 결과들을 통해서 최종 예측 결과를 도출하는 기법을 의미한다. 단순하게 생각하면, 여러 데이터 모델들을 이용하여 예측을 하는 기법이라고 생각하면 된다. 앙상블 기법과, Bagging, Boosting의 기술적인 내용은 https://dsbook.tistory.com/165?category=761052 와 그 후속 포스팅에 자세하게 나와있으니 이것을 참고하자. Bias-Variance Trade-Off 데이터..
논문 제목 : Distilling the Knowledge in a Neural Network 논문 링크 : arxiv.org/abs/1503.02531 Background NN의 오버피팅을 피하기 위해 앙상블 기법이 사용되었다. 하지만 앙상블은 여러 모델을 사용하여 계산시간이 많이 걸린다는 단점이 있어, 앙상블만큼의 성능과 '적은 파라미터 수'를 가진 nn모델이 필요하여 이 Knowledge Distillation모델이 나오게 되었다. Knowledge Distillation이란? Knowledge는 지식, Distillation은 증류이다. 화학에서 액체를 가열하여 생긴 기체를 냉각하여 다시 액체로 만드는 것을 증류라고 부르는데, 이러한 개념을 NN에서 사용한 것이다. 즉 위 그림과 같이 NN에서 지..
최근댓글