Transformer : Attention is all you need - attention 메커니즘을 극대화시킨 모델(sequential -> atterntion) - input embedding -> encoder -> decoder -> output의 구조를 가지고 있음. encoding block vs docoding block - unmasked(encoder) : 따로 masking 하지는 않음. - masked(decoder) : 문장을 생성할 때 앞 -> 뒤로 순차적으로 만들어야하기 때문에 masking이 되어있음. encoder 구조 - encoder block의 구조는 동일하나, 구조 안 가중치들은 학습을 통해 달라질 수 있음. - 두 개의 sub layer로 이루어짐 (self-att..
딥러닝 검색 결과
sequence to sequnce seq2seq의 input, output의 길이는 같을 필요는 없다. encoder : 입력된 정보를 어떻게 처리해서 저장할 것이냐? - context vector를 생성 - context vector를 decoder로 넘겨줌 decoder : 압축된 정보를 어떻게 풀어서 반환해줄것인가? - output sequence를 item by item으로 넘겨줌 Encoder-Decoder with RNN - RNN : input 값을 hidden state와 output값으로 처리해줌. 이 값들을 계속 전달해나가는 구조 - 가장 마지막의 hidden state인 context vector가 decoder로 전달 됨. - docoder를 통해 다시 sequence가 추출됨(i..
지난 시간 배운 것 score function와 loss function, regularization의 효과 -> 가중치가 변함에 따라 loss가 얼마나 변하는지(미분=gradient) optimaization : loss를 최소화하는 w를 찾아가는 과정 역전파의 효과 : 학습을 함에 있어서 각 vector가 얼마정도의 영향을 주는지 알아보는 과정 z의 값을 h만큼 증가시킨다면 f의 값은 3만큼 늘어난다. 3배만큼 영향력을 주고 있다. Chain Rule df/dy 는 바로 구할 수 없음. 오른쪽과 같이 식의 곱으로 나타낼 수 있음. (-4 x 1) dq/dy는 df/dy에 직접적으로 영향을 주기에 local gradient라고 함. df/dq는 global gradient local gradient와 ..
optimization이란? - loss를 minima하는 weight를 찾아가는 과정 loss function 정리 regurization loss는 data랑 상관없이 weight에만 영향을 받음 optimization의 그림 설명 - 산속에서 눈을 가리고 최적의 곳을 찾아가는 과정 optimizatation 전략 1. Random search 1000번을 돌리는데 랜덤하게 선택 -> 절대 쓰면 안 됨 전략2. Follow the slope=gradient(경사) 1차원일 때 수치적으로 미분을 통해 기울기를 구함 수식에 대입한다면? - gradient가 음수라는 것은 기울기가 내려가는 방향으로 설정됨 - 두 번째 값으로 하면 0.6이 나옴 => 위쪽으로 나오는 기울기 미분(numerical)을 한다는..
loss function : score에 대해 불만족한 정도를 측정하는 함수 optimization : loss function을 최소화하는 파라미터를 찾는 과정 1. SVM hinge loss SVM의 loss인 hinge loss는 0과 sj(잘못된 label의 score), syj(제대로 된 label의 score), 1(safety margin) -> 해석1 : sj - (syj - 1) => correct label의 score보다 큰 incorrect label score가 있다면 loss는 0보다 크게 나타남 -> 해석2 : coreect label의 score가 incorrect label score보다 1이상 크다면 loss는 0이 됨 ex) 고양이로 분류했다면 correct label ..
computer vision 분야의 기본은 이미지를 분류하는 것 -> 개, 고양이, 강아지 기타 파생된 분야가 detection, segmentation, image captioning 분류를 하는데 semantic gap이라는 문제점이 생김 이미지는 기본적으로 height x width x channel의 곱으로 이루어짐 (여기서 channel이란 색상=RGB) 이미지의 도전과제 - Viewpoint Variation (보는 시각에 따라서 이미지가 다르게 보임) - Illumination (조명) - Deformation (형태의 변형) - Occulusion (숨어있는 이미지) - Background clutter (배경하고 구분이 안 되는 형체) - Intraclass variation (비슷한 형..
12.1 일반 사례를 위해 만들어진 도구로 작업하기 표본 간 데이터를 '공유'하지 않는 비시계열 데이터용 모델 시계열 데이터의 이산적인 표본을 알고리즘에 주입하는 경우, 데이터가 많이 겹친다는 것을 알게 된다. 다음과 같은 월간 판매 기록 데이터가 있다고 가정해보자. 예측은 최근접 곡선에 각각의 '모양'을 매핑하는 방식으로 준비한다. 6개월 기간의 곡선을 구성하는 데이터는 다음과 같다. 흥미로운 점은 추가 정보 없이 데이터를 6배 크게 만들어준다. 1) 중첩 데이터를 사용하지 말 것 2) 제너레이터와 같은 패러다임을 사용해서 데이터셋 반복 접근하기 사전 계산을 하지 않는 모델로 측정와 예측 사이에 불필요한 지연 발생 시계열의 요약 특징(평균, 표준편차 등)으로 최근접 이웃을 찾는 클러스터링 모델을 사용하..
백테스트 히스토리 데이터에서 예측 모델을 테스트하기 위해 모델링 사용되는 용어이다. 이전 기간에 적용되는 특수한 유형의 교차 검증이다. 학습딘 모델의 역동성을 고려해야 한다. 특히 특정 기간의 데이터로 모델을 학습하는 것을 고려해야 한다. ARIMA와 같은 전통적 통계 모델에서는 모든 데이터가 파라미터를 선택할 때 균등하게 고려되었다. 파라미터가 시간에 따라서 달라져야 한다면, 더 많은 데이터는 모델의 성능을 떨어뜨린다. 11.2 예측하기 좋은 시점 모델의 가능성을 식별하기 위한 방법으로 아래와 같은 조치를 취할 수 있다. 1) 테스트 데이터셋에 대한 모델 출력 그래프 그리기 2) 시간에 따른 모델의 잔차 그래프 그리기 3) 시간을 인식하는 간단한 널 모델에 대해 여러분의 모델 검증하기 4) 모델이 이상..
딥러닝 모델을 사용하면, 통계기반 모델처럼 가정을 하지 않아 아래와 같은 전처리 과정이 사라진다. 1) 정상성을 요구하지 않는다. 2) 계절형 ARIMA 모델의 차수, 계절성에 따른 평가와 같은 파라미터를 고르는 기술을 개발할 필요가 없다. 3) 상태 공간 모델링에서 유용했던 시스템의 역동성에 대한 가설을 세울 필요가 없다. 딥러닝은 입력의 모든 입력 채널의 값이 -1~1 사이로 조정될 때 가장 잘 동작하므로 데이터 전처리 작업이 필요하다는 특징이 있다. 10.1 딥러닝 개념 딥러닝은 인간의 뇌를 모방한 신경망을 더욱 발전시켜 만든 것이다. 비선형 기능을 표현한다. 1) 입력계층과 은닉계층 사이 가중치 : 4X3 행렬, 계산 결과는 4X1행렬 2) 활성함수를 통해 비선형성 제공 3) Dense layer..
시계열 특징의 생성 및 선택 특징 생성 : 시계열 데이터의 가장 중요한 특성을 정량화하여 수치 및 범주형 레이블로 압축하는 방법을 찾는 과정 예시) 평균과 시간 단계의 개수 특징 생성의 목적 : 많은 정보를 적은 수의 지표로 압축하는 것, 압축된 지표로 중요한 정보를 식별하고 나머지는 제거할 수 있다. 8.1 입문자를 위한 예제 온도가 주기성(일일 순환)을 띄며, 전반적으로 증가하는 추세를 가진다. 이 데이터를 요약지표로 압축하는 방식을 추구한다. 다음과 같은 요약지표로 압축할 수 있다. - 일일/주기성 - 증가하는 추세 - 각각 아침, 점심, 저녁의 평균값 8.2 특징 계산 시 고려 사항 8.2.1 시계열의 특성 특징을 생성하는 과정에서 아래와 같은 기본 성질을 항상 염두해야 한다. 정상성 정상성은 시..
최근댓글