BERT : Bidirectional Encoder Representations from Transformer - transformer에서 encoder 정보만 사용하는데, bidrectional한 정보만 사용하겠다. 1) Masked language model : 순차적으로 model을 사용하는 것이 아닌, 특정 위치에 mask를 씌워서 그 부분을 예측. 2) Next sentence prediction : 다음 sentence가 corpus에서의 contextual하게 다음 등장하는 sentence인지 학습. Input/Output representations - down-stram tasks에 따라, single-sentence를 받을수도 pair로 된 sentences를 받을 수도 있다.(Q-A ..
데이터 사이언스 사용 설명서 검색 결과
Transformer : Attention is all you need - attention 메커니즘을 극대화시킨 모델(sequential -> atterntion) - input embedding -> encoder -> decoder -> output의 구조를 가지고 있음. encoding block vs docoding block - unmasked(encoder) : 따로 masking 하지는 않음. - masked(decoder) : 문장을 생성할 때 앞 -> 뒤로 순차적으로 만들어야하기 때문에 masking이 되어있음. encoder 구조 - encoder block의 구조는 동일하나, 구조 안 가중치들은 학습을 통해 달라질 수 있음. - 두 개의 sub layer로 이루어짐 (self-att..
sequence to sequnce seq2seq의 input, output의 길이는 같을 필요는 없다. encoder : 입력된 정보를 어떻게 처리해서 저장할 것이냐? - context vector를 생성 - context vector를 decoder로 넘겨줌 decoder : 압축된 정보를 어떻게 풀어서 반환해줄것인가? - output sequence를 item by item으로 넘겨줌 Encoder-Decoder with RNN - RNN : input 값을 hidden state와 output값으로 처리해줌. 이 값들을 계속 전달해나가는 구조 - 가장 마지막의 hidden state인 context vector가 decoder로 전달 됨. - docoder를 통해 다시 sequence가 추출됨(i..
지난 시간 배운 것 score function와 loss function, regularization의 효과 -> 가중치가 변함에 따라 loss가 얼마나 변하는지(미분=gradient) optimaization : loss를 최소화하는 w를 찾아가는 과정 역전파의 효과 : 학습을 함에 있어서 각 vector가 얼마정도의 영향을 주는지 알아보는 과정 z의 값을 h만큼 증가시킨다면 f의 값은 3만큼 늘어난다. 3배만큼 영향력을 주고 있다. Chain Rule df/dy 는 바로 구할 수 없음. 오른쪽과 같이 식의 곱으로 나타낼 수 있음. (-4 x 1) dq/dy는 df/dy에 직접적으로 영향을 주기에 local gradient라고 함. df/dq는 global gradient local gradient와 ..
optimization이란? - loss를 minima하는 weight를 찾아가는 과정 loss function 정리 regurization loss는 data랑 상관없이 weight에만 영향을 받음 optimization의 그림 설명 - 산속에서 눈을 가리고 최적의 곳을 찾아가는 과정 optimizatation 전략 1. Random search 1000번을 돌리는데 랜덤하게 선택 -> 절대 쓰면 안 됨 전략2. Follow the slope=gradient(경사) 1차원일 때 수치적으로 미분을 통해 기울기를 구함 수식에 대입한다면? - gradient가 음수라는 것은 기울기가 내려가는 방향으로 설정됨 - 두 번째 값으로 하면 0.6이 나옴 => 위쪽으로 나오는 기울기 미분(numerical)을 한다는..
loss function : score에 대해 불만족한 정도를 측정하는 함수 optimization : loss function을 최소화하는 파라미터를 찾는 과정 1. SVM hinge loss SVM의 loss인 hinge loss는 0과 sj(잘못된 label의 score), syj(제대로 된 label의 score), 1(safety margin) -> 해석1 : sj - (syj - 1) => correct label의 score보다 큰 incorrect label score가 있다면 loss는 0보다 크게 나타남 -> 해석2 : coreect label의 score가 incorrect label score보다 1이상 크다면 loss는 0이 됨 ex) 고양이로 분류했다면 correct label ..
computer vision 분야의 기본은 이미지를 분류하는 것 -> 개, 고양이, 강아지 기타 파생된 분야가 detection, segmentation, image captioning 분류를 하는데 semantic gap이라는 문제점이 생김 이미지는 기본적으로 height x width x channel의 곱으로 이루어짐 (여기서 channel이란 색상=RGB) 이미지의 도전과제 - Viewpoint Variation (보는 시각에 따라서 이미지가 다르게 보임) - Illumination (조명) - Deformation (형태의 변형) - Occulusion (숨어있는 이미지) - Background clutter (배경하고 구분이 안 되는 형체) - Intraclass variation (비슷한 형..
기술세션 AI - 실험을 잘한다는 것은 무엇일까? "성능이 애매하다" : 기존 솔루션 대비 성능이 비슷하거나 떨어짐 - AB테스트 결과 : 기존 솔루션 성능(10) vs 솔루션 A 성능(9) -> 성능이 떨어짐 실험 결과가 애매하다면? 실험이 안 좋다면 -> 실험 결과를 어떻게 남겨야 다음 실험에 도움이 될 수 있을까? (가지치기 하듯이 이 쪽은 아니야) 하지만 "내"가 아닌 다른 사람들이 실험해서 성공한다면? -> 마치 엑스칼리버와 같음 보완하는 시나리오라면? - 보완 -> 실험 -> 실패의 사이클의 마무리 조건은? : 시간의 효율을 위해 기준을 설정해야 함. 실험을 잘하려면? -> 실험에는 승부수가 있어야 한다. 승부수란, 이 실험이 성공할거라는 근거 승부수는 아래 조건들로 이루어짐 Key Featu..
안녕하세요 저는 브라이틱스 서포터즈 3기 이상민입니다 :) 벌써 브라이틱스 서포터즈 활동을 마치는 날이 다가왔는데요. 이번 포스팅을 마지막으로 브라이틱스 서포터즈와 관련된 포스팅은 마치려고 합니다. 지금까지 느꼈던 것들과 서포터즈 활동을 되돌아보며 들었던 주관적인 감정들에 대해 남겨보도록 하겠습니다 :) 브라이틱스를 처음 접해보며 서포터즈를 활동하면서 브라이틱스 스튜디오라는 분석 툴을 처음 접해보았는데요. 데이터분석을 꿈꾸는 많은 분들은 python인 R을 주로 사용하셨을 겁니다. 저또한 다른 언어를 주로 활용했었는데요. 브라이틱스를 접해보면서 자동화되어있는 모델링 과정이나 강력한 데이터분석 내장함수들이 매우 매력적으로 다가왔습니다. 다른 언어들은 코딩을 직접해야하고 분석가가 직..
안녕하세요 저는 브라이틱스 서포터즈 3기 이상민입니다 :) 저번 포스팅에는 변수 생성에 대해 간단히 설명 하였는데요. 이번 포스팅은 Modeling의 전 과정을 EDA부터 변수 생성까지 모두 압축해서 설명하겠습니다! 데이터 탐색 제주 테크노파크 제주도 도로 교통량 예측 앞선 주제는 제주도 도로 교통량 예측이었는데요. 먼저 다운받은 데이터를 브라이틱스의 Load Data 함수를 통해 불러와줍니다. 위와 같이 데이터를 불러와줬습니다! 그리고 위와 같은 여러 변수들이 있었습니다. 저는 target변수인 평균속도에 영향을 줄만한 변수들을 살펴보았는데요. 먼저 통계지표를 뽑아보며 0이나 이상치 값들이 있는 것을 볼 수 있습니다. 그 다음은 target(평균속도)인데요. 50정도에서 높은 ..
최근댓글