지난 시간 배운 것

score function와 loss function, regularization의 효과

-> 가중치가 변함에 따라 loss가 얼마나 변하는지(미분=gradient)

optimaization : loss를 최소화하는 w를 찾아가는 과정

 

역전파의 효과 : 학습을 함에 있어서 각 vector가 얼마정도의 영향을 주는지 알아보는 과정

z의 값을 h만큼 증가시킨다면 f의 값은 3만큼 늘어난다. 3배만큼 영향력을 주고 있다.

 

Chain Rule

df/dy 는 바로 구할 수 없음. 오른쪽과 같이 식의 곱으로 나타낼 수 있음. (-4 x 1)

dq/dy는 df/dy에 직접적으로 영향을 주기에 local gradient라고 함. df/dq는 global gradient

 

local gradient와 backward gradients를 곱해줌으로써 최종 gradient를 구할 수 있음.

 

sigmoid function은 미분하면 자기 자신으로 표현이 됨. 그러므로 sigmoid gate를 다 거치지 않고 미분을 한 수식에 대입해서 local gradient를 구할 수 있음.

+ gate : gradient를 온전히 전해주는 기능

max gate : 큰 놈만 gradient를 전해주는 기능

mul gate : gradient를 switcher(교환)하는 기능

코드 구현 예시

 

Neural Network

NN은 activation function을 거침 (기능 : linear -> nonlinear하게 만듦)

hidden layer의 기능은 feature라고 보면 됨. ex) car사진에서 앞쪽의 빨간색 부분을 담당하는 특징

하나의 class에 대해 여러개의 classify가 존재 (paramatic apporach)

input vector와 weight 곱 -> cell body (sum) -> activation (non-linear) -> output (next neuron)

sigmoid activation : 특정 뉴런의 확률값을 0~1 사이로 특정해주기 쉬움

data의 과적합을 방지하기 위해서는 network를 작게 만드는 것이 아니라 규제 값을 더 높여줘야 한다.

네트워크는 크면 클수록 좋다.

728x90
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 라이프코리아트위터 공유하기
  • shared
  • 카카오스토리 공유하기