신경망 학습

인공 신경망은 입력에 대해서 순전파 연산

순전파 연산을 통해 나온 예측값과 실제값의 오차를 Cost Function 통해 계산

오차(Cost)를 미분하여 Gradient(기울기) 구하고,

역전파 수행

(Zeroing Gradients)

원본 링크

개요

이름 그대로. 출력에서 입력 방향으로 ‘거꾸로’들어가면서 가중치를 하나씩 업데이트함

역전파 1단계, 2단계 라는 식으로 명명할 수 있는데,
레이어 사이의 가중치 행렬을 업데이트하는 하나하나의 단계를 뜻하는거임.
근데 거꾸로 들어가니까 제일 첫단계인 1단계는 가장 마지막 가중치행렬 업데이트.

직접 계산해보는 역전파

활성화 함수로 시그모이드, 비용함수로 MSE 사용

역전파 1단계 $W_{5}$ 를 찾기

Chain Rule

\frac{\partial E _{t o t a l}}{\partial W _{5}} = \frac{\partial E _{t o t a l}}{\partial o _{1}} \times \frac{\partial o _{1}}{\partial z _{3}} \times \frac{\partial z _{3}}{\partial W _{5}}

$\partial E_{t o t a l} / \partial o_{1}$

E_{t o t a l} = \frac{1}{2} (t a r g e t_{o 1} - o u tp u t_{o 1})^{2} + \frac{1}{2} (t a r g e t_{o 2} - o u tp u t_{o 2})^{2}

$t a r g e t_{o 1}$ , $t a r g e t_{o 2}$ , $o u tp u t_{o 2}$ 는 모두 $o_{1}$ 에 대한 함수가 아님.
$o u tp u t_{o 1} = o_{1}$ 임. 표기법 차이.

\frac{\partial E _{t o t a l}}{\partial o _{1}} = - t a r g e t_{o 1} + o u tp u t_{o 1}

$t a r g e t_{o 1}, o u tp u t_{o 1}$ : 알고 있는 값.

$\partial o_{1} / \partial z_{3}$

참고,

Sigmoid의 미분
$S i g m o i d (x) \times (1 - S i g m o i d (x))$ 원본 링크

또한,

o_{1} = s i g m o i d (z_{3})

이다.

\frac{\partial o _{1}}{\partial z _{3}} = o_{1} \times (1 - o_{1})

$o_{1}$ : 알고 있는 값.

$\partial z_{3} / \partial W_{5}$

\frac{\partial z _{3}}{\partial W _{5}} = h_{1}

왜 why? $W_{5} \cdot h_{1} + b = z_{3}$
$h_{1}$ : 알고 있는 값.

역전파 2단계 $W_{1}$ 찾기

\frac{\partial E _{t o t a l}}{\partial W _{1}} = \frac{\partial E _{t o t a l}}{\partial h _{1}} \times \frac{\partial h _{1}}{\partial z _{1}} \times \frac{\partial z _{1}}{\partial W _{1}}

$\partial E_{t o t a l} / \partial h_{1}$

\frac{\partial E _{t o t a l}}{\partial h _{1}} = \frac{\partial E _{o 1}}{\partial h _{1}} + \frac{\partial E _{o 2}}{\partial h _{1}} = \frac{\partial E _{o 1}}{\partial z _{3}} \frac{\partial z _{3}}{\partial h _{1}} + \frac{\partial E _{o 2}}{\partial z _{4}} \frac{\partial z _{4}}{\partial h _{1}} = \frac{\partial E _{o 1}}{\partial o _{1}} \frac{\partial o _{1}}{\partial z _{3}} \frac{\partial z _{3}}{\partial h _{1}} + \frac{\partial E _{o 2}}{\partial o _{2}} \frac{\partial o _{2}}{\partial z _{4}} \frac{\partial z _{4}}{\partial h _{1}}

1단계와 같은 방법

$\partial E_{o 1} / \partial o_{1}$

E_{o 1} \frac{\partial E _{o 1}}{\partial o _{1}} = \frac{1}{2} (t a r g e t_{o 1} - o u tp u t_{o 1})^{2} = - (t a r g e t_{o 1} - o u tp u t_{o 1})

$t a r g e t_{o 1}, o u tp u t_{o 1}$ : 알고 있는 값.

$\partial o_{1} / \partial z_{3}$

\frac{\partial o _{1}}{\partial z _{3}} = o_{1} \times (1 - o_{1})

$o_{1}$ : 알고 있는 값.

$\partial z_{3} / \partial h_{1}$

\frac{\partial z _{3}}{\partial h _{1}} = W_{5}

$W_{1}$ : 알고 있는 값 (역전파 1단계에서 구함)

결론

이처럼 역전파 단계를 거쳐가며 새로운 가중치 값을 찾아낼 수 있음을 확인하였다.

문지원의 AI 공부 노트

탐색기

Back Propagation

신경망 학습

개요

직접 계산해보는 역전파

역전파 1단계 $W_{5}$ 를 찾기

$\partial E_{t o t a l} / \partial o_{1}$

$\partial o_{1} / \partial z_{3}$

Sigmoid의 미분

$\partial z_{3} / \partial W_{5}$

역전파 2단계 $W_{1}$ 찾기

$\partial E_{t o t a l} / \partial h_{1}$

$\partial E_{o 1} / \partial o_{1}$

$\partial o_{1} / \partial z_{3}$

$\partial z_{3} / \partial h_{1}$

결론

그래프 뷰

목차

백링크

문지원의 AI 공부 노트

탐색기

Back Propagation

신경망 학습

개요

직접 계산해보는 역전파

역전파 1단계 W5​ 를 찾기

∂Etotal​/∂o1​

∂o1​/∂z3​

Sigmoid의 미분

∂z3​/∂W5​

역전파 2단계 W1​ 찾기

∂Etotal​/∂h1​

∂Eo1​/∂o1​

∂o1​/∂z3​

∂z3​/∂h1​

결론

그래프 뷰

목차

백링크

역전파 1단계 $W_{5}$ 를 찾기

$\partial E_{t o t a l} / \partial o_{1}$

$\partial o_{1} / \partial z_{3}$

$\partial z_{3} / \partial W_{5}$

역전파 2단계 $W_{1}$ 찾기

$\partial E_{t o t a l} / \partial h_{1}$

$\partial E_{o 1} / \partial o_{1}$

$\partial o_{1} / \partial z_{3}$

$\partial z_{3} / \partial h_{1}$