Momentum : 관성이 있어 local minimum 에서 잘 빠져나온다
RMSProp : 학습률을 알아서 조절함

뭐로 해야할지 모르겠다? 그러면 아담 쓰면 된다.

weight decay 값을 주면 L2 Norm 과 비슷한 효과를 낼 수 있다.