개요

경사 하강법의 확률적(Stochastic) 변형

일반적인 Gradient Descent와의 비교

경사 하강법SGD
매 스텝마다 전체 데이터셋의 평균 Gradient 계산해서 업데이트매 스텝마다 데이터 한 개 또는 작은 샘플로 Gradient를 근사해서 업데이트
안정적이지만 데이터가 크면 계산이 매우 느림훨씬 빠르지만 Gradient가 노이즈가 있어서 경로가 흔들림

(i번째 샘플만 사용)

여담

실제 딥러닝에서는 이 중간 형태인 Mini-batch Gradient Descent를 사용한다.

  • 1개 샘플 - SGD
  • 전체 데이터 - GD
  • 32, 64, 128개 묶음 - Mini-Batch GD