가중치가 초기에 어떤 값을 가졌느냐에 따라서 모델의 훈련 결과가 달라진다
그렇다고 모든 값을 0으로 두고 시작하냐?
그건 아니다. 모든 뉴런이 동일한 값을 출력하고 모든 그라디언트가 동일하고 업데이트가 같고.. 그러니까 랜덤 초기화가 필요하다.

근데 진짜 랜덤은 되냐? 그건또아니다. 기울기 소실이 발생하기가 매우 쉽기 때문에

Xavier Initialization

개요

: 이전 층의 뉴런의 개수
: 다음 층의 뉴런의 개수

Uniform Distribution 초기화

Normal Distribution 초기화


정리

여러 층의 기울기 분산 사이에 균형을 맞춰서 특정 층이 너무 주목을 받거나 다른 층이 뒤쳐지는것을 막는다.
S자 형태의 활성화 함수와 함께 사용하면 좋은 성능을 보인다.
하지만 ReLU계열에는 다른 초기화 방법을 사용하는것이 좋다.

원본 링크

He Initialization

개요

자비에르 초기화와 유사하게 정규분포화 균등분포 두가지 경우로 나뉜다.
다만, He 초기화는 다음 층 뉴런의 수를 반영하지 않는다.

: 이전 층 뉴런의 개수

Uniform Distribution 초기화

Normal Distribution 초기화


정리

S자 형태의 활성화 함수를 사용할때는 세이비어 초기화쓰는게 낫다
ReLU쓸 때는 He 초기화를 보통 쓴다. ReLU + He 가 보편적인 방법

원본 링크