Weight Initialization

가중치가 초기에 어떤 값을 가졌느냐에 따라서 모델의 훈련 결과가 달라진다
그렇다고 모든 값을 0으로 두고 시작하냐?
그건 아니다. 모든 뉴런이 동일한 값을 출력하고 모든 그라디언트가 동일하고 업데이트가 같고.. 그러니까 랜덤 초기화가 필요하다.

근데 진짜 랜덤은 되냐? 그건또아니다. 기울기 소실이 발생하기가 매우 쉽기 때문에

Xavier Initialization
개요

$n_{in}$ : 이전 층의 뉴런의 개수
$n_{o u t}$ : 다음 층의 뉴런의 개수

Uniform Distribution 초기화

$W \sim U ni f or m (- \frac{6}{n _{in} + n _{o u t}}, \frac{6}{n _{in} + n _{o u t}})$

Normal Distribution 초기화

$W \sim N (0, σ^{2})$
$σ = \frac{2}{n _{in} + n _{o u t}}$

정리

여러 층의 기울기 분산 사이에 균형을 맞춰서 특정 층이 너무 주목을 받거나 다른 층이 뒤쳐지는것을 막는다.
S자 형태의 활성화 함수와 함께 사용하면 좋은 성능을 보인다.
하지만 ReLU계열에는 다른 초기화 방법을 사용하는것이 좋다.
원본 링크

He Initialization
개요

자비에르 초기화와 유사하게 정규분포화 균등분포 두가지 경우로 나뉜다.
다만, He 초기화는 다음 층 뉴런의 수를 반영하지 않는다.

$n_{in}$ : 이전 층 뉴런의 개수

Uniform Distribution 초기화

$W \sim U ni f or m (- \frac{6}{n _{in}}, + \frac{6}{n _{in}})$

Normal Distribution 초기화

$W \sim N (0, σ^{2})$
$σ = \frac{2}{n _{in}}$

정리

S자 형태의 활성화 함수를 사용할때는 세이비어 초기화쓰는게 낫다
ReLU쓸 때는 He 초기화를 보통 쓴다. ReLU + He 가 보편적인 방법
원본 링크

문지원의 AI 공부 노트

탐색기

Xavier Initialization

개요

Uniform Distribution 초기화

Normal Distribution 초기화

정리

He Initialization

개요

Uniform Distribution 초기화

Normal Distribution 초기화

정리

그래프 뷰