개요

$cos t (W) = - \sum_{j = 1}^{k} y_{j} l o g (p_{j})$

$W = w_{11} w_{21} ⋮ w_{k 1} w_{12} w_{22} ⋮ w_{k 2} \dots \dots ⋱ \dots w_{1 d} w_{2 d} ⋮ w_{k d}$

$k$ : 분류해야 하는 전체 클래스의 개수
$d$ : 입력 특징의 개수
$j$ : 클래스 인덱스
$y_{j}$ : 정답을 벡터로 표현한 것의 j번째 값(보통 One-Hot Vector
예를 들어, 클래스가 3개이고 정답이 두 번째 클래스라면
$y = [0, 1, 0]$
따라서
- $y_{1} = 0$
- $y_{2} = 1$
- $y_{3} = 0$
$p_{j}$ : 모델이 예측한 클래스 j일 확률. 보통 Softmax로 계산된다.
출력값 : 스칼라

정답 클래스 확률이 높을수록 loss가 작아지고 정답 클래스 확률이 낮으면 loss가 커지도록 설계되었다.

$y$ 가 One-Hot Vector라면

결국 식은 $cos t = - l o g (p_{j^{*}})$ 으로 정답일 확률에 로그를 씌운것에 불과하다.
정답일 확률이 1이면 손실함수는 0, 정답 확률이 0.1이면 2.3

n개 데이터 전체에 대한 평균

$cos t (W) = - \frac{1}{n} \sum_{i = 1}^{n} \sum_{j = 1}^{k} y_{j}^{(i)} l o g (p_{j}^{(i)})$
복잡하네. 간단히 예시 넣어보기

이진 분류에서의 크로스 엔트로피 함수

cos t (W) = - \frac{1}{n} [y^{(i)} lo g (H (x^{(i)})) + (1 - y^{(i)}) lo g (1 - H (x^{(i)}))]

Cross Entropy Function Subtitution Example에서 확인할 수 있듯이, 동일한 식이다.

문지원의 AI 공부 노트

탐색기

Cross Entropy Function

개요

$y$ 가 One-Hot Vector라면

n개 데이터 전체에 대한 평균

이진 분류에서의 크로스 엔트로피 함수

그래프 뷰

목차

백링크

문지원의 AI 공부 노트

탐색기

Cross Entropy Function

개요

y가 One-Hot Vector라면

n개 데이터 전체에 대한 평균

이진 분류에서의 크로스 엔트로피 함수

그래프 뷰

목차

백링크

$y$ 가 One-Hot Vector라면