개요

Softmax Function
개요

k차원의 벡터, i번째 원소를 $z_{1}$ , i번째 클래스가 정답일 확률 $p_{i}$

$p_{i} = \frac{e ^{z_{i}}}{\sum _{j = 1}^{k} e ^{z_{j}}}$

$so f t ma x (z) = [\frac{e ^{z_{1}}}{\sum _{j = 1}^{3} e ^{z_{j}}}, \frac{e ^{z_{2}}}{\sum _{j = 1}^{3} e ^{z_{j}}}, \frac{e ^{z_{3}}}{\sum _{j = 1}^{3} e ^{z_{j}}}] = [p_{1}, p_{2}, p_{3}] = \overset{y}{^} = 예측값$

출력

0과 1사이의 실수.
각 원소의 총합은 1이다.
원본 링크

예시

소프트맥스 함수의 입력

하나의 샘플 데이터의 독립 변수 4차원 벡터, 소프트맥스 함수는 3차원 벡터를 입력으로 받음.

각각의 화살표는 각각의 가중치. 총 12개. 학습 과정에서 변함.

오차를 구하는 방법

소프트맥스 회귀에서 예측값을 구하는 과정을 행렬으로 표현

Cost Function of Softmax Regression

Cross Entropy Function
개요

$cos t (W) = - \sum_{j = 1}^{k} y_{j} l o g (p_{j})$

$W = w_{11} w_{21} ⋮ w_{k 1} w_{12} w_{22} ⋮ w_{k 2} \dots \dots ⋱ \dots w_{1 d} w_{2 d} ⋮ w_{k d}$

$k$ : 분류해야 하는 전체 클래스의 개수
$d$ : 입력 특징의 개수
$j$ : 클래스 인덱스
$y_{j}$ : 정답을 벡터로 표현한 것의 j번째 값(보통 One-Hot Vector
예를 들어, 클래스가 3개이고 정답이 두 번째 클래스라면
$y = [0, 1, 0]$
따라서
- $y_{1} = 0$
- $y_{2} = 1$
- $y_{3} = 0$
$p_{j}$ : 모델이 예측한 클래스 j일 확률. 보통 Softmax로 계산된다.
출력값 : 스칼라

정답 클래스 확률이 높을수록 loss가 작아지고 정답 클래스 확률이 낮으면 loss가 커지도록 설계되었다.

$y$ 가 One-Hot Vector라면

결국 식은 $cos t = - l o g (p_{j^{*}})$ 으로 정답일 확률에 로그를 씌운것에 불과하다.
정답일 확률이 1이면 손실함수는 0, 정답 확률이 0.1이면 2.3

n개 데이터 전체에 대한 평균

$cos t (W) = - \frac{1}{n} \sum_{i = 1}^{n} \sum_{j = 1}^{k} y_{j}^{(i)} l o g (p_{j}^{(i)})$
복잡하네. 간단히 예시 넣어보기

이진 분류에서의 크로스 엔트로피 함수
$cos t (W) = - \frac{1}{n} [y^{(i)} lo g (H (x^{(i)})) + (1 - y^{(i)}) lo g (1 - H (x^{(i)}))]$
Cross Entropy Function Subtitution Example에서 확인할 수 있듯이, 동일한 식이다.
원본 링크

문지원의 AI 공부 노트

탐색기

Softmax Regression

개요

Softmax Function

개요

출력

예시

소프트맥스 함수의 입력

오차를 구하는 방법

소프트맥스 회귀에서 예측값을 구하는 과정을 행렬으로 표현

Cost Function of Softmax Regression

Cross Entropy Function

개요

$y$ 가 One-Hot Vector라면

n개 데이터 전체에 대한 평균

이진 분류에서의 크로스 엔트로피 함수

그래프 뷰

목차

백링크

문지원의 AI 공부 노트

탐색기

Softmax Regression

개요

Softmax Function

개요

출력

예시

소프트맥스 함수의 입력

오차를 구하는 방법

소프트맥스 회귀에서 예측값을 구하는 과정을 행렬으로 표현

Cost Function of Softmax Regression

Cross Entropy Function

개요

y가 One-Hot Vector라면

n개 데이터 전체에 대한 평균

이진 분류에서의 크로스 엔트로피 함수

그래프 뷰

목차

백링크

$y$ 가 One-Hot Vector라면