개요

언어라는 현상을 모델링하고자 단어 시퀀스(문장)에 확률을 할당하는 모델. 단어 시퀀스에 확률을 할당하기 위해서 가장 보편적으로 사용되는 방법은 언어 모델이 이전 단어들이 주어졌을 때 다음 단어를 예측하도록 하는것이다.1
언어 모델을 만드는 방법은 크게는 통계를 이용한 방법인공 신경망을 이용한 방법으로 구분할 수 있다. 2
언어 모델이 이전 단어로부터 다음 단어를 예측하는 일을 언어 모델링이라고 한다.

주어진 이전 단어들로부터 다음 단어 예측하기

단어 시퀀스의 확률

하나의 단어를 , 단어 시퀀스를 라고 한가면, 개의 단어가 등장하는 단어 시퀀스 의 확률은 다음과 같다.

다음 단어 등장 확률

다음 단어의 등장 확률을 식으로 표현하여, 개의 단어가 나열된 상태에서 번째 단어의 확률은 다음과 같다.

전체 단어 시퀀스W의 확률은 모든 단어가 예측되고 나서야 알 수 있으므로 단어 시퀀스의 확률을 다음과 같다.

P(W) &= P(w_1,w_2,w_3,w_4,w_5,...,w_n) \\ &= \prod^n_{i=1}{P(w_i|w_1,...,w_{i-1})} \end{align}$$ # 기존 언어 모델 vs. 인공 신경망을 이용한 언어 모델 ![[Traditional LM vs Neural Network LM.png]] 위 표에서, 맨 위의 모델만이 전통적 [[N-gram Language Model|N-gram 언어 모델]]이다. 나머지는 인공 신경망을 이용한 언어 모델들으로, 인공신경망을 이용한 언어 모델들은 대부분 N-gram을 이용한 언어 모델보다 더 좋은 성능 평가를 받았음을 확인할 수 있다.

Footnotes

  1. 다른 유형의 언어 모델로는 주어진 양쪽의 단어들로부터 가운데 비어있는 단어를 예측하는 언어 모델이 있다.

  2. 최근에는 통계를 이용한 방법보다는 인공 신경망을 이용한 방법이 더 좋은 성능을 보여주고 있다.