개요

희소 표현은 각 단어간 유사성을 표현할 수 없다는 단점이 있었다. 이를 위한 대안으로 단어의 의미를 다차원 공간에 벡터화하는 방법을 찾게되는데, 이러한 표현 방법을 분산 표현이라고 한다.
분산 표현을 이용하여 단어의 유사도를 벡터화하는 작업은 워드 임베딩에 속한다.

분포 가설

비슷한 위치에서 등장하는 단어들은 비슷한 의미를 가진다
’강아지’라는 단어는 ‘귀엽다’, ‘예쁘다’, ‘애교’등의 단어가 주로 함께 등장하는데 분포 가설에 따라서 저런 내용을 가진 텍스트를 벡터화한다면 저 단어들은 의미적으로 가까운 단어가 된다.

설명

분산 표현은 분포 가설을 이용하여 단어들의 셋을 학습하고, 벡터에 단어의 의미를 여러 차원에 분산하여 표현한다.
이렇게 표현된 단어들은 원-핫 벡터처럼 벡터의 차원이 단어 집합의 크기일 필요가 없으므로, 벡터의 차원이 상대적으로 저차원으로 줄어든다.
이를 위한 학습 방법으로는 NNLM, RNNLM등이 있으나 요즘에는 해당 방법들의 속도를 대폭 개선시킨 Word2Vec이 많이 쓰인다.

요약

희소 표현이 각 차원이 분리된 표현 방법이었다면, 분산 표현은 저차원에 단어의 의미를 여러 차원에다가 분산하여 표현한다. 이러한 표현 방법을 사용하면 단어 간 유사도를 계산할 수 있다.