개요

단어를 밀집 벡터의 형태로 표현하는 방법. 이 방법으로 나온 결과를 임베딩 벡터라고 한다.

워드 임베딩 방법론으로는 LSA, Word2Vec, FastText, Glove등이 있다.
파이토치에서 제공하는 도구인 nn.embedding()은 앞서 언급한 방법들을 사용하지는 않지만, 단어를 랜덤한 값을 가지는 밀집 벡터로 변환한 뒤에, 인공신경망의 가중치를 학습하는것과 같은 방식으로 단어 벡터를 학습하는 방법을 사용한다.

One-Hot Vector vs Embedding Vector

One-Hot Vector vs Embedding Vector

One-Hot VectorEmbedding Vector
차원고차원 (단어 집합의 크기)저차원
다른 표현희소 벡터의 일종밀집 벡터의 일종
표현 방법수동훈련 데이터로부터 학습함
값의 타입1과 0실수
원본 링크