개요
서로 다른 문서들의 BoW들을 결합한 표현 방법. 행과 열을 반대로 선택하면 TDM이라고 부르기도 한다.
문서 단어 행렬(Document-Term Matrix, DTM)이란 다수의 문서에서 등장하는 각 단어들으리 빈도를 행렬로 표현한 것을 말한다.
간단히 표현하면 각 문서에 대한 BoW를 하나의 행렬로 만든 것으로 생각할 수 있으며, BoW와 다른 표현 방법이 아니라 BoW표현을 다수의 문서에 대해서 행렬로 표현하고 부르는 용어이다.
표기법 예시
문서 1 : 먹고 싶은 사과
문서 2 : 먹고 싶은 바나나
문서 3 : 길고 노란 바나나 바나나
문서 4 : 저는 과일이 좋아요.
띄어쓰기 단뒤 토큰화, DTM으로 표현.
| 과일이 | 길고 | 노란 | 먹고 | 바나나 | 사과 | 싶은 | 저는 | 좋아요 | |
|---|---|---|---|---|---|---|---|---|---|
| 문서1 | 0 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 0 |
| 문서2 | 0 | 0 | 0 | 1 | 1 | 0 | 1 | 0 | 0 |
| 문서3 | 0 | 1 | 1 | 0 | 2 | 0 | 0 | 0 | 0 |
| 문서4 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 |
의의
문서 단어 행렬은 문서들을 서로 비교할 수 있도록 수치화할 수 있다는 점에서 의의를 가진다
한계
희소 표현
공간적 낭비와 계산 리소스가 증가된다.
따라서 BoW표현을 사용하는 모델에서 전처리를 통해 단어 집합의 크기를 줄이는 일은 중요하다.
단순 빈도 수 기반 접근
‘the’와 같은 빈도수는 많지만 중요하진 않은 단어를 거르지 못하고, 중요한 단어에 가중치를 줄 방법이 없다.