개요

서로 다른 문서들의 BoW들을 결합한 표현 방법. 행과 열을 반대로 선택하면 TDM이라고 부르기도 한다.
문서 단어 행렬(Document-Term Matrix, DTM)이란 다수의 문서에서 등장하는 각 단어들으리 빈도를 행렬로 표현한 것을 말한다.
간단히 표현하면 각 문서에 대한 BoW를 하나의 행렬로 만든 것으로 생각할 수 있으며, BoW와 다른 표현 방법이 아니라 BoW표현을 다수의 문서에 대해서 행렬로 표현하고 부르는 용어이다.

표기법 예시

문서 1 : 먹고 싶은 사과
문서 2 : 먹고 싶은 바나나
문서 3 : 길고 노란 바나나 바나나
문서 4 : 저는 과일이 좋아요.
띄어쓰기 단뒤 토큰화, DTM으로 표현.

과일이길고노란먹고바나나사과싶은저는좋아요
문서1000101100
문서2000110100
문서3011020000
문서4100000011

의의

문서 단어 행렬은 문서들을 서로 비교할 수 있도록 수치화할 수 있다는 점에서 의의를 가진다

한계

희소 표현

공간적 낭비와 계산 리소스가 증가된다.
따라서 BoW표현을 사용하는 모델에서 전처리를 통해 단어 집합의 크기를 줄이는 일은 중요하다.

단순 빈도 수 기반 접근

‘the’와 같은 빈도수는 많지만 중요하진 않은 단어를 거르지 못하고, 중요한 단어에 가중치를 줄 방법이 없다.