개요

DTM에서, 단어의 빈도와 역 문서 빈도를 사용하여 DTM내의 각 단어들마다 중요한 정보를 가중치로 주는 방법
TF-IDF는 TF와 IDF를 곱한 값을 의미한다. 각 단어의 TF는 DTM에서의 각 단어의 값과 같으므로 결과는 DTM행렬에서 IDF값을 곱한 값이다.

수식

문서를 d, 단어를 t, 문서의 총 개수를 n이라고 표현한다.

tf(d,t)

특정 문서 d에서의 단어 t의 등장 횟수
일반 DTM에서, 행렬의 각 값과 같다.

df(t)

특정 단어 t가 등장한 문서의 수
특정 단어가 문서에서 몇 번 등장했는지는 고려하지 않는다.

idf(t)


df(t)역수에 로그. 로그의 밑은 자연상수(e)나 10이나 쓰기 나름인듯. 대부분 패키지에서는 자연로그.