개요

주어진 코퍼스에서 토큰이라 불리는 단위로 나누는 작업

단어 토큰화 (Word Tokenization)

토큰의 기준을 단어(Word)로 하는 경우
여기서 단어는 실제 언어의 단어 외에도 단어구, 의미를 갖는 문자열로도 간주되기도 한다.

고려해야할 사항

구두점이나 특수문자를 단순 제외해서는 안 된다.
줄임말과 단어 내에 띄어쓰기가 있는 경우.
1. what’re = what are
2. we’re = we are
3. New York
4. rock ‘n’ roll

문장 토큰화

“문장 분류”라고도 부른다.
물음표(?)나 마침표(.), 느낌표(!)기준으로 문장을 잘라내면 되지 않을까 싶지만 그렇지는 않다. “마침표(.)”는 문장의 끝이 아니더라도 등장한다.

ex) EX1) IP 192.168.56.31 서버에 들어가서 로그 파일 저장해서 aaa@gmail.com 로 결과 좀 보내줘. 그 후 점심 먹으러 가자.
EX2) Since I’m actively looking for Ph.D. students, I get the same question a dozen times every year

한국어에서의 토큰화의 어려움

영어와 다르게 한국어는 띄어쓰기만으로는 토큰화를 하기에 부족하다.
어절(한국어에서 띄어쓰기의 단위)토큰화는 한국어NLP에서 지양된다. 어절 토큰화는 단어토큰화와 다르다.

한국어는 교착어이기 때문이다.

교착어의 특성

‘그는’, ‘그와’, ‘그에게’는 비슷한 토큰이지만 다른 단어로 인식될 수 있다.
대부분의 한국어 NLP 에서 조사는 분리해야 한다.

영어에서의 단어 토큰화와 유사한 형태를 얻으려면 형태소 토큰화를 수행하여야 한다.

한국어 띄어쓰기는 영어보다 잘 지켜지지 않는다.

한국어는 띄어쓰기가 어렵고 영어권 언어보다 잘 지켜지지 않는 경향이 있다.

문지원의 AI 공부 노트

탐색기

Tokenization

개요