개요

NLP에서, 토큰화 작업 전후로,
Cleaning(정제) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거하는 일
Normalization(정규화) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만드는 일

규칙에 기반한 정규화

USA = US
uh-huh = uhhuh

대소문자 통합

대부분의 경우, 대소문자는 통합하여 (소문자로 변환) 처리하는게 유용하다.
다만, 고유명사(US, General Motors), 사람 이름(Bush)는 대문자로 유지하는게 유용하다.

여러가지 규칙을 적용해볼 수도 있고, 머신러닝 시퀀스 모델을 적용할수도 있지만, 코퍼스자체가 대소문자를 정확한 구분을 하지 않았을 경우 이런 방법또한 도움이 되지 않을수도 있다. 결국에는 예외사항을 고려하지 않고, 모든 코퍼스를 소문자로 변환하는것이 종종 실용적인 해결책이 되기도 한다.

불필요한 단어의 제거

불용어 제거, 길이가 짧은 단어, 등장 빈도가 적은 단어를 제거하는 방법이 있다.

등장 빈도가 적은 단어

스팸 메일을 분류할 경우, 5번밖에 등장하지 않은 단어가 있다면 이 단어는 직관적으로 분류에 거의 도움이 되지 않을 것임을 알 수 있다.

길이가 짧은 단어

영어권 언어에서는 길이가 짧은 단어를 삭제하는 것만으로 어느정도 자연어 처리에서 크게 의미가 없는 단어들을 제거하는 효과를 볼 수 있다고 알려져 있다.
그러나 한국어에서는 길이가 짧은 단어라고 삭제하는 방법이 크게 유효하지 않을 수 있다.

정규 표현식

코퍼스 내에서 계속해서 등장하는 글자들을 규칙에 기반하여 한 번에 제거하는 방식으로서 유용하다.