개요

입력 데이터에 순서나 시간적 의존성이 존재할 때 이를 모델링하기 위한 신경망 구조

일반적인 다층 퍼셉트론은 각 입력을 독립적인 벡터로 취급한다. 즉 데이터의 순서를 고려하지 않는다. 반면 시퀀스 모델은 이전 정보가 현재에 영향을 준다는 가정을 명시적으로 구조에 반영한다.

특징

  1. 입력이 순차적으로 처리된다
  2. 이전 시점의 정보가 다음 시점 계산에 사용된다
  3. 가변 길이 입력을 자연스럽게 처리할 수 있다.

뭔소리야, MLP에는 벡터 자체에 순서가 있잖아?

Factos👍
그러나 차이점이 있다.

파라미터 공유

MLP는 각 위치마다 다른 가중치를 가진다.

반면 RNN은 모든 타임 스텝에서 다른 가중치 W, U를 사용한다

즉 시간축을 따라 같은 연산을 반복한다!

가변 길이 처리

시퀀스 모델은 가변 길이를 처리할 수 있다. 시간방향으로 반복하면 된다

조합 폭발 문제

MLP는 입력 길이가 늘어날수록 파라미터가 증가하겠지?
RNN은 아니다. 파라미터 수는 고정. 연산이 반복된다.

구조

순환 구조 계열

  • RNN
  • LSTM
  • GRU
    어텐션 기반 구조
  • Transformer