개요
입력 데이터에 순서나 시간적 의존성이 존재할 때 이를 모델링하기 위한 신경망 구조
일반적인 다층 퍼셉트론은 각 입력을 독립적인 벡터로 취급한다. 즉 데이터의 순서를 고려하지 않는다. 반면 시퀀스 모델은 이전 정보가 현재에 영향을 준다는 가정을 명시적으로 구조에 반영한다.
특징
- 입력이 순차적으로 처리된다
- 이전 시점의 정보가 다음 시점 계산에 사용된다
- 가변 길이 입력을 자연스럽게 처리할 수 있다.
뭔소리야, MLP에는 벡터 자체에 순서가 있잖아?
Factos👍
그러나 차이점이 있다.
파라미터 공유
MLP는 각 위치마다 다른 가중치를 가진다.
반면 RNN은 모든 타임 스텝에서 다른 가중치 W, U를 사용한다
즉 시간축을 따라 같은 연산을 반복한다!
가변 길이 처리
시퀀스 모델은 가변 길이를 처리할 수 있다. 시간방향으로 반복하면 된다
조합 폭발 문제
MLP는 입력 길이가 늘어날수록 파라미터가 증가하겠지?
RNN은 아니다. 파라미터 수는 고정. 연산이 반복된다.
구조
순환 구조 계열
- RNN
- LSTM
- GRU
어텐션 기반 구조 - Transformer