1. Introduction
- 현재 대부분의 foundation 모델들은 transformer 구조와 attention 메커니즘을 기반으로 함.
- transformer 기반 모델은 시퀀스가 길어질수록 계산량이 exponentially 하게 증가함.
- 최근 SSM을 강화한 structured state space sequence models (S4) 가 시퀀스 모델링을 위한 유망한 아키텍처로 등장.
- S4 은 linear or near-linear 수준의 계산량을 가짐.
- 하지만 텍스트와 같은 이산적이고 정보 밀도가 높은 데이터를 모델링하는 데 덜 효과적.
- 이러한 문제를 해결한 Selective State Spaces model (Mamba) 를 소개
[ Mamba’s contribution ]
Selection Mechanism.
입력에 따라 데이터를 효율적으로 선택하는 능력