https://arxiv.org/abs/2401.15024v1
Introduction
Motivation
- LLM의 computational complexity를 줄이기 위해 많은 weight pruning 방식이 고안됨
- Unstructured pruning 방식은 모델 구조에 관계 없이 범용적으로, 효율적으로 사용될 수 있지만 다음과 같은 단점 있음
- weight matrix의 중간 중간이 제거되므로 정확도 감소가 클 가능성이 높고, 추가적으로 fine-tuning이 필요함
- matrix의 크기가 유지되므로 (embedding dimension이 동일) 메모리 사용량은 감소하지 않음
- Structured pruning은 차원의 감소로 연산량과 메모리 사용량에서 큰 이점을 가지지만 방법을 찾기 어렵고 범용성이 낮다는 단점이 있음
Contribution
- Computational invariance
- Model을 변경하지 않고 transformer 모델 내의 weight matrix에 orthogonal matrix transformation을 수행할 수 있음을 보임
- 이를 이용하여 transformer 구조에서 주성분 분석을 통해 weight matrix의 차원을 감소시킴
- 제안하는 방법으로 Dense model의 90% 이상의 수준의 성능을 유지하면서 최대 30% pruning이 가능함을 보임
Related work
- Magnitude-based sparsification
- 상대적으로 값이 적은 weight를 0으로 바꿔서 sparse matrix로 변환