본 논문은 대규모 언어 모델(LLM)의 높은 계산 및 메모리 요구량을 해결하기 위해 트랜스포머의 계층적 구조 내 중복성을 활용한 새로운 파라미터 효율적인 방법인 MASA(Matrix Atom Sharing in Attention)를 제안합니다. MASA는 어텐션 프로젝션 매트릭스를 공유되는 사전 원자(dictionary atoms)로 분해하여 파라미터 수를 줄입니다. 기존의 KV 캐싱을 넘어, CNN의 사전 학습에서 영감을 얻어 계층 간 구조적 가중치 공유 프레임워크를 제시하며, 표준 최적화기를 사용하여 학습될 수 있는 플러그 앤 플레이 방식으로 동작합니다. 다양한 규모(1억~7억 파라미터)의 실험을 통해 GQA, 저랭크 기준 및 최근 제안된 Repeat-all-over/Sequential 공유 방법보다 우수한 성능을 보였으며, 비전 트랜스포머(ViT)에도 적용 가능성을 확인했습니다. 또한, 사전 훈련된 LLM에 MASA를 적용하여 파라미터 수를 줄이는 가능성을 조사했습니다.