Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Key and Value Weights Are Probably All You Need: On the Necessity of the Query, Key, Value weight Triplet in Decoder-Only Transformers

Created by
  • Haebom

저자

Marko Karbevski, Antonij Mijoski

개요

현재 최첨단 LLM의 어텐션 메커니즘의 핵심 구성 요소는 쿼리, 키, 값 가중치 삼중항입니다. 본 연구는 쿼리 가중치가 불필요하다는 것을 이론적으로 입증하여, 단순화된 가정을 통해 임베딩/lm-head를 제외한 파라미터 수를 8% 이상 줄일 수 있음을 확인했습니다. GPT-3 small 아키텍처 (레이어 정규화, 스킵 연결, 가중치 감소 포함)의 전체 복잡성에서 처음부터 학습하여 이론을 검증했으며, 감소된 모델이 표준 기준선과 유사한 검증 손실을 달성함을 입증했습니다.

시사점, 한계점

쿼리 가중치 불필요성 이론 입증.
GPT-3 small 아키텍처에서 쿼리 가중치 감소 모델의 성공적인 구현 및 검증.
비 임베딩/lm-head 파라미터 수 8% 이상 감소.
대규모 모델에서의 쿼리 가중치 불필요성 연구 필요.
단순화된 가정을 기반으로 한 이론적 연구.
GPT-3 small 모델에 대한 실험으로 제한됨.
👍