본 논문은 장문맥락 처리가 필요한 대규모 언어 모델(LLM) 애플리케이션에서 추론의 사전 채우기 단계에서 자기 주의 모듈의 계산 복잡도 문제를 해결하기 위해 SALE이라는 새로운 방법을 제안합니다. SALE은 4비트 양자화된 질의-키 곱을 사용하여 빠르고 정확한 미세 입자 주의 가중치 추정을 달성하고, 블록-희소 주의를 통해 사전 채우기 계산을 가속화합니다. 중요도 평가에는 효율성이 높은 상대적 주의 점수(Relative Attention Score) 메트릭을 채택합니다. 맞춤형 CUDA 커널을 통해 하드웨어 효율성을 높였으며, 기존 시스템에 손쉽게 통합될 수 있도록 설계되었습니다. Llama-3.1-8B 모델을 사용한 실험 결과, 64K 이상의 시퀀스에서 최소 3.36배의 속도 향상을 달성하면서 모델 성능 저하를 최소화했습니다.