본 논문은 Retrieval-Augmented Generation (RAG) 환경에서 증가하는 추론 지연 시간과 비용 문제를 해결하기 위해 설계된 새로운 어텐션 메커니즘인 Block-attention을 제시한다. 기존의 접근 방식과 달리, Block-attention은 검색된 문서를 개별 블록으로 나누고, 마지막 블록을 제외한 각 블록은 독립적으로 키-값(KV) 상태를 계산한다. 각 구절을 블록으로 정의함으로써, 이전에 본 구절의 KV 상태를 재사용하여 추론 중 지연 시간과 계산 오버헤드를 크게 줄인다. Block-attention의 구현은 블록 분할, 위치 재인코딩 및 Block-attention 메커니즘에 적응하도록 LLM 미세 조정을 포함한다. RAG, ICL 및 일반 도메인을 포함한 11개의 다양한 벤치마크에 대한 실험 결과, 블록 미세 조정 후 Block-attention 모델은 전 어텐션 모델과 비교할 만한 성능을 달성할 뿐만 아니라 블록과 전 어텐션 모드 간에 성능 저하 없이 원활하게 전환할 수 있음을 보여준다. 특히, Block-attention은 첫 번째 토큰 출력 시간(TTFT)과 부동 소수점 연산(FLOPs)을 매우 낮은 수준으로 크게 줄인다. 총 길이 32K의 입력 시퀀스에 대해 첫 번째 토큰을 출력하는 데 45ms밖에 걸리지 않는다. 전 어텐션 모델과 비교하여 TTFT와 해당 FLOPs는 각각 98.7%와 99.8% 감소한다. 부록 A에서는 게임 AI 시나리오에 Block-attention을 적용하는 방법과 그에 따른 상당한 잠재적 이점에 대해 자세히 설명한다. 게임 분야 연구자들에게 이 부분을 주의 깊게 살펴볼 것을 강력히 권장한다.