본 논문은 대규모 언어 모델(LLM)의 분산 추론에서 발생하는 통신 오버헤드를 줄이기 위한 새로운 최적화 기법인 Sync-Point Drop (SPD)을 제안합니다. Tensor Parallelism과 같은 기존 분산 추론 기법의 통신 오버헤드 문제를 해결하기 위해, SPD는 어텐션 출력에 대한 동기화를 선택적으로 생략하는 방식을 사용합니다. 이는 어텐션 블록의 설계 변경과 정확도 민감도에 기반한 SPD 전략 적용을 통해 구현됩니다. LLaMA2-70B 모델을 8개의 GPU에서 추론하는 실험 결과, SPD는 약 20%의 추론 지연 시간 감소와 1% 미만의 정확도 저하를 달성했습니다.