대형 언어 모델(LLM)의 원치 않는 출력을 거부하는 것은 일반적이나, 기존 방법은 거부 후 재샘플링에 과도한 계산이 필요하거나, 출력 분포를 왜곡하여 비현실적인 토큰으로 제한하는 문제가 있었습니다. 본 논문에서는 투기적 디코딩(speculative decoding) 알고리즘에서 영감을 받아 출력 분포 왜곡과 계산 효율성의 균형을 맞추는 방법인 근사 정렬 디코딩(AprAD)을 제시합니다. AprAD는 어려운 제약 조건을 가진 긴 텍스트 시퀀스를 생성할 수 있으며, 기존 방법보다 낮은 확률의 출력을 훨씬 덜 증폭시킵니다. 실험을 통해 AprAD의 작업별 성능이 출력 분포를 왜곡하지 않는 방법과 유사하면서도 훨씬 더 계산 효율적임을 확인했습니다.