본 논문은 대규모 언어 모델(LLM)의 추론 비용을 줄이기 위한 새로운 문장 수준 추론 감소 프레임워크를 제안한다. 기존의 토큰 단위 감소 방법들은 명확한 기준 없이 토큰을 줄여 성능 저하를 야기하는 반면, 본 논문의 방법은 가능성 기반 기준과 상세도(verbosity)를 활용하여 중복된 추론 문장을 제거함으로써 추론 능력을 유지하면서 비용을 절감한다. 다양한 추론 작업에 대한 실험 결과, 제안된 방법은 토큰 생성량을 19.87% 줄이면서 성능을 평균 7.71% 향상시키는 것으로 나타났다.