본 논문은 대규모 언어 모델(LLM) 캐스케이드에서 작은 LLM을 사용하여 대부분의 질문에 답하고, 어려운 질문에만 크고 비싼 LLM을 사용하는 접근 방식을 제시합니다. 이를 통해 비용을 크게 줄이면서 성능 저하를 방지할 수 있습니다. 그러나 금융이나 의료와 같이 위험에 민감한 분야에서는 모델 오류를 피하는 것이 중요합니다. 따라서 비싼 모델조차도 실수할 가능성이 있으므로, 이러한 분야에서는 시스템이 어려운 질문에 대해 완전히 답변을 거부할 수 있도록 하는 것이 유리합니다. 본 논문에서는 LLM 캐스케이드에서 초기 모델이 답변을 거부하는 "조기 거부"의 이점을 조사하여, 여섯 개의 벤치마크(GSM8K, MedMCQA, MMLU, TriviaQA, TruthfulQA, XSum)에서 평균 2.2%의 테스트 손실 감소를 확인했습니다. 이는 전체 거부율을 4.1% 증가시키는 대신 비용을 13.0%, 오류율을 5.0% 감소시키는 더 효과적인 거부 전략을 통해 달성되었습니다.