대규모 추론 모델(LRM)은 복잡한 문제 해결에 있어 괄목할 만한 발전을 이루었지만, 배포 시 높은 계산 비용을 초래한다. 본 연구에서는 사용자가 지정한 성능 손실 허용치 내에서 성능 손실을 제어하는 'PAC(Probably Approximately Correct) 추론'을 제안한다. 불확실성 점수의 단조 증가 함수로 공식화된 성능 손실에 대한 상한을 구축하고, 이를 기반으로 비사고 모드로 전환하기 위한 임계값을 결정한다. 이론적으로, 이 임계값을 사용하여 사고 및 비사고 모드를 전환하면 분포에 관계없이 제한된 성능 손실을 보장한다.