본 논문은 AI 모델의 추론 정확도를 향상시키기 위해 모델의 사고 예산을 늘리는 것의 중요성을 강조하지만, 모든 질문에 동일한 양의 추론이 필요한 것은 아니라는 점에 주목한다. 사용자들은 출력 품질, 지연 시간 및 비용 간의 균형을 고려하여 추론 노력의 양을 다르게 할 수 있다. 이러한 균형을 효과적으로 활용하기 위해, 사용자들은 특정 쿼리에 사용되는 사고량에 대한 세밀한 제어가 필요하지만, 이를 가능하게 하는 방법은 드물다. 기존 방법은 사용자가 원하는 토큰의 절대 개수를 지정해야 하며, 이는 쿼리에 적절한 토큰 예산을 설정하기 위해 문제의 난이도를 미리 알아야 함을 의미한다. 이러한 문제를 해결하기 위해, 본 논문은 각 쿼리에 대해 현재 평균 사고 연쇄 길이에 상대적인 사용자가 지정한 토큰의 비율을 사용하도록 모델을 훈련시키는 자기 적응 강화 학습 방법인 Adaptive Effort Control을 제안한다. 이 접근 방식은 데이터 세트 및 단계별 튜닝을 제거하고 표준 방법보다 더 나은 비용-정확도 트레이드 오프 곡선을 생성한다. 사용자는 추론 시간에 지정된 연속적인 노력 매개변수를 통해 비용-정확도 트레이드 오프를 동적으로 조정할 수 있다. 모델은 작업 난이도에 비례하여 자동으로 리소스를 할당하며, 15억에서 320억 매개변수에 이르는 모델 규모에서, 본 연구의 접근 방식은 RL 훈련에 사용된 기본 모델 대비 성능을 유지하거나 향상시키면서 사고 연쇄 길이를 약 3배 줄일 수 있다.