본 논문은 복잡한 추론 과제에 대한 인간 주석 데이터가 부족한 상황에서 모델의 자기 개선(self-improvement)이 성능 향상의 주요 방법으로 부상했지만, 그 메커니즘에 대한 이해가 부족하다는 점을 지적합니다. 특히 자기 개선이 효과적인 조건과 현재 반복 과정의 병목 현상에 대한 이해가 부족하다는 점을 문제 삼습니다. 이에 본 논문은 반복적인 자기 개선 과정에서 두 가지 중요한 요소, 즉 (1) 모델의 다양한 응답 생성 능력(탐색, exploration)과 (2) 고품질 응답과 저품질 응답을 구별하는 외부 보상의 효과(활용, exploitation)를 모니터링하는 방법을 제시합니다. 수학적 추론을 사례 연구로 사용하여 탐색과 활용의 역동성을 정량적으로 분석하고, 반복 과정에서 모델의 탐색 능력과 외부 보상의 효과가 모두 감소함을 발견합니다. 이러한 결과를 바탕으로, 본 논문은 반복 과정에서 탐색과 활용의 균형을 자동으로 조정하여 자기 개선 효과를 최적화하는 B-STaR(Balance exploration and exploitation in Self-Taught Reasoning)이라는 새로운 프레임워크를 제안합니다. 수학적 추론, 코딩, 상식 추론에 대한 실험 결과, B-STaR이 모델의 탐색 능력을 향상시키고 탐색과 활용 간의 균형을 더 효과적으로 유지하여 우수한 성능을 달성함을 보여줍니다.